网络信息内的容获取技术.ppt

下载文档 降价啦

5
0
约5.76万字
约 164页
2018-02-19 发布于浙江
举报
版权申诉
保障服务

网络信息内的容获取技术.ppt

1、本文档共164页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络信息内的容获取技术

Web文本挖掘就是从Web文档和Web活动中发现、抽取感兴趣的、潜在有用的模式和隐藏的信息的过程[23]。 Web文本挖掘与普通的平面文本挖掘既有类似之处，又有其自身的特点。例如，通信网中的短信、互联网中即时聊天工具和聊天室产生的聊天记录等文本具有每条记录包含字符少，而文本数量巨大的特点；BBS、Weblog等形式的网页越来越多地出现了带有个人情感色彩的文章、言论，这些由用户产生的文本包含大量不规范用语、网络流行语等。这些特点对传统文本挖掘的方法提出了新的任务和挑战。 * Web文本挖掘过程一般包括文本预处理、特征提取及缩维、学习与知识模式的提取、知识模式评价４个阶段。文本预处理是文本挖掘的第一个步骤，其工作量约占整个挖掘过程的80%左右，其后几个阶段均有成熟的产品和软件系统。因此，文本预处理阶段对于文本挖掘效果的影响至关重要。文本挖掘不但要处理大量的结构化和非结构化的文档数据，还要处理其中复杂的语义关系，因此现有的数据挖掘技术无法直接应用于其上。对于非结构化问题，一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘，由于数据非常复杂，导致这种算法的复杂度很高；另一条途径就是将非结构化问题结构化，利用现有的数据挖掘技术进行挖掘，目前的文本挖掘一般采用该方法进行。对于语义关系，则需要集成计算语言学和自然语言处理等成果进行分析。 * 过量信息同时呈现使得用户无法从中获取对自己有用的部分，信息使用效率反而降低，这一现象被称为“信息过载（Information overload）”。解决信息过载当前最好的手段是信息推荐技术，信息推荐技术属于网络信息被动获取技术范畴。 * 过量信息同时呈现使得用户无法从中获取对自己有用的部分，信息使用效率反而降低，这一现象被称为“信息过载（Information overload）”。解决信息过载当前最好的手段是信息推荐技术，信息推荐技术属于网络信息被动获取技术范畴。 * 信息推荐与信息检索最大的区别在于：信息检索注重结果之间的关系和排序，信息推荐还研究用户模型和用户的喜好，基于社会网络进行个性化的计算；信息检索由用户主导，包括输入查询词和选择结果，结果不好用户会修改查询再次检索。信息推荐是由系统主导用户的浏览顺序，引导用户发现需要的结果。高质量的信息推荐系统会使用户对该系统产生依赖。信息推荐技术典型应用是在B2C电子商务领域。学术界自20世纪90年代中期开始关注信息推荐技术研究，并逐渐作为一门独立的学科呈现。本节主要给出信息推荐形式化定义、相关算法和研究进展[25]。 * 信息推荐技术典型应用是在B2C电子商务领域。学术界自20世纪90年代中期开始关注信息推荐技术研究，并逐渐作为一门独立的学科呈现。本节主要给出信息推荐形式化定义、相关算法和研究进展[25]。 * 过量信息同时呈现使得用户无法从中获取对自己有用的部分，信息使用效率反而降低，这一现象被称为“信息过载（Information overload）”。解决信息过载当前最好的手段是信息推荐技术，信息推荐技术属于网络信息被动获取技术范畴。 * Resnick和Varian在1997年给出了信息推荐的非形式化定义[26]：利用电子商务网站向客户提供商品信息和建议，帮助用户决定应购买什么产品，模拟销售人员帮助客户完成购买过程。信息推荐有三个组成要素：推荐候选对象、用户、推荐方法。信息推荐过程如下：用户可以向推荐系统主动提供个人偏好信息或推荐请求；如果用户不提供，推荐系统也可主动采集；推荐系统可以使用不同的推荐策略进行推荐，推荐系统将推荐结果返回给用户使用。 * PageRank算法由Stanford 大学的S. Brin和L. Page提出[5]，算法的理论基础是图论，它将Web页面看做点，完全忽视访问内容。他们利用有向图的知识，建立了一个随机浏览行为模型：即以概率d顺着超链接点击访问；或者以概率1-d从一个新的页面开始访问。在该模型下，页面t被访问到的概率通过计算所有的点的入度（in-degree）与出度（out-degree）求得，即PageRank值根据下式计算： * * 其中，称为影响因子（damping factor），是一个经验常数，L.Page在实际使用公式（2-1）时取。图2-3给出了PageRank算法。： * PageRank算法的优点如下：（1）直接高效。PageRank算法直接对从Internet上模糊得来的“第一手资料”进行挖掘操作，没有中间步骤，实时性较高。而且，其思路是利用一个迭代公式进行计算，算法简单，效率较高。（2）主题集中。PageRank算法的操作完全针对某一主题，可以较精确返回与之相关的重要页面，较好克服“主题漂移”[6]问题。 PageRank算法存在的缺