- 1、本文档共164页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信息内的容获取技术
Web文本挖掘就是从Web文档和Web活动中发现、抽取感兴趣的、潜在有用的模式和隐藏的信息的过程[23]。 Web文本挖掘与普通的平面文本挖掘既有类似之处,又有其自身的特点。 例如, 通信网中的短信、互联网中即时聊天工具和聊天室产生的聊天记录等文本具有每条记录包含字符少,而文本数量巨大的特点;BBS、Weblog等形式的网页越来越多地出现了带有个人情感色彩的文章、言论,这些由用户产生的文本包含大量不规范用语、网络流行语等。这些特点对传统文本挖掘的方法提出了新的任务和挑战。 * Web文本挖掘过程一般包括文本预处理、特征提取及缩维、学习与知识模式的提取、知识模式评价4个阶段。 文本预处理是文本挖掘的第一个步骤,其工作量约占整个挖掘过程的80%左右,其后几个阶段均有成熟的产品和软件系统。因此,文本预处理阶段对于文本挖掘效果的影响至关重要。 文本挖掘不但要处理大量的结构化和非结构化的文档数据,还要处理其中复杂的语义关系,因此现有的数据挖掘技术无法直接应用于其上。对于非结构化问题,一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘,由于数据非常复杂,导致这种算法的复杂度很高;另一条途径就是将非结构化问题结构化,利用现有的数据挖掘技术进行挖掘,目前的文本挖掘一般采用该方法进行。对于语义关系,则需要集成计算语言学和自然语言处理等成果进行分析。 * 过量信息同时呈现使得用户无法从中获取对自己有用的部分,信息使用效率反而降低,这一现象被称为“信息过载(Information overload)”。解决信息过载当前最好的手段是信息推荐技术,信息推荐技术属于网络信息被动获取技术范畴。 * 过量信息同时呈现使得用户无法从中获取对自己有用的部分,信息使用效率反而降低,这一现象被称为“信息过载(Information overload)”。解决信息过载当前最好的手段是信息推荐技术,信息推荐技术属于网络信息被动获取技术范畴。 * 信息推荐与信息检索最大的区别在于:信息检索注重结果之间的关系和排序,信息推荐还研究用户模型和用户的喜好,基于社会网络进行个性化的计算;信息检索由用户主导,包括输入查询词和选择结果,结果不好用户会修改查询再次检索。信息推荐是由系统主导用户的浏览顺序,引导用户发现需要的结果。高质量的信息推荐系统会使用户对该系统产生依赖。 信息推荐技术典型应用是在B2C电子商务领域。学术界自20世纪90年代中期开始关注信息推荐技术研究,并逐渐作为一门独立的学科呈现。本节主要给出信息推荐形式化定义、相关算法和研究进展[25]。 * 信息推荐技术典型应用是在B2C电子商务领域。学术界自20世纪90年代中期开始关注信息推荐技术研究,并逐渐作为一门独立的学科呈现。 本节主要给出信息推荐形式化定义、相关算法和研究进展[25]。 * 过量信息同时呈现使得用户无法从中获取对自己有用的部分,信息使用效率反而降低,这一现象被称为“信息过载(Information overload)”。解决信息过载当前最好的手段是信息推荐技术,信息推荐技术属于网络信息被动获取技术范畴。 * Resnick和Varian在1997年给出了信息推荐的非形式化定义[26]:利用电子商务网站向客户提供商品信息和建议,帮助用户决定应购买什么产品,模拟销售人员帮助客户完成购买过程。信息推荐有三个组成要素:推荐候选对象、用户、推荐方法。 信息推荐过程如下:用户可以向推荐系统主动提供个人偏好信息或推荐请求;如果用户不提供,推荐系统也可主动采集;推荐系统可以使用不同的推荐策略进行推荐,推荐系统将推荐结果返回给用户使用。 * PageRank算法由Stanford 大学的S. Brin和L. Page提出[5],算法的理论基础是图论,它将Web页面看做点,完全忽视访问内容。他们利用有向图的知识,建立了一个随机浏览行为模型:即以概率d顺着超链接点击访问;或者以概率1-d从一个新的页面开始访问。在该模型下,页面t被访问到的概率 通过计算所有的点的入度(in-degree) 与出度(out-degree) 求得,即PageRank值根据下式计算: * * 其中, 称为影响因子(damping factor),是一个经验常数,L.Page在实际使用公式(2-1)时取 。图2-3给出了PageRank算法。 : * PageRank算法的优点如下: (1)直接高效。PageRank算法直接对从Internet上模糊得来的“第一手资料”进行挖掘操作,没有中间步骤,实时性较高。而且,其思路是利用一个迭代公式进行计算,算法简单,效率较高。 (2)主题集中。PageRank算法的操作完全针对某一主题,可以较精确返回与之相关的重要页面,较好克服“主题漂移”[6]问题。 PageRank算法存在的缺
您可能关注的文档
- 第的六章应用层5.ppt
- 第的六章 扁形动物门.ppt
- 第的八讲 闪光灯.ppt
- 第的十章 ODBC.ppt
- 第的十六次课(位运算).ppt
- 第的四章 类与对象.ppt
- 第的十二讲 祖国完全统一的构想.ppt
- 第的十讲 文件.pdf
- 等值线的专题复习.ppt
- 第的四章曲线运动万有引力与航天第2讲.pptx
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
最近下载
- 山东省泰安市泰山区2023-2024学年上学期期中考试七年级英语试题.docx VIP
- 财务管理实务 财务管理实务 实训指导书.doc
- 2024年新人教版九年级上册化学全册教案.docx
- 上海通用汽车GVDP整车开发流程.pdf VIP
- 苏教版四年级上册同步奥数培优 第十四讲 智巧问题.pdf VIP
- 2024年江苏省苏州高新区招聘“两新”组织党建专职党务工作者6人历年【综合基础知识500题】高频考点模拟试题及参考答案解析.docx VIP
- 2024年武汉市东湖生态旅游风景区管理委员会公开招聘机关派遣制工作人员9人笔试备考试题及答案解析.docx VIP
- 人教版普通高中地理选择性必修2区域发展.pdf
- 人体解剖学常考重要知识点.doc
- 2023年江苏苏州相城区招考聘用两新组织党建专职党务工作者23人笔试历年难易错点考题荟萃附带答案详解.docx VIP
文档评论(0)