第六章 Web挖掘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 Web挖掘

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Intelligent Miner for Text是IBM推出的Web文本挖掘工具,是Intelligent Miner 家族的一员。这主要包括高级搜索引擎Text Miner, Web访问工具和文本分析工具三部分。其主要特点是具有强大的文本分析功能,包括特征提取、分类、聚类和自动摘要。Semio Map是由Semio公司开发的文本信息挖掘软件,主要特点是利用计算符号生成概念图,能够准确、直观地反映文献主题之间的关系,具有文本可视化、特征提取和聚类的功能。Text Analyst是Megaputer公司开发的一个智能文本信息挖掘和语义信息检索系统,它能够生成语义网,且能显示主题结构、文本聚类、自动摘要和自然语言检索等。 目前已有30多种Web日志分析工具,多数都是提供关于点击率、传送数据量、访问频度、错误率等的简单统计。a. Analog( w w w . statlab. cam. ac. uk)是由Stephen Turner博士开发的软件,是用来分析服务器日志文件的工具,可以直接在服务器上运行,也可以将日志文件下载到客户端,是一个实用性很强的日志文件分析工具。b. WUM ( Web Utilization Miner) ( wum. wiwi. h。一、erlin . de)是一种序列挖掘器,是对日志文件进行集成处理、查询及分析的工具。它的核心是MINT处理器,主要是对从Web日志文件中提取的集成信息进行分析,从而发现导航模式。c.CommerceTrends (www.webtrends .com)是第一个用于VRM( visitor relationship management)的平台。它能够让电子商务网站更好地理解其网站访问者的行为,通过它采用Web使用挖掘和用户模型的技术来满足用户的信息需求。它可以对web服务器的日志文件进行处理,把一个网站的信息分成不同的信息组,可反映出具有相同浏览行为的访问用户的集合及它们的一些属性;可以进行web站点统计和流量分析等。 * * * * * * * * * * * * * * * * 用户在Web上浏览或检索信息时,往往通过使用门户网 站所提供的搜索引擎工具。但目前的搜索引擎普遍存在精度低 和召回率低的问题。精度率低表现在当用户输入关键词检索信 息时,返回的查询结果动辄成百上千条,更有甚者会达到几十 万乃至上百万条,而其中大多数是一些与检索内容无关的信 息,也包括一些死链接,使查询者无所适从;召回率低是由于 Web上大量的信息未被索引或未被正确索引,因此导致搜索引 擎返回的查询结果并不全面。 * 用户在Web上浏览或检索信息时,往往通过使用门户网 站所提供的搜索引擎工具。但目前的搜索引擎普遍存在精度低 和召回率低的问题。精度率低表现在当用户输入关键词检索信 息时,返回的查询结果动辄成百上千条,更有甚者会达到几十 万乃至上百万条,而其中大多数是一些与检索内容无关的信 息,也包括一些死链接,使查询者无所适从;召回率低是由于 Web上大量的信息未被索引或未被正确索引,因此导致搜索引 擎返回的查询结果并不全面。 * * * * * * * * * * * * * * * Problems with Web Logs Identifying users – Clients may have multiple streams – Clients may access web from multiple hosts – Proxy servers: many clients/one address – Proxy servers: one client/many addresses Data not in log – POST data (i.e., CGI request) not recorded – Cookie data stored elsewhere – Pages may be cached – Use of forward and backward pointers Web Usage Mining的应用 System Improvement 1). Site Improvement 根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户 A =B = C= D A = D 极端:Adaptive web sites Web Usage Mining的应用 System Improvement 2). Caching Network Transmission 例如

文档评论(0)

wyjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档