WEB数据挖掘课件_01.ppt

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
WEB数据挖掘课件_01

* * * * * * * * * * * * * * * * * * Intelligent Miner for Text是IBM推出的Web文本挖掘工具,是Intelligent Miner 家族的一员。这主要包括高级搜索引擎Text Miner, Web访问工具和文本分析工具三部分。其主要特点是具有强大的文本分析功能,包括特征提取、分类、聚类和自动摘要。Semio Map是由Semio公司开发的文本信息挖掘软件,主要特点是利用计算符号生成概念图,能够准确、直观地反映文献主题之间的关系,具有文本可视化、特征提取和聚类的功能。Text Analyst是Megaputer公司开发的一个智能文本信息挖掘和语义信息检索系统,它能够生成语义网,且能显示主题结构、文本聚类、自动摘要和自然语言检索等。 目前已有30多种Web日志分析工具,多数都是提供关于点击率、传送数据量、访问频度、错误率等的简单统计。a. Analog( w w w . statlab. cam. ac. uk)是由Stephen Turner博士开发的软件,是用来分析服务器日志文件的工具,可以直接在服务器上运行,也可以将日志文件下载到客户端,是一个实用性很强的日志文件分析工具。b. WUM ( Web Utilization Miner) ( wum. wiwi. h。一、erlin . de)是一种序列挖掘器,是对日志文件进行集成处理、查询及分析的工具。它的核心是MINT处理器,主要是对从Web日志文件中提取的集成信息进行分析,从而发现导航模式。c.CommerceTrends (www.webtrends .com)是第一个用于VRM( visitor relationship management)的平台。它能够让电子商务网站更好地理解其网站访问者的行为,通过它采用Web使用挖掘和用户模型的技术来满足用户的信息需求。它可以对web服务器的日志文件进行处理,把一个网站的信息分成不同的信息组,可反映出具有相同浏览行为的访问用户的集合及它们的一些属性;可以进行web站点统计和流量分析等。 * * * * 用户在Web上浏览或检索信息时,往往通过使用门户网 站所提供的搜索引擎工具。但目前的搜索引擎普遍存在精度低 和召回率低的问题。精度率低表现在当用户输入关键词检索信 息时,返回的查询结果动辄成百上千条,更有甚者会达到几十 万乃至上百万条,而其中大多数是一些与检索内容无关的信 息,也包括一些死链接,使查询者无所适从;召回率低是由于 Web上大量的信息未被索引或未被正确索引,因此导致搜索引 擎返回的查询结果并不全面。 * 用户在Web上浏览或检索信息时,往往通过使用门户网 站所提供的搜索引擎工具。但目前的搜索引擎普遍存在精度低 和召回率低的问题。精度率低表现在当用户输入关键词检索信 息时,返回的查询结果动辄成百上千条,更有甚者会达到几十 万乃至上百万条,而其中大多数是一些与检索内容无关的信 息,也包括一些死链接,使查询者无所适从;召回率低是由于 Web上大量的信息未被索引或未被正确索引,因此导致搜索引 擎返回的查询结果并不全面。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * ,这种格式适合于使用计算机及其相关设备自动地进行传输、翻译或加工处理 * * * * * * * * * * * * * * Web Structure Mining PageRank Stanford project Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd. The PageRank Citation Ranking: Bringing Order to the Web. Google HITS (Hyperlink-Induced Topic Search) Jon M. Kleinberg: Authoritative Sources in a Hyperlinked Environment. JACM 46(5): 604-632 (1999) HITS ( Hypertext-Induced Topic Search) developed by Jon Kleinberg, while visiting IBM Almaden. IBM expanded HITS into Clever. Web Structure Mining Internet的宏观特性挖掘 如无尺度、小世界特性、蝴蝶结理论,利用这些来提高挖掘的效率与质量。 Web Structure

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档