网站大量收购独家精品文档,联系QQ:2885784924
  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
内容挖掘

内容挖掘 内容 一、内容挖掘的定义 二、国内外的研究情况 三、内容挖掘的分类 四、内容挖掘的相关算法及其应用 五、参考文献 一、内容挖掘的定义 Web上的信息量随着因特网的飞速发展以惊人的速度增长,面对Web上海量、分布、动态、异质、复杂、非结构化的丰富信息资源,用户如何从中查找、抽取自己想要的数据和有用信息,由此产生了Web挖掘技术。 Web挖掘就是从大量的Web文档和Web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。Web信息的多样性决定了Web挖掘任务的多样性。Web挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web应用挖掘 。 Web内容挖掘是指对Web页面内容进行挖掘,从Web文档的内容信息中抽取知识。Web内容挖掘是一种基于网页内容的Web挖掘,是从大量Web数据中发现信息、抽取有用知识的过程。Web内容挖掘是Web挖掘的一个重要方面。 二、国内外研究现状 (1)国外研究概况 Web内容挖掘和信息检索有较深的渊源,因此,许多技术都是源自信息检索领域。互联网上信息量大,由于这些信息缺乏结构化、组织的规整性,目前几乎所有的互连网查询工具(搜索引擎)都面临匹配的查准率低,给出的查询结果大量冗余而查全率又不高的问题。对这个问题的研究,大致有两个方向: 一是从信息检索角度研究这个问题,主要研究如何处理文本格式和超链接文档,这些数据是非结构化或者是半结构化的。数据以词组、短语、n-维词元、词包等形式表示,采用TFIDF(文档特征权值表示常用方法)和变量、机器学习和词组统计包括自然语言的统计等研究方法对文档进行分类、聚类,研究抽取词组在文档中出现的规律。Craven等研究了用关系模型表示文档内容,采用修改了的贝叶斯算法,给超文本链接分类,寻求Web页面关系,抽取规则。Crimmins研究了用短语、超级链接和信息元表示 文档内容,采用自动和非自动学习的分类算法,对文档进行聚类和分层分类。Furnkranz和Joachims用超级链接信息表示文档内容,采用规则学习算法PTFIDF,对超级链接文档进行分类。 二是从数据库角度研究,主要处理半结构化的Web数据库,也就是超级链接文档。数据多采用带权图或者对象嵌入模型(Object Embedded Model OEM),或者关系数据库表示,应用Proprietary算法或者经过修改了的关联规则挖掘算法,寻找出网站页面之间的内在联系。Goldman、Nestorov等人用OEM表示文档,采用Proprietary算法,分别在半结构化数据中,寻找标引字段和数据的层次结构。Zaiane等用关系数据库表示数据,采用面向对象的推理方法,寻找多层次数据库的构建策略,为文献标引提供决策依据。 无论是从IR角度还是从数据库角度研究,都是为了研究如何实现文本分析(Text Analysis)、文本解释(Text Interpretation)和文本分类(Text Classification)等工作的自动化。从而提高网上搜索引擎的查准率和查全率。 (2)国内研究概况 国内互联网是从1997年开始迅速蓬勃发展起来的,国内学者从1999年才开始关注Web数据挖掘,与国外相比起步较晚。 周斌等介绍了采用E-OEM模型,并用5个用户访问模式做训练数据集,尝试着进行了关联规则挖掘。 刘明吉等提出了基于遗传算法的Web文本特征的算法,进一步提高Web文本处理的效率,为文本分类、聚类以及其他处理提供了简练的特征表示方法。 Web数据挖掘在国内已经逐渐引起人们的关注。但是,由于起步比较晚,还没有开发出具有商用价值的系统,而且国内大多数网站经营管理者对发掘有用信息的重要性认识不充分,网络管理人员还停留在关注服务器性能阶段,还没有达到关注网站服务质量的层次。 以往的研究大都是对Web数据挖掘的某一部分在某个特定领域的应用,目前,国内外都有一种把不同部分结合起来进行研究的趋势。如:Web内容挖掘和Web应用挖掘的集成在国内外都得到了广泛的研究,在Web使用挖掘的过程中引入Web内容挖掘的结果,可以更准确地找到具有相似爱好的用户,从而根据这些知识为不同的用户类定制个性化的服务,优化网络拓扑结构,方便用户快速地找到感兴趣的内容。 挖掘的结合使用 三、内容挖掘的分类 Web内容挖掘是指从Web的文档内容或描述中抽取知识,它包括:从www上提取信息的搜索引擎;从Web上提取信息的智能搜索工具;Web信息结构化;HTML页面内容挖掘。 Web内容挖掘主要有两种方式:①直接挖掘文档的内容;②根据搜索引擎的

文档评论(0)

cbf96793 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档