- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网挖掘和搜索的研究进展
刘悦许洪波程学旗
中国科学院计算技术研究所信息智能与信息安全中心
.1iu,yue@——ict.ac.—c———n一
随着互联网(WorldWide
Web,简称Web)的发展,我们处在一个搜索无处不在的时代。
据不完全统计,在互联网和企业内部,以网页、邮件、格式化文档、音视频文件为主的非结
构化数据占其全部数据的80%以上。以搜索引擎为代表的互联网公众信息服务正成为新一
轮网络圈地运动的生力军,以垂直搜索、企业内部搜索、桌面搜索、文本信息挖掘与融合等
为代表的个性化检索技术已经成为企业智能和内容管理不可或缺的重要组成部分。Web为全
世界人民开辟了一个共同的天地,人们在这个虚拟的世界中,以一种全新的方式进行交流,
传统的信息检索技术由于Web的出现面临着巨大的挑战,因此Web搜索和挖掘近几年成为
信息检索领域研究的热点。在研究领域,多学科交叉的趋势越发明显。以机器学习、数据挖
掘为代表的统计学习方法和计算语言学相关的计算模型与知识库已经逐步与信息检索相融
Random
理领域的方法.如最大熵、隐马尔可夫模型、马尔可夫随机场O“arkov Field)模型等
等纷纷用于信息检索。在网络社区搜索以及个性化信息服务领域,P2P计算、用户行为挖掘、
复杂网络模型等相关的理论技术开始被研究人员应用于检索领域。同时,融合本体知识、浅
层语言分析和个性化计算等相关的检索技术开始被服务器和桌面平台、网络服务平台以及网
格平台领域的内容关联、资源定位等关键技术研究所芙注。
1研究背景
Raymond
使用挖掘。当前,在这三个方面的内容在研究界一直被人们所关注。具体进展简单综述如下:
Content
1_1Web内容挖掘(WebMining)
Retrieval,IE)的结
Web内容挖掘可以看作是Web信息检索(IR)和信息抽取(Information
合。目前的研究主要集中在利用词频统计、分类算法、机器学习、元数据(MetaData)、部
Rule),
文本挖掘不仅指的是单独文档中的信息提取,同时也包括分析文档集合的模式和趋势。文本
挖掘包括对文本的分类/归类,涉及到决策树等算法。
目前Web内容挖掘和Web信息检索基本使用基于词频的统计模型,矢量空间模型是最
广泛采用的模型。在这个模型里文档用矢量来表示。而文档中词汇的属性用矢量的分量来表
一18一
示,其分量值是该属性的权重,也就是该属性出现的频率。同理,查询组合也可以矢量来表
示,查询与文档的相似度就是两个矢量的内积,即两个矢量夹角的余弦值.
他指出第一代的搜索引擎是基于关键词的搜索;第二代的搜索引擎是基于文档主题的文档分
类:Mitchell指出目前Web内容挖掘的主要算法有三种:
1)NaiveBayes模型。它是计算基于主题词频率来匹配目标文档概率的基本算法。
2)Maximum
中出现概率。这种方法需要正面和负面的训练样本。
签数据,它利用了超链接信息和文本内容的组台。这实际上是Wcb内容挖掘和Web
结构挖掘的组合。
Structure
1.2Web结构挖掘(Web Mining)
在web上进行信息检索面临的最大问题是如果对获得的大量搜索结果进行整理和排
序,从而快速的定位最符合检索要求的文档,剔除掉与检索内容不相关的文档集合。超链接
作为超文本文档的一个重要特征,为Web信息获取提供了有价值的信息。近来以超链接分
的方法相比有了大幅度的提高。
一般说来,Web文档中的超链接包含了两种信息。首先它为用户提供了浏览Web的导航
信息.如常用的导航条用来指引访问者在各页面之间跳转:其次,页面中的超链接往往是文
档作者对于某一文档的推荐,被推荐的目
文档评论(0)