- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈互联网信息挖掘技术.pdf
第4 期 广 东 交 通 职 业 技 术 学 院 学 报 NO.4
2003 年 12 月 Journal Of Guang Dong Communication Polytechnic December 2003
文章编号:1671-8496(2003)04-0037-03
浅谈互联网信息挖掘技术
黄君羡 欧 薇
(广东交通职业技术学院,广东广州,510650)
摘要: 本文就互联网信息挖掘技术和对网络信息挖掘中的关键技术、系统流程进行了阐述。
关键词: 数据挖掘 互联网 网页 信息提取
中图分类号:G354.4 文献标识码:A
1 概述
随着互联网的快速发展,浩如烟海的各种信息呈现在用户面前。但伴随的问题是用户越来越难以
获得其最需要的信息。早期为了解决此问题,出现了以雅虎(Yahoo )为代表的半自动化的网络搜索引
擎(Search Engine )。网络搜索引擎主要由网络机器人(Robot )、索引数据库和查询服务三个部分组成。
网络机器人对互联网资源进行遍历,尽可能多地发现并采集新的信息;采用全文检索技术对采集到的
信息建立索引存到索引数据库中,能够极大地提高信息检索的速度;查询服务接收并分析用户的查询,
即将用户查询作为数据库提问式,根据一定的匹配策略,如布尔模型、模糊布尔模型等方法遍历索引
数据库,最后将达到一定的匹配程度的结果(包括标题项,简单文摘和链接地址)集合返回给用户。
由于人工智能研究还未达到实用化水平,目前网络机器人还无法实现信息的准确分类,使得检索的结
果不尽人意,例如,某一用户利用“加密解密”进行检索时,其本意是想得到有关加密解密发展情况
的资料,但搜索引擎大多是返回大量的无关其关键技术发展的文章,造成这样情况的原因是现有的搜
索引擎大多是基于简单的关键词匹配,不能真正理解用户的检索意图所造成的。另外,目前多数搜索
站点都是通过人工方式对信息进行再一次处理,这样使得信息整理的速度远远落后于网络信息的膨胀。
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来的一个新的研究
课题,它是数据挖掘技术在网络信息处理中的应用。网络信息挖掘是指在大量训练样本的基础上,得
到数据对象间的内在特征,并以此为依据进行有目的的信息提取。例如,当信息挖掘系统发现用户的
兴趣是“加密解密技术发展”时,它就会自动过滤掉加密解密技术等无关的数据,这样可以大大减少
用户的检索时间和成本。
网络信息挖掘与网络信息检索所采用的技术有很多相似之处,但也有本质的区别。网络信息挖掘
技术沿用了Robot 、全文检索等网络信息检索中的优秀成果,同时综合运用人工智能、模式识别、神经
网络领域的各种技术。网络信息挖掘系统与网络信息检索的最大不同在于它能够获取用户个性化的信
息需求,根据目标特征信息在网络上,或者信息库中进行有目的的信息搜寻。本文现就网络信息挖掘
技术的总体流程、技术实现进行阐述。
2 网络信息挖掘技术中的关键技术及系统流程
2.1 网络信息挖掘中的关键技术
2.1.1 目标样本的特征提取
网络信息挖掘系统采用向量空间模型(Vector Space Modal,VSM) ,用特征词条(T ,T ,… ,
1 2
T)及其权值 W 代表目标信息。在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相
n i
关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统
的运行效果。词条在不同内容的文档中所呈现出的频率分布是不同的,因此,可以根据词条的频率特
性进行特征提取和权重评价。
一个有效的特征项集应该既能体现目标内容,也能将目标同其它文档相区分,因此,词条权重的
正比于词条的文档内频数,反比于训练文本内出现该词条的文档频数。构造如下特征项权值评价函数:
Weight(word)= tf *IDF= tf *log(N/n +1)
ik i ik k
其中tf 表示词条T
文档评论(0)