- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web的网络信息挖掘技术研究
摘要:该文首先结合自己所做的一个检索实例对基于Web信息挖掘技术的步骤做了详细的阐述,并在此基础上系统描述了信息挖掘过程中所用到的关键技术,文章最后对信息挖掘技术的应用前景进行了展望。
关键词:信息挖掘;文本特征;自动文摘
中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)16-4339-03
Research of Information Mining Based on the Web
GAO Li-min, LI Jun, XIAO Yan-qin
(Computer Center of Hebei University, Baoding 071002, China)
Abstract: In this paper, the steps of Web-based Information Mining technology are described in detail with a search instance which is designed by author firstly, and on this basis, the key technologies used in the information miming are discussed. Finally, the prospect of application of the information mining technology is put forward.
Key words: information mining; character of text; automatic digest
以计算机、通信和信息技术为支柱的网络,将世界各国、各地区联为一体,形成一个崭新的信息和通信网络系统。它迅速地传递和处理着各种数字化的数据、信息和知识,并且逐渐渗透到社会生活的各个角落,扩展到人类交往的各个方面,改变着人们的生活、学习方式。我们不可否认,计算机和网络能在“弹指之间”向我们提供“浩如烟海”的信息,但同时也使我们陷入了一种困境:我们无法在这样的信息海洋中快速、准确地获得我们所需要的信息。因为Internet中没有统一的数据模型和查询语言,没有统一的结构,资源分散且信息不断更新,这样就导致了人们在检索信息发生时“信息迷向”和“信息过载”现象,虽然Web上的搜索引擎部分地解决了资源发现问题,但由于精度不高等原因,其效果不尽人意[1]。在这样的时代背景下,基于Web信息挖掘技术日益成为人们研究的热点问题之一。
本文重点阐述了基于Internet信息挖掘技术的步骤包括文本特征的建立、特征集的缩减、学习与知识模式的提取、模式质量的评价。并在此基础上系统描述了信息挖掘过程中所用到的关键技术。
1 信息挖掘的基本步骤
网络信息挖掘是综合文本数据库(web文档数据)、半结构化数据(semistructure data)和信息检索技术(information retrieval)相结合的新兴技术,它源于以数据库为基础的结构化的数据挖掘[2]。因此,网络信息挖掘与结构化的数据挖掘在步骤上有一定相似之处,但也有自身独特的特点。网络信息挖掘的具体步骤可分为资源的发现、文本特征的建立、特征集的缩减、学习与知识模式的提取、自动文摘、模式质量的评价。
1.1 资源的发现
资源的发现就是指从网络中的信息文档中发现有用信息的过程。网络信息资源类型众多,Internet出现之前的Gopher、FTP等资源以及现在广泛流行的WWW形式均可以通过Web方式进行访问;目前WWW信息资源已经成为网络信息资源的主体。为了能够将大量的Web页中的信息储存起来,实现源信息的采集,需要通过几个分布的Robot程序(自动搜索软件)同时工作――沿着 Web页面中的超链接进行自动漫游,URL服务器则负责向这些Robot程序提供URL的列表。Robot程序所找到的网页被送到存储服务器(Store Server)中,以便对这些网页中的信息建立其文本特征。
1.2 文本特征的建立
信息的文本特征指的是关于文本的元数据。按照元数据的特性可将文本特征分为描述性特征(文本的名称、日期、大小、类型等)和语义性特征(文本的作者、标题、机构、内容等)。文本特征的建立就是指用一定的特征项 (如词条或描述 )来描述网页内容中的信息,在信息挖掘时用这些特征项评价要搜索的网页与用户挖掘目标的相似度,文本特征的建立过程就是挖掘模型的构造过程,数据挖掘的模型有多种,常用的有布尔逻辑型、向量空间型、概率型等。近年来应用较多且效果较好的文本特征建立方法是向量空间模型 (vector
文档评论(0)