- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
V01.35
第35卷等辑 兰州太学学报l自然科学版) Supp·
Univm
JournalefLanzhou Science)
1999年8月 sity(Natural
一一垒竖!!!!
文章编号,3455—2059(1999)0314‘05
文本挖掘一数据挖掘研究的新课题
王继成,孙颖,张福炎
(南京大学计算帆科学与技术系,江苏南京210093
摘要:在文档充斥的情况下.文本挖掘作为一个新的研究方向,引起r再个领域的巨大兴趣
目前,文奉挖掘的研究正处十发展阶段.尚尤统一的结论,斋嘤围内外学肯开展更多的讨论以
进干f准确地定义本文对文奉挖拥技术的定义.过程,功能和万法作r韧步系统性的探讨,介
绍丁文奉挖掘的J衄用.并提H{r术米的州究^向
关键词:文术挖掘,数据挖掘:信息检索:文本分类,文本聚娄
0引言
在戕机存储的信息中,80%以文本形式存在”-,包括Web页面、技术文档、电子邮件等.
人们迫切需要能够从人量文本集台qnf央述、有效地发现资源平l旧]识的]:具.从60年代以来,
信息检索领域已经取得了许多研究成果,部分地解决了资源发现问题.仙山丁精确度不高
等原因,其效果远不能使人满意,Web搜索引擎就是典l!的例子.此外,检索系统的目的在
丁发现相关文档,就文本中的知识发现而言,即使检索精度再高,检索系统也不能够胜任.
为此,我们需要开发比信息检索层次更深的新技术.
为了从火量数据的集台中发现订做、新颢、仃用、可理解的模式.数据库领域采用了
数据挖掘技术o】.但是,数据挖捌的绝人部分:1.作所涉及的是结构化数据库,很少有处理1限
结构化文本信息的r作.近年来,文本挖掘作为数据挖掘的一个新主题.吸引了众多领域
的注意力.目前,文本挖掘正处丁发展初埘,对丁其含义、过程、功能等尚无统一的结论.许
论会,对其理论、体系结构、算法等展开研究.本文对文本挖捌技术作丁初步系统性的阐
述:给出了文本挖掘的定义,讨论了文本挖{弃ff与信息检索之问的关系:分析了文本挖掘的
准器过程;描述了文本挖捌的各种功能与方法;并对文本挖掘的应用作了介绍.
1文本挖掘与信息检索
1 1文本挖掘的定义
文本挖掘是~项综合技术,涉及数据挖掘、计算机语言学、信息检索、知识管理等多
个领域.不同研冗者从自身的领域出发,对文本挖掘的含义有着不同的理解.例如,有些
计算机语言学家认为,“文本挖摭是从文档上’r文中自动地学习词语的意义,以进}『词义
辨析或确定词语序:属的概念”‘“.我们从数据挖拥的角度出发,对文本挖掘给出一个更为一
28.
收稿日期1999—02
作者简介:L继成(1973一),男,博f.’L
专辑 王继戍等:丈本挖掘一数挑挖掘研咒的斩徕题 315
般的定义.
定义1文本挖掘,是指将数据挖掘技术应用在大量文本集合上,以发现其中隐含的知
识.
传统的数据挖掘局限于数据库中的结构化数据,利用关系表格等存储结构来发现知识.
文本作为一种主要的数据存储形式,也应该成为数据挖掘的一个重要对象.大多数作用于
数据库上的知识发现功能,例如总结、分类、聚类、关联分析等,在文本挖掘中都能够或
者可能被实现.文本挖掘所输入的文本集合既可能是非结构化的、也可能是半结构化的.文
本挖掘所产生的知识,既可以是对各个文档含义的概括,也可以是有关整个文档集合的结
构或趋势描述.
1,2信息检索的定义
定义2信息检索,是指从大量文档集合中找到弓查询请求相关的、恰当数目的文档子
集.
信息检索技术产生和发展的推动因素来自于人们对文档资源发现的需求.信息检索系
统的一般流程包括:对文档集台建立倒排索引、分析用户查询请求、匹配文档与
文档评论(0)