- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
试论文本挖掘及其应用,文本挖掘应用,文本挖掘的应用,文本挖掘,文本挖掘算法,文本挖掘原理,python文本挖掘,r语言文本挖掘,python中文文本挖掘,文本挖掘pdf
22 图 书 馆 学 研 究 20084
试论文本挖掘及其应用
肖建国
【摘 要】本文从文本挖掘的定义着手 , 分析了文本挖掘的过程 , 包括文本预处理 , 文本知识发现 , 文本模式
的评价以及文本模式的呈现 , 并详细介绍了文本挖掘在主动信息服务 、信息检索系统、专利信息分析等方面的
应用 。
【关键词】文本挖掘 文本预处理 文本特征 主动信息服务 信息检索
Abstract : The t he si s b e gin s fro m t he definition of t ext minin g , a n alyz e s t he p ro c e s s of t ext minin g , including
t he t ext p r et r e a t ment , t he t ext knowl e dge di scoverin g , t he t ext p a t t ern app r ai s al a s w ell a s t ext p at t ern
p r e sentin g , a n d int ro duc e s t he applic a tion of t ext minin g in t he initi a tive informa tion servic e , t he informa tion
r et ri ev al sy st em , p at ent information a n aly si s a n d so on
Key words : t ext mining t ext p r et r e at ment t ext ch ar a ct eri stic initi ative informa tion servic e informa tion
r et ri ev al
随着互联网的大规模普及和社会信息化程度的提 挖掘项 目也各有其侧重点。因此 , 对文本挖掘的定义
高 , 文本信息的快速积累使公司、政府和科研机构在 也有多种 , 其中被普遍认可的文本挖掘定义如下 :
信息处理和使用中面临前所未有的挑战。一方面 , 互 文本挖掘 ( Text Minin g , TM) 也称为文本数据挖
联网和各种信息机构每天都不断产生大量的有价值的 掘 ( Text Da t a Mining , TDM ) 或 文 本 知 识 发 现
文本数据 ; 而另一方面 , 因为技术手段的落后 , 从这 ( Knowle d ge Di scovery in Text s , KDT) , 它是指从大
些文本数据资源中获取需要的信息十分困难 。人们迫 量文本数据中抽取事先未知的、可理解的、最终可用
切需要研究出方便有效的工具去从大规模文本信息资 的知识的过程 , 同时运用这些知识更好地组织信息以
源中提取符合需要的简洁 、精炼 、可理解的知识 , 文 便将来参考 。直观地说 , 当数据挖掘的对象完全 由文
本挖掘就是为解决这个问题而产生的研究方向。 本这种数据类型组成时 , 这个过程就称为文本挖掘 。
1 文本挖掘的定义 2 文本挖掘的过程
文本挖掘的主要 目的是从非结构化的文本文档中 文本挖掘主要由以下几部分组成 :
提取有趣的、重要的模式和知识 。所以它可以看成是 2 1 文本预处理
基于数据库的数据挖掘或知识发现的扩展 。但与传统 文本预处理指选取与任务相关的文本并将其转化
的数据挖掘相比,
文档评论(0)