- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
摘要
随着计算机技术的不断普及,人类的知识正通过互联网这个平台不断的实
现资源共享。但是,由于互联网上的资源是非常庞大、无组织且不断更新的,
人们想要从浩瀚的互联网资源中及时地提取出自己关注的内容是非常困难的。
因此,文本挖掘技术应运而生。而文本特征抽取,是提高文本挖掘效率和正确
率的根本前提。
粗糙集理论是20世纪发展起来的一种新的处理模糊性和不确定性知识集合
的数学工具。在信息系统分析,数据挖掘等领域具有很高的应用价值。
本文重点介绍了粗糙集理论的基本概念、基本方法。分析了当前比较流行
的文本特征抽取的方法,从算法的特征约简率和文本正确分类率两个方面,对
当前算法进行了比较与分析。在此基础上,本文根据文本特征约简的根本目的,
以及粗糙集理论关于决策属性相对于条件属性的依赖程度的基本原理,提出了
新的文本特征属性重要度的计算方法,该文本特征属性重要度是基于特征权重
在文本类内方差和类间方差而计算得到的。这种文本特征属性重要度的计算方
式,可以根据文本特征属性的分类能力确定该特征属性的重要度。在文本预处
理阶段,本文的基于WordNet将文本词条向量提升为文本概念向量,解决了“同
义词”问题。为了进一步提高文本特征的约简率,本文提出了属性相关度分析
方法,该方法可以确定两个特征属性相对文本分类所起到作用的近似程度,并
在此基础上剔除相关度较高的属性,从而提高属性约简率。结合WordNet、新的
特征属性重要度定义,以及属性相关度分析理论,本文设计了一套完整的文本
based011
特征约简算法(TextFeatureExtraction Set,TFERS),该算法充分
Rough
提高了文本特征的约简率和文本正确分类率。
Tan等
最后,本文在Reuters.21578测试集合上对经典的LSI算法、Songbo
人的DB2算法、以及本文提出的TFERS算法进行了对比实验,并分析实验结果
数据,每种方法的优劣及其形成的原因。为文本特征抽取算法的进一步研究积
累了一定的经验。
关键字:文本挖掘WordNet特征约简属性重要度属性相关度
Abstract
Abstract
Withthe of is
popularizationcomputer sharingthrough
technology,knowledge
theIntemet theresourcesontheInternetare
platform.However,because verylarge,
to the one’S
and isdifficultextractcontentsof
unorganized
constantlyupdated,it
concernsin text cameinto thetext
time.Therefore,theminingtechnologybeing.And
featureextractionisthefundamentaloftext Can
premise miningtechnology,which
the rateand
文档评论(0)