粗糙集理论在文本挖掘的分类算法中的应用的研究.pdf

粗糙集理论在文本挖掘的分类算法中的应用的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
粗糙集理论在文本挖掘的分类算法中的应用研究 摘 要 目前传统的信息检索技术己不适应日益增加的大量文本数据处理的需要,用 户需要更加有效的检索算法实现文档重要性和相关性的排列,完成不同文档的分 类比较,或找出多文档的模式和趋势。所以,文本数据的挖掘成为数据挖掘中一 个日益流行且重要的研究课题。 文本挖掘中常用的技术有文本的自动分类、聚类、文本总结和关联分析等, 其中文本自动分类是一种重要的方法。利用文本的自动分类技术可以用来整理互 联网内部的文本,通过将文本分配到一个类别体系中,限定查找文本的范围;还 可以应用到搜索引擎的检索结果的组织上,将搜索引擎的检索结果划分为若干个 具有明确主题的簇,使得用户只考虑相关的簇,大大缩小了需要浏览的文本数量。 本论文主要探讨了文本自动分类的算法,所作的主要工作如下: 1.描述了文本的向量空间模型,并进行了常用文本分类算法的性能分析: 2.重点研究了如何利用粗糙集的知识约简理论提取文本分类规则的新方法,该方 法可以自动提取分类规则,比人工建立规则库容易实现得多; 3. 为了实现网上文本数据的挖掘,提出将基于规则抽取的分类技术应用到搜索 引擎上的设计思路,并证明了该方法的可行性。 基于粗糙集理论的文本分类算法中,将文本特征项的权值作为规则的条件属 性,文本所属的类别用作决策属性,构造决策信息表。首先将每一文本的每个特 征项的权值进行离散化处理,然后通过知识约简提取出文本的分类规则。该方法 生成的规则易于理解,分类准确度较高,分类的速度快。 本论文还提出了一种基于文本自动分类的搜索引擎的设计。由于目前搜索引 擎的检索结果列表通常过于庞大,给用户逐个浏览寻找相关的结果带来极大不便。 本文提出在搜索引擎的用户接口与检索器之间接入文本分类器,由它对检索结果 进行联机分类,将其划分为若干个具有明确主题的簇,大大方便了用户查找跟查 询要求相关的文档。 最后,对本论文的内容进行了总结,并对文本挖掘的研究提出了展望。 关键词:文本挖掘:文本分类;粗糙集:支持向量机;K近邻 ofRS in The icationTheory Appl ofTexts AlgorithmsMining Abstract isn’t for retrieval At information appropriate present,traditional retrieval effective of data.Themore amountstext large disposing their neededusersto documents are by dispose by importance algorithms the andtrendof their tofind model orrelevance,tocompareclasses,or data

文档评论(0)

liybai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档