- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
粗糙集理论在文本挖掘的分类算法中的应用研究
摘 要
目前传统的信息检索技术己不适应日益增加的大量文本数据处理的需要,用
户需要更加有效的检索算法实现文档重要性和相关性的排列,完成不同文档的分
类比较,或找出多文档的模式和趋势。所以,文本数据的挖掘成为数据挖掘中一
个日益流行且重要的研究课题。
文本挖掘中常用的技术有文本的自动分类、聚类、文本总结和关联分析等,
其中文本自动分类是一种重要的方法。利用文本的自动分类技术可以用来整理互
联网内部的文本,通过将文本分配到一个类别体系中,限定查找文本的范围;还
可以应用到搜索引擎的检索结果的组织上,将搜索引擎的检索结果划分为若干个
具有明确主题的簇,使得用户只考虑相关的簇,大大缩小了需要浏览的文本数量。
本论文主要探讨了文本自动分类的算法,所作的主要工作如下:
1.描述了文本的向量空间模型,并进行了常用文本分类算法的性能分析:
2.重点研究了如何利用粗糙集的知识约简理论提取文本分类规则的新方法,该方
法可以自动提取分类规则,比人工建立规则库容易实现得多;
3. 为了实现网上文本数据的挖掘,提出将基于规则抽取的分类技术应用到搜索
引擎上的设计思路,并证明了该方法的可行性。
基于粗糙集理论的文本分类算法中,将文本特征项的权值作为规则的条件属
性,文本所属的类别用作决策属性,构造决策信息表。首先将每一文本的每个特
征项的权值进行离散化处理,然后通过知识约简提取出文本的分类规则。该方法
生成的规则易于理解,分类准确度较高,分类的速度快。
本论文还提出了一种基于文本自动分类的搜索引擎的设计。由于目前搜索引
擎的检索结果列表通常过于庞大,给用户逐个浏览寻找相关的结果带来极大不便。
本文提出在搜索引擎的用户接口与检索器之间接入文本分类器,由它对检索结果
进行联机分类,将其划分为若干个具有明确主题的簇,大大方便了用户查找跟查
询要求相关的文档。
最后,对本论文的内容进行了总结,并对文本挖掘的研究提出了展望。
关键词:文本挖掘:文本分类;粗糙集:支持向量机;K近邻
ofRS in
The icationTheory
Appl
ofTexts
AlgorithmsMining
Abstract
isn’t for
retrieval
At information appropriate
present,traditional
retrieval
effective
of data.Themore
amountstext
large
disposing
their
neededusersto documents
are by dispose by importance
algorithms
the andtrendof
their tofind model
orrelevance,tocompareclasses,or
data
您可能关注的文档
最近下载
- 2021年河南中考化学真题及答案.doc VIP
- 4.1水资源及其利用(第1课时保护水资源)课件---2024-2025学年九年级化学人教版(2024)上册.pptx VIP
- 华中科技大学大学物理2014-2015期末考试.pdf VIP
- 果树栽培学完整课件各论苹果.ppt VIP
- 连锁酒店行业2025年扩张策略与风险规避报告.docx
- 国企三项制度改革-10、任期制契约化任期业绩目标责任书(总经理).pdf VIP
- 肝衰竭诊治指南(2024年版)解读.pptx
- 住宅物业管理服务规范DB3505T 17—2024.pdf VIP
- 2024辅警面试问题及答案 .pdf VIP
- 副局长意识形态工作总结.docx VIP
文档评论(0)