- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本分类中基于位置和类别信息一种特征降维方法
文本分类中基于位置和类别信息一种特征降维方法
摘 要:从文本特征项所处的位置角度提出了特征项基于位置的降维方法;同时结合特征的类别分布进行了二次特征降维。这种基于位置和类别相结合的特征降维方法在最大程度减少信息损失的条件下,实现了特征维数的有效压缩。实验表明,该方法有较高的文本分类效率。
关键词:文本分类; 特征选择; 特征降维; 位置加权; 类别分布
中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2008)08-2292-03
Method of feature reduction in text classification
based on position and sort information
LIU Hai-feng??a,b??, WANG Yuan-yuan??a, ZHANG Xue-ren??b, YAO Ze-qing??b
(a. Institute of Command Automation, b.Institute of Sciences, PLA University of Science Technology, Nanjing 210007, China)
Abstract:From the position of the terms, this paper put forward a method to reduce the dimensionality. Meanwhile, combined with the sorts distributing, it once more reduced the feature dimension. Therefore,in precondition of the information loss least, connecting with the two aspects, used this method to complete the text feature decrease smartly. The test shows that this method has better precision in the text categorization.
Key words:text categorization; feature selection; feature reduce; positionweight; sort distribution
Internet的迅猛发展改变了人们的生活方式,人类社会步入了以网络为信息载体的全新信息时代。伴随着Web信息量的指数形式增长,在享受着信息“海洋”所提供的便利的同时,“信息迷航”的困境使得人们对如何获取有效信息提出了更高的要求。作为信息处理技术的重要内容之一,文本自动分类技术已成为文本挖掘的研究热点之一。文本分类是指在给定的分类体系下,根据文本内容自动确定文本所属类别的过程。将文本分类技术与搜索引擎、信息过滤等信息处理技术相结合,能够有效地提高信息服务的质量,它是文本挖掘的一个重要组成部分,在情报检索、信息过滤等许多方面有重要现实意义和广阔的应用前景。
1 文本分类的主要问题及其处理方法
总的说来,文本分类方法可分为基于知识和基于距离两种。基于知识的方法是指借助专家的经验知???,构建分类专家系统作为分类器进行分类。由于这种模式费时费力,并且扩展性差,难以适用于大规模的文本分类,特别是基于Web的文本分类要求。目前普遍采用的是基于距离分类的方法,如朴素贝叶斯方法、决策树方法、k-近邻方法、回归模型方法、神经网络方法以及支持向量机方法等[1]。文本自动分类的关键问题是文本的合理表示、特征降维以及分类器的构造。
1.1 向量空间模型及其主要问题
在文本表示方法上基于向量空间模型的分类模式具有概念简单、应用方便等优点,是主流的文本分类模型之一。在向量空间算法模型中,文本??d??j??被映射为一个特征向量:
?? ,需分类的文本为??d??j??,两者的相似度可用向量之间的夹角来度量,夹角越小说明相似度越高。相似度计算可以使用常用的向量夹角余弦公式:
sim??(d??i,d??j)=∑nk=1w??ik??w??jk??/∑nk=1w??2??ik??∑nk=1w??2??ik????(3)
向量空间模型的优点在于将非结构化的文本表示为向量形式,使得各种数学处理成为可能。但是其不足之处也很明显:
a)该模型假定特征项之间相互独立,然而实际情况是一词多义和多词同义现象在文本中非常普遍。这种词语之间关系相互独立的基本假设在实际应用中很难得到
您可能关注的文档
- 文化智慧教育思考.doc
- 文化智力个人组织和国际管理培训一种具有竞争力方法.doc
- 文化本质伦理证成使命与精神生活道德价值逻辑.doc
- 文化杂交理论视域下中国文化主体性构建.doc
- 文化构建如何跟上体制转型步伐.doc
- 文化模式中宗教.doc
- 文化正负移入对英语教学习得结果影响研究.doc
- 文化模式结盟解盟与再结盟.doc
- 文化校园视野下大学生创新素质培养研究.doc
- 文化比较视角下人力资源管理模式差异.doc
- 2026年材料员考试题库(综合题).docx
- 2026年禁毒防毒题50道含完整答案(有一套).docx
- 2026年材料员考试题库及答案(名师系列).docx
- 2026年国家电网招聘之电网计算机考试题库500道及参考答案(综合卷).docx
- 2026年土地登记代理人之土地登记相关法律知识考试题库500道(精选题).docx
- 2026年禁毒防毒题50道【典优】.docx
- 2026年国家电网招聘之文学哲学类考试题库300道完整版.docx
- 2026年教师招聘之幼儿教师招聘考试题库300道附参考答案【满分必刷】.docx
- 2026年国家电网招聘之金融类考试题库300道精编答案.docx
- 2026年土地登记代理人之土地登记相关法律知识考试题库500道(精选题).docx
最近下载
- PE聚乙烯燃气管道施工方案.docx VIP
- 机器视觉技术与应用实战-全套PPT课件.pptx
- 【MOOC】英语科技文献阅读-哈尔滨工业大学 中国大学慕课MOOC答案.docx
- 人教版七年级下册英语Unit 2《No Rules, No Order》第6课时(Project & Reading Plus)教学课件(新教材).pptx
- 人教版四年级上册英语试卷 Unit 2.pdf
- 鲁迅简介PPT课件.pptx VIP
- 水产养殖项目可行性报告.pptx VIP
- GB50461-2024:石油化工静设备安装工程施工质量验收规范.pptx VIP
- 离职证明模板电子版.doc VIP
- 中考作文之审题与立意(题型解读+考点点拨+知识梳理+专项训练)-2025年中考语文一轮复习考点突破(江苏专用)学生版.pdf VIP
文档评论(0)