- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于归一化文档频率的文本分类特征选择方法-华东理工大学学报
华东理工大学学报(自然科学版)
Journal of East China University of Science and Technology (Natural Science Edition)
文章编号: DOI :10.14135/ki.1006-3080.20180914005
基于归一化文档频率的文本分类特征选择方法
1 1,2 1
赵鸿山 , 范贵生 , 虞慧群
(1.华东理工大学计算机科学与工程系, 上海 200237 ;2.上海市计算机软件测评重点实验
室, 上海 20 1112)
摘 要:特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。
传统的文档频率(Document Frequency,DF)特征选择指标只是从全局的角度统计包含特征
的文档数作为选择的依据,没有考虑特征与类别的相关性。针对该问题,本文从特征和类别
的相关性出发,对文档频率分别进行局部和全局的归一化处理,提出了一种归一化文档频率
(Normalized Document Frequency ,NDF )的特征选择指标,并在不同的特征维度下验证特
征选择对文本分类性能的影响。结果表明,应用NDF 特征选择指标可以得到更高的分类准
确率和Macro-F1 值。因此,对文档频率进行归一化处理可以更好地选择出有价值的特征,
有效提升文本的分类性能。
关键词:文本分类;特征选择;文档频率;归一化
中图分类号:TP301.6 文献标志码:A
Text Classification Method Based on Normalized Document
Frequency Feature Selection
1 1 2 1
ZHAO Hongshan , FAN Guisheng , , YU Huiqun
(1. Department of Computer Science and Engineering ,East China University of Science and
Technology,Shanghai 200237,China;
2. Shanghai Key Laboratory of Computer Software Evaluating and Testing ,Shanghai 201112,
China)
Abstract : Text classification has received great attention with the continuous accumulation of
text document, which is used to automatically give a correct category mark for input text
document. Feature selection is an important process of text classification and the goal of feature
selection in text classification is to choose highly distinguishing features for improving the
performance of a classifier. This paper mainly studies feature selection methods based on filter
which sort the
原创力文档


文档评论(0)