中文文本分类中的文本表示因素比较.PDFVIP

下载本文档

3
0
约3.06万字
约 8页
2019-03-13 发布于天津
举报

中文文本分类中的文本表示因素比较.PDF

第卷第期中国科学院研究生院学报２６３Ｖｏｌ．２６Ｎｏ．３年月２００９５ＪｏｕｒｎａｌｏｆｔｈｅＧｒａｄｕａｔｅＳｃｈｏｏｌｏｆｔｈｅＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓＭａｙ２００９  文章编号：（）１００２１１７５２００９０３０４０００８中文文本分类中的文本表示因素比较 ，１２ ２２张爱华荆继武向继（中国科学技术大学电子工程与信息科学系，合肥；中国科学院研究生院信息安全国家重点实验室，北京）１２３００２７２１０００４９（年月日收稿；年月日收修改稿）２００８１０１３２００８１１７，，ＺＨＡＮＧＡＨＪＩＮＧＪＷＸＩＡＮＧＪ．ＣｏｍｐａｒａｔｉｖｅｓｔｕｄｙｏｎｔｅｘｔｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｃｈｅｍｅｓｉｎＣｈｉｎｅｓｅｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｊｏｕｒｎａｌ，，（）：ｏｆｔｈｅＧｒａｄｕａｔｅＳｃｈｏｏｌｏｆｔｈｅＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ２００９２６３４００～４０７摘要研究了中文文本分类中的文本表示方法，提出了对中文文本表示因素的分析框架，并通过对个数据集实验结果的分析，确定了各种文本表示因素对分类效果的影响直接使用汉３．字进行划分也可以获得较好的分类效果；简单的不使用很大词库的分词和使用大词库的分词，以及复杂的分词对分类效果影响不大；仅使用表示特征是否出现也可以获得比较好的分类０１效果；采用综合了合理的向量取值（如使用合适的归一化算法）可以较大幅度地提高分类准确率等这些结论为后续的应用提供了指导原则．．关键词中文文本分类，文本表示，向量化中图分类号ＴＰ３１１引言随着互联网的迅猛发展，互联网络上的海量文本数据变得难以为人们有效地利用人们迫切地需要．能够有效组织和管理海量数据的工具，基于机器学习的文本自动分类（，以下简称Ｗｅｂｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ）成为人们关注和研究的重点，是信息检索和文本挖掘的重要基础的主要任务是根据一组预先给ＴＣ．ＴＣ定的分类标记的文本（即训练集），对未分类的文本，根据其内容判断其所属的分类这就需要衡量待分．类与训练集文本的距离或相似性．文本自动分类的过程大致可分为：文本的表示（）、分类方法（

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文文本分类中的文本表示因素比较.PDFVIP