- 3
- 0
- 约3.06万字
- 约 8页
- 2019-03-13 发布于天津
- 举报
中文文本分类中的文本表示因素比较.PDF
第 卷第 期 中国科学院研究生院学报
26 3 Vol.26 No.3
年 月
2009 5 JournaloftheGraduateSchooloftheChineseAcademyofSciences May 2009
文章编号: ( )
10021175200903040008
中文文本分类中的文本表示因素比较
,
12 2 2
张爱华 荆继武 向 继
(中国科学技术大学电子工程与信息科学系,合肥 ; 中国科学院研究生院信息安全国家重点实验室,北京 )
1 230027 2 100049
( 年 月 日收稿; 年 月 日收修改稿)
2008 10 13 2008 11 7
, ,
ZHANGAH JINGJW XIANGJ.ComparativestudyontextrepresentationschemesinChinesetextclassification.Journal
, , ():
oftheGraduateSchooloftheChineseAcademyofSciences2009263 400~407
摘 要 研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并
通过对 个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响 直接使用汉
3 .
字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,
以及复杂的分词对分类效果影响不大;仅使用 表示特征是否出现也可以获得比较好的分类
01
效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确
率等 这些结论为后续的应用提供了指导原则
. .
关键词 中文文本分类,文本表示,向量化
中图分类号 TP31
1 引言
随着互联网的迅猛发展,互联网络上的海量文本数据变得难以为人们有效地利用 人们迫切地需要
.
能够有效组织和管理海量 数据的工具,基于机器学习的文本自动分类( ,以下简称
Web textcategorization
)成为人们关注和研究的重点,是信息检索和文本挖掘的重要基础 的主要任务是根据一组预先给
TC .TC
定的分类标记的文本(即训练集),对未分类的文本,根据其内容判断其所属的分类 这就需要衡量待分
.
类与训练集文本的距离或相似性.
文本自动分类的过程大致可分为:文本的表示( )、分类方法(
您可能关注的文档
最近下载
- 喷播种植检验批质量验收记录.docx VIP
- 新版PEP五年级下册英语全册教案.pdf VIP
- 现代项目管理学-秋菀华-第四版答案.docx VIP
- (整理版)特殊四边形的综合应用.pdf
- AP微积分BC 2013年真题 (选择题+问答题) AP Calculus BC 2013 Released Exam and Answers (MCQ+FRQ).pdf VIP
- 老师求职简历深蓝色简历模板.pdf VIP
- 环境影响评价工程师之环评法律法规题库含完整答案【必刷】.docx
- COSMOLS-1863X泄露检测仪中文使用说明书.docx VIP
- 基于全寿命周期成本的大型公共建筑中央空调设备选型策略与实践.docx VIP
- 2025年体育赛事策划与管理课程考核试题及答案.docx VIP
原创力文档

文档评论(0)