- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于统计分词的中文文本分类系统
维普资讯
· 研 究开发 ······ 电脑知识与技术
基于统计分词的中文文本分类系统
①吴雅娟 柳培林 ②丁子睿
D(大庆石油学院计算机与信息技术学院,黑龙江大庆 163318
②大庆石油管理局通信公司,黑龙江大庆 163453
摘要:本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分
类算法等进行了详细介绍。将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二
字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文
本进行分词.然后再进行文本的分类。
关键词:中文文本分类 统计分词特征提取
ChineseTextClassificationSystemBasedOnStatis~calWordSegmentation
wUYa--juanLIUPei—linDINGZi—rui
(~)ComputerScienceandEngineeringCollege,DaqingPetroleumInstitute,Daqing,Heilongjiang
~CommunicationCompany,DaqingPetroleumConservancy,Daqing,Heilongjiang
Abstract:InthearticleIdescribedthedesignationandaccomplishmentofaChinesetextclassifycationsystem,and
introducedsystemconstruction?featureselection?trainingarithmeticandclassificationarithmetic,achievedthegoalthat
comminutewordonconditionthathavingnovocabulary,
KeyWords:ChineseTextClassification;StatisticalWordSegmentation;Featureselection
中图分类号:TP391文献标识码:A
的设计和实现技术,在词表的构建过程中提出了基于
1前言
词频的统计方法,并提出了一种基于汉语中单字词及
文本分类属于人工智能技术和信息获取技术相结 二字词统计特性的中文文本分类方法,还详细介绍了
合的研究领域.早期的自动文本分类以知识工程的方 系统流程和机器学习的过程。
法为主,根据领域专家对给定文本集合的分类经验,人
2系统设计
工提取出一组逻辑规则。作为计算机 自动文本分类的
依据。进入上世纪九十年代以来,基于统计的自动文本 文本分类是指在给定的分类体系下,由计算机 自
分类方法 日益受到重视,它在准确率和稳定性方面具 动对已知类别的样本进行学习.并且总结出不同类别
有明显的优势。本文主要论述一个中文文本分类系统 文本的特征作为判别依据,然后根据文本的内容特征
他们的学习兴趣 .调动他们的学习积极性和主动性。 2【】博嘉科技.中文版Photoshop7.0平面培训教程
北京:中国铁道出版社。2002
参考文献
3【】钟玉琢 沈洪 吕小星编著.多媒体技术及其应用
1【】武 兵.印刷色彩 M【】.北京:中国轻工业出版社, 北京:机械工业出版
文档评论(0)