基于统计分词的中文文本分类系统.pdf

基于统计分词的中文文本分类系统.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于统计分词的中文文本分类系统

维普资讯 · 研 究开发 ······ 电脑知识与技术 基于统计分词的中文文本分类系统 ①吴雅娟 柳培林 ②丁子睿 D(大庆石油学院计算机与信息技术学院,黑龙江大庆 163318 ②大庆石油管理局通信公司,黑龙江大庆 163453 摘要:本文阐述了一个中文文本分类系统的设计和实现,对文本分类系统的系统结构、特征提取、训练算法、分 类算法等进行了详细介绍。将基于统计的二元分词方法应用于中文文本分类,并提出了一种基于汉语中单字词及二 字词统计特性的中文文本分类方法,实现了在事先没有词表的情况下,通过统计构造单字及二字词词表,从而对文 本进行分词.然后再进行文本的分类。 关键词:中文文本分类 统计分词特征提取 ChineseTextClassificationSystemBasedOnStatis~calWordSegmentation wUYa--juanLIUPei—linDINGZi—rui (~)ComputerScienceandEngineeringCollege,DaqingPetroleumInstitute,Daqing,Heilongjiang ~CommunicationCompany,DaqingPetroleumConservancy,Daqing,Heilongjiang Abstract:InthearticleIdescribedthedesignationandaccomplishmentofaChinesetextclassifycationsystem,and introducedsystemconstruction?featureselection?trainingarithmeticandclassificationarithmetic,achievedthegoalthat comminutewordonconditionthathavingnovocabulary, KeyWords:ChineseTextClassification;StatisticalWordSegmentation;Featureselection 中图分类号:TP391文献标识码:A 的设计和实现技术,在词表的构建过程中提出了基于 1前言 词频的统计方法,并提出了一种基于汉语中单字词及 文本分类属于人工智能技术和信息获取技术相结 二字词统计特性的中文文本分类方法,还详细介绍了 合的研究领域.早期的自动文本分类以知识工程的方 系统流程和机器学习的过程。 法为主,根据领域专家对给定文本集合的分类经验,人 2系统设计 工提取出一组逻辑规则。作为计算机 自动文本分类的 依据。进入上世纪九十年代以来,基于统计的自动文本 文本分类是指在给定的分类体系下,由计算机 自 分类方法 日益受到重视,它在准确率和稳定性方面具 动对已知类别的样本进行学习.并且总结出不同类别 有明显的优势。本文主要论述一个中文文本分类系统 文本的特征作为判别依据,然后根据文本的内容特征 他们的学习兴趣 .调动他们的学习积极性和主动性。 2【】博嘉科技.中文版Photoshop7.0平面培训教程 北京:中国铁道出版社。2002 参考文献 3【】钟玉琢 沈洪 吕小星编著.多媒体技术及其应用 1【】武 兵.印刷色彩 M【】.北京:中国轻工业出版社, 北京:机械工业出版

文档评论(0)

jyf123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6153235235000003

1亿VIP精品文档

相关文档