- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于特征词句子环境文本分类器
一种基于特征词句子环境的文本分类器
摘 要:提出一种基于特征词句子环境的文本分类方法,介绍了创建分类规则的文本句子信息模型,比较详细地给出训练算法和语句聚集算法。该算法依据训练文本集的特征词句子环境,获取识别文本主题类别的特征词集合。最后给出了分类器性能的测试结果。
关键词:文本分类; 特征词句子环境; 训练算法; 语句聚集算法??
中图法分类号:TP311文献标识码:A
文章编号:1001―3695(2007)02―0116―04
1 引言??
中文文本分类是指根据文本的内容,按照用户预先指定的主题类别集合,使用计算机软件自动为每一篇文本确定一个或几个主题类别。实现有指导的文本分类算法主要分两个步骤:①训练阶段。使用已知类别的训练文本集,创建文本分类规则。②使用文本分类规则,对每一篇未知类别的文档进行分类。
任何一篇具有确定主题的文档都是由若干个句子构成的。一个能够用于识别某类文本的特征词集合,按照文档作者的需要,被分散、有重复地安排在若干中文句子之中。一个句子是若干个能够识别文本类别的特征词与其他词汇的混合体。文本分类的训练阶段可以看作从构成文档的所有词汇中抽取特征词的过程。因此,在训练阶段的开始,不妨把构成文本句子的所有词汇通称为特征词。构成一个句子的不同特征词之间,需要服从各种语义及语法约束。换句话说,构成一个特定句子的特征词对内营造一种和谐的句子环境,对外馈送一组特有信息。由此想到,识别某类文本的特征词集合,应该相对集中地分布在文档的若干个句子当中。文本分类的训练阶段可以利用特征词的句子环境,通过聚集[5]这些句子环境去发现与识别某类文本的特征词集合。??
本文提出了一种基于特征词句子环境的文本分类方法,介绍了用于创建分类规则的文本句子信息模型,比较详细地给出使用训练文本集,利用特征词的句子环境,获取识别文本主题类别的特征词集合,创建并优化分类规则的训练算法。最后给出分类器性能测试结果及结论。
2 文本句子的信息模型??
通过识别句号、问号或感叹号等标点符号,一篇中文文档很容易被划分为若干个句子。使用中文处理专用软件可以把句子进一步划分为若干个词汇。把文档或句子划分为词汇的过程,一般称为分词操作。分词操作所产生的词汇经过简单的词汇压缩处理,生成了句子的特征词集合。
2.1 句子的构成及其信息量
定义1中,特征词集合{w1,w2,…,wn}仍然保持关于集合的最原始性质,即构成集合的元素是无序的。也就是说,在构造文本分类器时,只关注一个句子由哪些特征词构成,而忽略该句子内部特征词之间应该遵循的其他约束(如句子的特征词至少需要按照一定先后次序关系排列等)。
2.2 任意两个句子之间的互信息量相关度
3 分类规则的创建与优化??
创建分类规则的主要过程以句子为处理对象。
3.1 从句子获取识别文本类别的特征词集
使用若干篇已知文本主题类别是ck的文本,执行训练算法,可以获取用于识别ck主题类别文本的特征词集。??
训练算法描述如下:??
(1)随机选取已知类别为ck的训练文本若干篇,构成训练文本集。??
(2)对每一篇文本,重复如下操作:??
①记下该文本编号,并执行分词操作。经过简单的词汇压缩处理,生成数据表T。数据表T以句子为元素,每一个句子元素由若干个特征词组成。??
②在生成数据表T的过程中,同时统计每一个特征词在ck类训练文本集中出现的次数。??
(3)精简数据表T。从数据表T删去在ck类训练文本集中出现次数小于指定阈值的特征词。
(4)再次扫描数据表T,统计任意两个特征词在ck类训练文本集中出现的次数。??
(5)使用语句聚集算法,对ck类训练文本集以句子为单位,实施特征词聚集操作。??
(6)根据语句聚集算法执行结果,创建用于识别ck主题类别的分类规则。??
除了步骤(5)之外,训练算法的各个步骤所进行的操作目的都比较明确,操作比较容易实现。??
3.2 训练算法的核心:语句聚集算法??
训练算法步骤(5)所采用的语句聚集算法是训练算法的核心。总体上讲,语句聚集算法的思想是以句子为单位,把那些具有较大统计相关性的句子,聚集成一个有更多特征词的新句子。
语句聚集算法具体描述如下:
值得注意的是,在语句聚集算法步骤(5.3.2.1)与步骤(5.3.2.2)中,凡是发生两个句子进行并入操作的,都要对两个句子的相同特征词集合中的各个特征词,分别累计并入操作的次数。??
3.3 分类规则的创建与优化??
当系统执行了训练算法的步骤(5)之后,用于识别ck主题类别的所有训练文本的
您可能关注的文档
- 一种反生态价值观.doc
- 一种发泡混凝土制备及性能研究.doc
- 一种变形襟翼结构设计.doc
- 一种变电站直流系统绝缘下降快速查找方法.doc
- 一种变频一拖二电路设计.doc
- 一种变电设备查验器研制与应用.doc
- 一种变送器电路噪声分析与优化设计.doc
- 一种另类关于教育本质解释.doc
- 一种叠加于TDSCDMA 3G网络PTT手机方案.doc
- 一种另类概念复习课模式.doc
- 2024-2025学年广东省茂名市高州市联考七年级上学期12月份月考数学试卷及参考答案.docx
- 难点解析人教版八年级上册物理《声现象》定向攻克试题(含答案解析).docx
- 急性阑尾炎课件PPT.pptx
- 2024-2025学年河南省洛阳市涧西区九年级上学期12月份月考数学试卷及参考答案.docx
- 新星光电夜视系统,远红外热成像车载安全驾驶辅助系统.doc
- 难点解析人教版八年级上册物理《声现象》定向攻克试题.docx
- 2025年造林工程合同(7份范本).docx
- 难点解析人教版八年级上册物理《声现象》定向攻克试卷(附答案详解).docx
- 难点解析人教版八年级上册物理《声现象》定向攻克试卷(解析版).docx
- 难点解析人教版八年级上册物理《声现象》定向攻克试卷(详解版).docx
文档评论(0)