基于序列的文本自动分类算法A-CiteSeerX.PDF

下载文档 降价啦

5
0
约2.56万字
约 7页
2019-03-15 发布于天津
举报
版权申诉
保障服务

基于序列的文本自动分类算法A-CiteSeerX.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1000-9825/2002/13(04)0783-07 ©2002 Journal of Software 软件学报 Vol.13, No.4 基于序列的文本自动分类算法解冲锋, 李星 (清华大学电子工程系,北京 100084) E-mail: xcf@; xing@ 摘要: 提出了一种基于序列的文本自动分类算法.该算法利用了文本中两个层次的语义相关性: 句子(子模式)之间的相关性和句子内代表特定含义的关键词(概念节点)之间的相关性,这样就实现了对关键词的动态加权.对于不含有关键词的子模式,采用Markov 模型来对其信号幅度进行估计,从而生成一个待分类文本的特征序列.在中文文本分类实验中,可以达到83%的BEP 值.此外,该算法在实际系统中容易实现. 关键词: 序列;概念节点; 自动分类;相关度中图法分类号: TP 18 文献标识码: A 文本自动分类就是对大量的用自然语言写成的文本按照一定的主题类别自动进行分类.文本分类是信息处理的一个重要分支,在信息发现领域中有着重要的用途,特别是在网络技术飞速发展的时代,对网络上的海量 [1] 网页文本进行过滤和分类可使用户快速发现真正有用的文本.文本分类算法很多, 典型的有基于实例、 [2] [3] [4] Sleeping expert 、基于推理网络以及基于规则组等算法.这些算法一般需通过大量的训练才能获得较好的效果,如在基于实例的分类算法中,为了获得主题类别和文本之间的相关度,需要用大量的样本来获得关键词的权值,这样的算法在实际系统中实现代价较大.本文提出了一种基于序列的文本自动分类算法(简称序列算法), 这个算法利用了文本内两个层次的语义相关性:句子之间的相关性和句子内代表特定含义的关键词之间的相关性,从而实现了对关键词的动态加权.在对汉语文本进行分类的实验中,它可以达到较好的分类正确率,而且与其他分类算法相比,本算法在实际系统中容易实现. 1 定义在本算法中,称一个待分类的文本为未知文本.设有M 个未知文本,其中第i 个未知文本为T .在T 中包含N i i 个子模式,第j 个子模式 s 可以是 T 中任意完整的题目、标题或句子,其中序号j 表示子模式在 T 中的位置.在 j i i 子模式 s 中定义概念节点p ,它是子模式内关键词ws 当前代表的含义,即Mean ings(ws |s )=p .其次,C 表示第 l j k k k j k l [4] 个主题类别,本地字典 D 是含有主题类别 C 的各种关键词的字典 ,其中的每个关键词 w 代表了它在本类 C l l n l 内的含义,即D ={w |Category(Meanings(w ))=C }.本地字典是判断 T 与 C 相关度的原始知识,