- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1000-9825/2002/13(04)0783-07 ©2002 Journal of Software 软 件 学 报 Vol.13, No.4
基于序列的文本自动分类算法
解冲锋, 李 星
(清华大学 电子工程系,北京 100084)
E-mail: xcf@; xing@
摘要: 提出了一种基于序列的文本自动分类算法.该算法利用了文本中两个层次的语义相关性: 句子(子模式)之
间的相关性和句子内代表特定含义的关键词(概念节点)之间的相关性,这样就实现了对关键词的动态加权.对于
不含有关键词的子模式,采用Markov 模型来对其信号幅度进行估计,从而生成一个待分类文本的特征序列.在中
文文本分类实验中,可以达到83%的BEP 值.此外,该算法在实际系统中容易实现.
关 键 词: 序列;概念节点; 自动分类;相关度
中图法分类号: TP 18 文献标识码: A
文本自动分类就是对大量的用自然语言写成的文本按照一定的主题类别自动进行分类.文本分类是信息
处理的一个重要分支,在信息发现领域中有着重要的用途,特别是在网络技术飞速发展的时代,对网络上的海量
[1]
网页文本进行过滤和分类可使用户快速发现真正有用的文本.文本分类算法很多, 典型的有基于实例 、
[2] [3] [4]
Sleeping expert 、基于推理网络 以及基于规则组 等算法.这些算法一般需通过大量的训练才能获得较好的
效果,如在基于实例的分类算法中,为了获得主题类别和文本之间的相关度,需要用大量的样本来获得关键词的
权值,这样的算法在实际系统中实现代价较大.本文提出了一种基于序列的文本自动分类算法(简称序列算法),
这个算法利用了文本内两个层次的语义相关性:句子之间的相关性和句子内代表特定含义的关键词之间的相
关性,从而实现了对关键词的动态加权.在对汉语文本进行分类的实验中,它可以达到较好的分类正确率,而且
与其他分类算法相比,本算法在实际系统中容易实现.
1 定 义
在本算法中,称一个待分类的文本为未知文本.设有M 个未知文本,其中第i 个未知文本为T .在T 中包含N
i i
个子模式,第j 个子模式 s 可以是 T 中任意完整的题目、标题或句子,其中序号j 表示子模式在 T 中的位置.在
j i i
子模式 s 中定义概念节点p ,它是子模式内关键词ws 当前代表的含义,即Mean ings(ws |s )=p .其次,C 表示第 l
j k k k j k l
[4]
个主题类别,本地字典 D 是含有主题类别 C 的各种关键词的字典 ,其中的每个关键词 w 代表了它在本类 C
l l n l
内的含义,即D ={w |Category(Meanings(w ))=C }.本地字典是判断 T 与 C 相关度的原始知识,
您可能关注的文档
- 国际绿色建筑USGBC与健康建筑IWBI资格认证培训招生简章-绿建之窗.PDF
- 国际被动房设计师咨询师培训通知-北京工程勘察设计行业协会.PDF
- 当前农业规模经营的三种路径.PDF
- 土球的保护措施.ppt
- 成都兴宇印务有限责任公司印刷包装生产线技术改造项目环境.PDF
- 我国液态生物质燃料补贴政策机理与实证研究.PDF
- 基于4联я析的二次结构动я反应-世界地震工程.PDF
- 基于Hadoop一种移动云计算本地化调度算法的研究-计算机应用与软件.PDF
- 基于HPSG的汉语词库和语法规则系统构建-ChinaXiv.PDF
- 基于三层变尺度等效源的离散重力数据重构.PDF
- 基于排序学习模型的微博多样性检索问题研究-ResearchGate.PDF
- 基于接近关联度改进模型的土壤重金属污染评价-安全与环境工程.PDF
- 基于操作数序的基态修正时空数据模型.PDF
- 基于改进最大相关最小冗余判据的暂态稳定评估特征选择-arXiv.PDF
- 基于数据库集群的飞参数据分布存储技术研究-沈阳航空航天大学.PDF
- 基于整洁数据的情感分析.PDF
- 基于景观生态和马尔可夫过程的西安地区土地利用变化分析-资源科学.PDF
- 基于犁犐犉犜图像特征提取与犉犔犃荦荦匹配算法的-计算机测量与控制.PDF
- 基于犁犘犎方法的RS设计及R过程研究-测井技术.PDF
- 基于稀疏激光点云数据和单帧图像融合的三维重构算法-计测技术.PDF
文档评论(0)