1文本分类问题-上海师范大学学报.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1文本分类问题-上海师范大学学报

基于二阶隐马尔夫模型的分类算法 (上海师范大学与工程学院,上海 摘 要:新闻分类是文本分类技术应用最广泛的领域之一,已有许多成熟的基于统计的算法。然而传统统计算法无法反映文本的相关性以及语法、语义信息。提出一种基于二阶隐马尔可夫模型的新闻分类算法,旨在提取新闻内容中的类别字构成特征词集合,以该特征词集合作为不同二阶HMM分类器的观察序列,而二阶HMM的隐藏状态反映了文档中词语之间的相关性的差异,每个状态表示出现在语料库中的词语的相关性水平。在中英文新闻语料库上的对比实验结果表明,KNN、朴素贝叶斯以及SVM算法,二阶HMM算法的分类表现优势明显。 关键词:新闻分类;二阶隐马尔可夫模型;TF-IDF;检验;特征词 中图法分类号 TP391 文献标识码 A 引言 文本分类被认为是当下数据挖掘领域最热门的研究方向之一,许多自动分类和自组织文本文档技术在过去二十年里被相继提出[1-5]。随着在线文本数量呈指数增长,文本分类技术,尤其是新闻媒体、网页和科学出版物、社交网络中的情感倾向、垃圾邮件等领域的分类技术变得尤为重要。常用的分类算法有KNN贝叶斯支持向量机SVM算法被认为是最有效的文本分类技术之一[7]。 隐马尔可夫模型(HMM)[6-7]被用来描述一类重要的随机过程应用于语音标注、分词领域HMM的应用领域逐渐扩展到了文本处理领域,如信息抽取[8]、信息检索[9]、文档归类[10]以及文本分类[11]。 近年来学者针对HMM用于文本分类进行了许多研究。Janecek [12]等人使用HMM构建一个信息抽取模型,计算文档与用户查询相关的概率;Kwan Yi[13]等人视文本分类为找到一个与给定文档相关的类别的过程,文档被视为一个词列表,利用特定的HMM模型计算文档属于类别的概率;Kairong Li[11]等人构建了一个HMM与卡方检验相结合的分类器,反映不同类别中的语义关系。Seara[14]等人提一种HMM模型(T-HMM),基于文档内容对生物科技文档进行分类,着重于分析数据集中文档是否与给定的用户查询相关。然而,在上述的研究中,状态转换都是以相同的方式顺序排列,形成没有自状态循环的HMM,而且认为状态到后一个状态的概率1,这就意味着状态、代表的两个词是捆绑出现的,出现词a必然就会出现词b。但是,在自然语言中下个词出现的概率通常由前个词决定。相对一阶HMM而言,二阶HMM结合了更多的特征词,能够反映出更丰富的语义信息,那么对状态序列预测就更准确。 针对以往研究中存在的不足,本文提出了一种基于二阶隐马尔可夫模型的新闻分类算法。首先,描述二阶HMM原理以及分类的过程;其次,提出了基于二阶隐马尔可夫模型的新闻分类算法并改进以往研究中隐藏状态的转移概率的计算方法;接着,结合互信息与改进的TF-IDF方法计算发射概率,反映不同类别的语义关系;最后,在中英文新闻语料库上评估提出的分类算法,并与朴素贝叶斯、KNN和SVM算法进行对比分析。 本文其余部分安排如下:第1节介绍文本分类以及模型架构;第2节详细介绍二阶隐马尔可夫模型的数学原理;第3节详细介绍本文提出的基于二阶隐马尔可夫模型的分类算法构建过程,包括特征提取策略以及模型训练过程。第4节介绍在两个不同新闻语料库上与KNN、朴素贝叶斯、SVM等算法的对比实验的结果;第5节总结本文的研究工作,并给出未来的研究方向。 文本分类问题 问题定义 给定数据集,其中、分别表示新闻文档及其所属的类别。文本分类的目标是设计一种的学习算法集作为输入,生成一个分类器,能够准确地未知文本进行分类。 (1)预处理:数据集中的每一条新闻都包含了页面URL、页面ID、页面标题和页面正文内容,需要去除正文内容中的HTML标签,仅保留新闻正文文本。同时需要对新闻标点符号、数字虚词的次数小于10次的词TF-IDF与检验相结合的方法作为观察序列HMM模型,其中隐藏状态反映了文档中词之间的相关性的差异每个状态表示出现在语料库中的词的相关性水平HMM模型。当分类新文档时,系统将计算每个二阶HMM模型生成该文档的概率,取最大概率值对应的类别这篇新闻所属的类别。隐马尔可夫模型被定义为由一组隐藏状态转换组成的图。每个状态观察值,并且状态之间的转换也具有相关联的概率。HMM模型被认为是一个双重随机过程。第一个过程描述了由转换概率表示的状态序列。 第二个过程将每个状态与观察结果相关联,其发生的概率产生观察序列,如所示: 将二阶HMM成六元组的形式,即:为状态集合,的状态为为观察值,输出符号集合为状态转移概率矩阵,表示时刻的状态转移到时刻的状态的状态转移概率,即: 二阶的状态转移概率矩阵,,表示时刻t-2的状态和时刻的状态转移到时刻的状态的状态转移概率,即: 为

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档