基于VSM和LDA模型相结合的新闻文本分类研究.docVIP

下载本文档

6
0
约3.99千字
约 3页
2016-07-03 发布于河北
举报
版权申诉

基于VSM和LDA模型相结合的新闻文本分类研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于VSM和LDA模型相结合的新闻文本分类研究

基于VSM和LDA模型相结合的新闻文本分类研究　　摘要：针对传统KNN算法在处理新闻分类时仅仅考虑文字层面上的相似性，而未涉及语义层面，本文提出了一种基于VSM和LDA模型相融合的新闻分类算法。首先，在深入研究VSM和LDA模型的基础上，对新闻文档进行VSM和LDA主题建模，结合LDA模型与VSM模型计算文档之间的相似度；其次，以复合相似度运用到基于相似度加权表决的KNN算法对新闻报道集合进行分类。实验验证了改进后的相似度计算方法的有效性，实验结果表明改进后的KNN算法与传统算法相比，具有较好的效果。　　关键词：潜在狄利克雷分布（ LDA）；向量空间模型（VSM）；文本相似度；KNN分类　　DOI：10.16640/ki.37-1222/t.2016.06.192 　　1 引言　　目前，面对着互联网上各种各样、数量繁多的新闻网页，人们不知道如何选择自己需要和喜爱的新闻。因此，人们越来越迫切地需要一个对新闻进行分类的工具，能够用来快速浏览自己需要的新闻内容。　　常见的文本分类技术包括KNN算法、贝叶斯算法、支持向量机SVM算法以及基于语义网络的概念推理网算法等。KNN算法在新闻等网页文本分类中有着广泛的应用，他的思想是对于待分类的文本，通过由与该样本最接近的K个样本来判断该样本归属的类别[1]。　　本文针对传统KNN算法在度量文本相似性时仅仅考虑文字层面的相似性，而未涉及语义层面。首先，对新闻文档进行VSM和LDA主题建模，结合LDA模型与VSM模型计算文档之间的相似度；其次，以复合相似度运用到基于相似度加权表决的KNN算法对新闻报道集合进行分类。　　2 相关工作　　2.1 向量空间模型　　向量空间模型（VSM：Vector Space Model）由G.Salton、A. Wong、 C. S. Yang[2]等人于20世纪70年代提出。向量空间模型（VSM）以特征词作为文档表示的基本单位，每个文档都可以表示为一个n维空间向量：T（F1，W1；F2，W2；…；Fn，Wn），简记为T（W1，W2，…，Wn），Fi为文档的特征词，Wi为每个特征词的权重，则T（W1，W2，…，Wn）为文本T的向量表示[3]。特征词的权重值一般采用TF*IDF来计算。　　向量空间模型把文本内容用n维空间向量表示，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂，但向量空间模型并没有考虑到特征词之间的语义关系，可能丢失很多有用的文本信息。　　2.2 LDA主题模型　　2.2.1 LDA主题模型基本思想　　主题模型是统计模型的一种，用来发现在文档集合中的抽象主题。LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。首次是作为概率图模型由David Blei、Andrew Ng和 Michael Jordan于2003年提出[4]，图1为LDA的概率图模型。　　其中M为文档总数，K为主题个数，Nm是第m个文档的单词总数，β是每个Topic下词的多项分布的Dirichlet先验参数，α是每个文档下Topic的多项分布的Dirichlet先验参数。zm，n是第m个文档中第n个词的主题，wm，n是第m个文档中的第n个词。隐含变量θm和ψk分别表示第m个文档下的Topic分布和第k个Topic下词的分布，前者是k维（k为Topic总数）向量，后者是v维向量（v为词典中词项总数）。　　2.2.2 Gibbs 抽样　　Gibbs Sampling是马尔科夫链蒙特卡洛算法的一个实例。该算法每次选取概率向量的一个维度，给定其他维度的变量值采样当前维度的值，不断迭代至收敛输出待估计的参数[5]。　　从2.2.1中可知，zm，n、θm和ψk变量都是未知的隐含变量，也是我们需要根据观察到的文档集合中的词来学习估计的。　　学习步骤如下：　　（1）应用贝叶斯统计理论中的标准方法[6]，推理出有效信息P（w|T），确定最优主题数 T，使模型对语料库数据中的有效信息拟合达到最佳。　　（2）初始时为文本中的每个词随机分配主题Z（0），统计第z个主题下的词项t的数量，以及第m篇文档下出现主题z中的词的数量。　　（3）每一轮计算p（zi|z-I，d，w）这里i=（m，n）是一个二维下标，对应于第m篇第n个词，即排除当前词的主题分配，根据其他所有词的主题分配估计当前词分配给各个主题的概率，根据这个概率分布，为该词采样一个新的主题Z（1）。同样更新下一个词的主题。直到每个文档下Topic分布θm和每个Topic下词的分布ψk收敛。　　3 基于VSM和LDA模型的新闻