- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于VSM和LDA模型相结合的新闻文本分类研究
基于VSM和LDA模型相结合的新闻文本分类研究
摘 要:针对传统KNN算法在处理新闻分类时仅仅考虑文字层面上的相似性,而未涉及语义层面,本文提出了一种基于VSM和LDA模型相融合的新闻分类算法。首先,在深入研究VSM和LDA模型的基础上,对新闻文档进行VSM和LDA主题建模,结合LDA模型与VSM模型计算文档之间的相似度;其次,以复合相似度运用到基于相似度加权表决的KNN算法对新闻报道集合进行分类。实验验证了改进后的相似度计算方法的有效性,实验结果表明改进后的KNN算法与传统算法相比,具有较好的效果。
关键词:潜在狄利克雷分布( LDA);向量空间模型(VSM);文本相似度;KNN分类
DOI:10.16640/ki.37-1222/t.2016.06.192
1 引言
目前,面对着互联网上各种各样、数量繁多的新闻网页,人们不知道如何选择自己需要和喜爱的新闻。因此,人们越来越迫切地需要一个对新闻进行分类的工具,能够用来快速浏览自己需要的新闻内容。
常见的文本分类技术包括KNN算法、贝叶斯算法、支持向量机SVM算法以及基于语义网络的概念推理网算法等。KNN算法在新闻等网页文本分类中有着广泛的应用,他的思想是对于待分类的文本,通过由与该样本最接近的K个样本来判断该样本归属的类别[1]。
本文针对传统KNN算法在度量文本相似性时仅仅考虑文字层面的相似性,而未涉及语义层面。首先,对新闻文档进行VSM和LDA主题建模,结合LDA模型与VSM模型计算文档之间的相似度;其次,以复合相似度运用到基于相似度加权表决的KNN算法对新闻报道集合进行分类。
2 相关工作
2.1 向量空间模型
向量空间模型(VSM:Vector Space Model)由G.Salton、A. Wong、 C. S. Yang[2]等人于20世纪70年代提出。向量空间模型(VSM)以特征词作为文档表示的基本单位,每个文档都可以表示为一个n维空间向量:T(F1,W1;F2,W2;…;Fn,Wn),简记为T(W1,W2,…,Wn),Fi为文档的特征词,Wi为每个特征词的权重,则T(W1,W2,…,Wn)为文本T的向量表示[3]。特征词的权重值一般采用TF*IDF来计算。
向量空间模型把文本内容用n维空间向量表示,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂,但向量空间模型并没有考虑到特征词之间的语义关系,可能丢失很多有用的文本信息。
2.2 LDA主题模型
2.2.1 LDA主题模型基本思想
主题模型是统计模型的一种,用来发现在文档集合中的抽象主题。LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。首次是作为概率图模型由David Blei、Andrew Ng和 Michael Jordan于2003年提出[4],图1为LDA的概率图模型。
其中M为文档总数,K为主题个数,Nm是第m个文档的单词总数,β是每个Topic下词的多项分布的Dirichlet先验参数,α是每个文档下Topic的多项分布的Dirichlet先验参数。zm,n是第m个文档中第n个词的主题,wm,n是第m个文档中的第n个词。隐含变量θm和ψk分别表示第m个文档下的Topic分布和第k个Topic下词的分布,前者是k维(k为Topic总数)向量,后者是v维向量(v为词典中词项总数)。
2.2.2 Gibbs 抽样
Gibbs Sampling是马尔科夫链蒙特卡洛算法的一个实例。该算法每次选取概率向量的一个维度,给定其他维度的变量值采样当前维度的值,不断迭代至收敛输出待估计的参数[5]。
从2.2.1中可知,zm,n、θm和ψk变量都是未知的隐含变量,也是我们需要根据观察到的文档集合中的词来学习估计的。
学习步骤如下:
(1)应用贝叶斯统计理论中的标准方法[6],推理出有效信息P(w|T) ,确定最优主题数 T,使模型对语料库数据中的有效信息拟合达到最佳。
(2)初始时为文本中的每个词随机分配主题Z(0),统计第z个主题下的词项t的数量,以及第m篇文档下出现主题z中的词的数量。
(3)每一轮计算p(zi|z-I,d,w) 这里i=(m,n)是一个二维下标,对应于第m篇第n个词,即排除当前词的主题分配,根据其他所有词的主题分配估计当前词分配给各个主题的概率,根据这个概率分布,为该词采样一个新的主题Z(1)。同样更新下一个词的主题。直到每个文档下Topic分布θm和每个Topic下词的分布ψk收敛。
3 基于VSM和LDA模型的新闻
文档评论(0)