- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于lda模型的文本分类算法
1基于layntdici生物本构模型的文本分类方法
自动分类文本是研究信息和挖掘领域的热点和核心技术。近年来,它引起了人们的高度重视和快速发展,取得了难以置信的进步。它是信息检索、机器学习和自然语言处理的热点和关键技术之一。文本自动分类的目标是从已知的文本训练集合中找到分类规则,得到一个学习器,并且使该学习器在对今后未知的新文本分类时,具有较好的预测精度。文本分类系统主要包括文本表示、预处理、特征降维、分类方法和效果评估5个部分。
在文本分类中,文本表示通常选择向量空间模型(VectoSpaceModel,VSM)算法,选择词作为特征项,将文档集构造为一个高维、稀疏的词条-文本矩阵。在构造分类器之前,对于词条-文本矩阵的降维,有利于提高分类器的效率和性能。经常使用的特征提取的评价函数包括文档词频(DocumentFrequency,DF)、卡方(Chi-Square,CHI)、互信息(MutualInformation,MI)、信息增益(InformationGain,IG)、术语强度(TermStrength,TS)等。这些方法的一个共同特点就是假定词之间是互相独立,正交的。通过计算词项和类别之间存在的某种特定关系对词进行筛选,从而达到降维的目的。这类方法忽视了词的同义和多义情况,没有考虑词与词之间语义上的联系。
潜在语义索引(LatentSemanticIndexing,LSI)就是一种根据词条的共现信息探查词条之间内在的语义联系的方法。LSI在文本分类中的应用得到了深入的研究,降维效果显著,但在LSI模型中,对稀有类别很重要的分类特征,可能因为在整个文档集中不重要而被滤掉,最终的分类性能往往会受损。而且,算法实现的复杂性也是LSI模型不可忽视的一个问题。
基于此,本文提出了一种基于LDA(LatentDirichletAllocation)模型的文本分类方法。避免了文本表示方法采用VSM方法产生的高维稀疏特征空间的问题,同时又克服了采用LSI所带来的分类性能受损问题。在语料库上进行的分类实验表明,是一种能有效提高文本分类性能和效率的文本分类器构造的新方法。
2确定lda模型
LDA对离散数据集(如文档集)建模的概率增长模型,是一个三层贝叶斯模型,对文档进行一个简短的描述,保留本质的统计信息,有助于高效地处理大规模的文档集。
下面是LDA模型应用于文档集主题建模的符号约定:
(1)词是文本数据的基本单元,是用{1,2,…,V}索引的词表的分项。词表中的第v个词用一个V维的向量w表示,其中对于任意u≠v,wv=1,ue0a8wu=0。
(2)文档是N个词的序列,用d={w1ue0a8,w2ue0a8,…,wn}表示,wn是序列中的第n个词。
(3)文档集是M个文档的集合,表示成D={d1ue0a8,d2ue0a8,…,dM}。
假设有k个主题,则文档d中的第i个词汇wi的概率可以表示为如下:
其中,zi是潜在变量,表示第i个词汇wi取自该主题,P(wi|zi=j)是词汇wi属于主题j的概率,P(zi=j)给出文档d属于主题j的概率。第j个主题表示为词表中V个词的多项式分布φjwi=P(wi|zi=j),文本表示成K个隐含主题上的随机混合θjd=P(zi=j)。于是文本d中“发生”词汇w的概率为:
通过EM(期望最大化算法)求最大似然函数:
的最大似然估计量α、β,估计α、β的参数值,从而确定LDA模型。其中文本d“发生”的条件概率分布:
存在θ,β配对,无法计算出解析式,需要求出近似解。在LDA模型中,可采用Laplace近似、变分推理(VariationalInference)、Gibbs抽样以及期望-扩散(ExpectationPropagation)等近似推理算法获取待估参数值。ThomasL.Griffiths等人提出Gibbs抽样在困惑度和运行速度方面均优于变分推理和期望-扩散算法。
3构建待分类文本
基于LDA模型的文本分类方法使用LDA为语料库及文本建模。将文本表示为固定主题上的概率分布,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取文本在主题集上的概率分布,d={K1ue0a8,K2ue0a8,…,KT},T为主题数。在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类系统。主要包括预处理、模型选择、语料库建模、分类方法、效果评估5个部分。
待分类文本是语料库训练时没有处理过的新文本,如果对于每一个未知文本,都将其加入语料库后重新训练,则非常浪费时间,也没有必要。本文的做法是,只对预处理后的待分类文本运行Gibbs抽样算法,以减少迭代次数。分类的具体步骤如下:
(1)应用贝叶斯统计理论中的标准方法,推理出有效信息P(w|T)
文档评论(0)