基于LDA模型的文本分类与观点挖掘.docVIP

下载本文档

12
0
约2.4千字
约 4页
2017-08-24 发布于北京
举报
版权申诉

基于LDA模型的文本分类与观点挖掘.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LDA模型的文本分类与观点挖掘　　摘要得益于信息技术的飞速发展，信息的传递效率不断提高，网络信息数量也呈现爆炸性增长趋势，这些信息大多文本的方式存在并且各种类别混杂在一起。使用人工方式对于分类并提取其中有用的观点信息效率低下并且浪费大量的人力资源，因此通过自动分析和提取的方式发展观点挖掘的新方法有着一定的研究意义，LDA主题模型作为无监督机器学习模型的典型应用有着快速、高效的特点而被众多学者广泛研究。　　【关键词】LDA模型机器学习观点信息　　1 引言　　第38次《中国互联网络发展状况统计报告》显示，截至2016年6月，中国网民规模达7.10亿，互联网普及率达到51.7%。互联网已经成为现代人生活中的必需品，借助互联网的快速发展，信息的传递方式与效率日新月异。观点挖掘是指通过相关技术分析文本中表达的观点与情感极性，帮助用户快速地获取有用信息。当前国内外学者针对观点挖掘进行的相关研究工作聚集在以下两个方面：　　（1）文本分类；　　（2）观点抽取。　　文本分类的主要任务是判定文本描述事物特征所属类别，观点抽取则是提取文本特征下对应的具体观点信息，其中根据情感的褒贬性又可以分为以下三类，正向表示情感倾向为褒义，负向表示情感倾向为贬义，而中性则表示没有明显的褒贬倾向。　　当前观点挖掘领域主要有三种研究方法：基于规则、基于语言学和基于机器学习。基于规则与基于语言学的方法存在着依赖语法规则与领域适用度不高等缺陷，基于机器学习的方法由于具有很强的领域适应性和跨语言性，LDA主题模型作为机器学习模型在观点挖掘领域有着重要应用。　　标准LDA模型由于采用词袋结构，割裂了词语的位置以及上下文的语义关系，另外LDA主题模型在进行观点挖掘研究时通常选择相同类别的文档形成一个语料库来保证观点挖掘效果，多类别文档混合时则必须选取其他方式进行文本分类。鉴于以上两点，本文对标准LDA模型进行改进提出了Document classification LDA模型（DC-LDA，文本自分类LDA模型），将文本分类模块引入后进行观点挖掘研究。　　2 模型描述　　DC-LDA模型图如图1所示。　　模型中参数列表如表1所示。　　如图1所示，LDA模型是一个三层结构，完成了文档-主题-单词的三层映射，通过狄利克雷分布与多项式分布为每个单词选取一个特定的主题，同样的本文在文档层的基础上添加类别这一概念，将标准LDA模型扩展为四层结构，类别-文档-主题-单词，以此来完成文本分类的过程，在对语料库进行观点挖掘，同时为了克服词袋模型的缺陷，本文以句子为单位来采样主题标签，认为同一句子下的单词隶属于相同主题。　　Document classification LDA模型的生成过程描述如下：　　（1）对一个语料库：①由先验参数λ得到语料库下领域分布Ω～Dir（λ）；②由先验参数β获得每个领域下的单词分布Φf，t～Dir（β）（其中f表示领域，取值1......F，t表示主题，取值1......T）；　　（2）?τ锪峡庵忻恳黄?文档d：①为文档选择对应领域标签，gd～Multinomial（Ω）；②得出对应领域下文档的主题分布θfd～Dir（αf）；　　（3）对每一篇文档d中的第m个句子：选择对应领域下的主题zd，m，其中zd，m～ Multinomial（θfd）；　　（4）对句子m中每个词n（wd，m，n）：选择具体的单词，wd，m，n～Multinomial（Φf，t）。　　3 实验　　本实验使用来自sougou实验室提供的中文语料库，使用的版本为SougouC .Mini，其包括汽车、财经、IT、健康、体育等10个类别的相关内容，每个类别下包含1990篇文档。　　在进行实验之前先将语料库进行去停用词处理，本文采用中国科学院计算技术研究所提供的汉语词法分析系统ICTCLAS，其有着速度快、准确率高的特点因此在中文信息处理领域得到了广泛应用。　　本实验以语料库中的IT、体育、健康、教育、旅游、军事这6个区分明显的类别进行类别采样分析，每个类别中选取800篇文档作为训练语料，再抽取200篇作为测试语料，本文对领域判别精度定义如下：　　在DC-LDA模型中为每一篇文档采样领域标签时本文考虑到了高词频的单词对文档所在领域的贡献，在采样公式中取词频最高的前n个单词随着n取值的变化领域区分的精确度也会变化，对每个n的取值进行十次重复试验，结果如图2所示。　　语料库观点抽样结果如表3所示。　　参考文献　　[1]http：/// 　　[2]Pang B，Lee L.Opinion mining and sentiment analysis[J].Foundations and t