用稀疏贝叶斯概率模型做文本分类.docVIP

下载本文档

0
0
约 8页
2016-09-15 发布于北京
举报
版权申诉

用稀疏贝叶斯概率模型做文本分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用稀疏贝叶斯概率模型做文本分类.doc

用稀疏贝叶斯概率模型做文本分类　　【摘要】如今，当处理大量数据集的协变量时，相比小样本量的一个常见问题是：估计与每个协变量相关联的参数。当协变量的数量远远超过样本的数量，参数估计变得非常困难。在这项研究中，我们开发了一个稀疏的Probit贝叶斯模型（SPBM）的基础上吉布斯抽样，其利用双指数函数之前诱导收缩，并减少在模型协变量的数目。使用6个领域，如数学，在维基百科已下载的方法中进行评估。我们通过计算并根据执行训练和测试组的分类的阈值作为决策规则。利用遍布全球50个运行平均灵敏度和特异性我们的模型的表现相比，支持向量机（SVM）。该SPBM实现了高分类精度和几乎所有的分析领域优于SVM。　　【关键词】稀疏贝叶斯；参数估计；广义线性模型；机器学习；文本分类　　1 全贝叶斯稀疏概率模型简介　　现在，通常的协变量涉及数千或数百万的数据集。一个常见的问题是在处理脂肪的数据集时，协变量的数量远远超过样品。例如，文本分类、基因表达分析、盗窃检测、临床诊断和一些商业数据挖掘任务。在文本分类中，我们在几份文件中需要处理几百甚至上千个词语。考虑到不同的类别，如数学，可以尝试根据其内容分类的文字，将其转换为变量回归作为回归协变量。此外，我们还需要注意每个特定的类别。也就是说，预测基于其词语组成的文件的类型。然而，然而，许多协变量可以具有对类预测微小的影响，使得它对一个时间的单个协变量分析不可能准确地确定类别。因此，这种方法可发现大量的协变量与协变量之间，面向重要的词语是个好的发现。很多领域都涉及重要的识别协变量的回归模型的问题，有时也被称为特征选择。　　根据响应变量是离散或连续的，不同的模型可以被用来执行预测和评估。　　1.1 离散　　逻辑回归等用来拟合模型和分类响应变量。使用逻辑回归的缺点是：当协变量的数量大时，最大似然估计变成密集计算，有时难以解决。此外，预测可能导致较差的预测精度差。　　1.2 连续　　线性回归模型被广泛应用，以适应模型和连续反应变量。然而，这些模型缺乏准确性，当设计到高维数据的设置和参数估计。一个标准的方法是广泛用于回归模型提高预测和参数估计是子集选择。子集选择是一个离散的过程，如淘汰，选择，逐步选择。然而，使用这些离散的过程可能会导致不一致的选择。也就是说，一个小的变化可能会导致非常不同的模型。　　此外，这些方法计算昂贵且不稳定的样本大小比协变量的数目少的多。鉴于上述模型的缺点，研究人员试图开发出能够同时分析多个协变量的方法。在文本分类中，响应变量或类别可以是二进制或多项的量，简单线性回归是不适用的。替代处理分类响应变量适于在本文中使用稀疏概率回归的方法。稀疏概率回归被用于使用标准正态分布的累积分布来链接协变量的分类响应变量。在本文中，我们开发了一个稀疏概率单位贝叶斯模型（SPBM），以避免过多问题并获得充分的条件分布的所有参数。虽然减少一些不用的协变量为零，SPBM允许我们以识别具有最大的辨别能力判别协变量较小的子集。为了创建我们的模型，我们首先建立了多层贝叶斯层次模型。然后，根据制定的吉布斯采样算法，我们使用马尔可夫链蒙特卡洛方法来估计与所述协变量相关联的参数。发达SPBM自动收缩系数小到零，这是一个很大的灵活性，以适应许多校正模型中的一个步骤。最后，拟合模型被用于执行不同分类的数据集。本文的其余部分将作如下安排，在第2节中，我们将首先简要介绍一下有关参数估计的不同方法相关工作。然后，我们将解释我们的方法，其中包括SPBM，采样，以及使用的预测参数。我们最后证明我们在部分应用程序和结果。　　2 SVM模型简介　　在本节中，我们将会使用参数估计的机器学习算法和其他重要的方法的简单概述。支持向量机（SVM）是用在机器学习来处理高维和数据的稀疏性的一种替代。虽然样本量小，支持向量机通常实现低测试错误。有几篇论文报告了使用支持向量机用于可变的选择的目的良好结果。然而，该方法有许多缺点，例如缺乏概率输出和权衡参数估计的必要性，以利用Mercer 内核函数。我们引入了一个机器学习算法和概率主题建模（PTM）。PTM旨在从文本中自动提取主题。例如，如果我们将算法应用于过去几个话语的政治家，它产生的经济，战争，作为输出。概率的相关性建模是该算法提取的主题。因此，在某些情况下，可以考虑最额定主题作为文本的主题。然而，LDA的性能被一些研究人员比较后，无非是迭代键盘搜索算法。该算法也仅限于文本中使用的词语。举例来说，如果你正在寻找的意识，并给予有关土木工程的算法作为输入的文本，该算法只会告诉你关于建筑和结构。另一种方法用于在统计参数估计线性回归。它是模拟的响应变量和一个或多个协变量之间的关系的方法。该方法已被广泛地用在不同的应用程序。在线性回归模型中，普通最小二乘法（OLS）被用