基于限制性玻尔兹曼机的微博主题分类.docx

下载文档 降价啦

1
0
约6.32千字
约 4页
2017-12-31 发布于江西
举报
版权申诉
保障服务

基于限制性玻尔兹曼机的微博主题分类.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于限制性玻尔兹曼机的微博主题分类

基于限制性玻尔兹曼机的微博主题分类李超李昂朱耿良北京航空航天大学深圳北航新兴产业技术研究院副教授北京航空航天大学计算机学院硕士研究生北京航空航天大学计算机学院硕士研究生摘要智慧城市依赖于对大数据的充分利用。近年来，随着移动互联网的发展，在线微博平台，比如新浪微博、Twitter等，已经成为了大数据的主要来源之一。微博平台上产生的海量短文文本信息使用户很难找到自己感兴趣主题的相关信息。本文提出了一种基于限制性玻尔兹曼机的微博短文本的主题分类方法。通过对短文本进行主题建模，挖掘出潜在主题信息，根据短文本的潜在主题信息可实现对短文本的主题分类。关键词智慧城市社交网络限制性玻尔兹曼机主题模型1引言其他很多研究的基础。传统的短文本主题建模方法是将传统的主题模型应用在短文本领域，但由于短文本的独特特点，使这些方法无法达到理想的精确度。本文首先详细分析了微博短文本的特征，然后介绍了短文本的表示模型，最后提出一种基于限制性玻尔兹曼机的短文本主题分类方法，使用限制性玻尔兹曼机挖掘短文本隐藏的主题信息，再在这个基础上对短文本进行主题分类。智慧城市成为一个城市的整体发展战略，是信息化城市发展的高级形态。所谓的“智慧”，必然依赖于对大数据的充分挖掘和利用，而大数据主要来源于互联网、社交网络以及物联网等。近年来，随着移动互联网的普及，社交网络，尤其是在线微博平台，已经成为大数据的主要来源之一，也是互联网上最热门的应用之一。根据中国互联网络信息中心（CNNIC）在2014年1月发布的《第33次中国互联网发展状况统计报告》显示，截至2013年12月底，在微博、QQ空间、个人博客、论坛等社交平台开通个人账户的网络用户达到5.32亿，占到全部网民的86.08%。调查数据显示，微博正逐渐取代传统的社交平台，成为最热门的网络社交平台。从2010年以来，国内著名的门户网站，比如新浪、网易、腾讯、搜狐等，都开通了自己的微博系统。以新浪微博为例，据新浪微博在2014年2月发布的2013年第四季度财务报告显示，新浪微博的注册用户已经达到5.78亿，日活跃用户达到4629万，活跃用户占总用户的比例稳定在9%～10%。相比于其他社交网络平台，微博在信息传播的及时性和用户交互性上更具有优势。微博上的每一个用户都能够对自己感兴趣的话题发表观点和看法，因此微博上产生了海量的用户自产生的短文本数据。面对这一海量的短文本数据，需要准确定位和抽取出与感兴趣的主题有关的信息，对短文本进行主题分类成为2微博短文本的特征在微博上，每个用户成为了所谓的“自媒体”，即每个人都能自主的对某个话题发表观点、与好友分享自己的心情等。因此，产生了大量的短文本数据，这些短文本数据有其独特的特点：首先是文本长度有限。微博对文本字数有硬性限制，一般来说，每条短文本的字数被限制在140个字以内。根据本文对Tweet语料库和微博语料库统计显示，Tweet文本的平均长度小于60个词，而新浪微博短文本的平均长度小于40个字。这就造成了严重的数据稀疏性和特征空间高纬度，带来了“维数灾难”。其次，内容涉及面广。微博涉及各种各样的话题，这就给微博短文本的分类造成了困难。再次，冗余信息多。微博短文本包含大量的冗余信息，比如URL信息、电子邮箱、转发信息等，这些信息对短文本分析和挖掘造成了干扰。最后，不规范的表达用词多。微博上的文本是由·26·专家视点《电信网技术》2014年7月第7期普通用户自由发布的，写作风格偏向于口语化、随意化，包含大量的缩写、简写、错误拼写等不规范表达方式。这些词语增加了短文本的理解难度。总之，微博短文本有其鲜明的特征，这些特征给短文本的处理和研究带来了很多困难。后对这个商取对数。第四种，TF-IDF，即以上两种方法的结合。总之，向量空间模型相对简单，有利于计算机处理，因此它得到了广泛的应用。然而，对于微博短文本而言，每个文本的单词或词语数量比较少，使用空间向量模型会使得特征维度变得很稀疏，会带来“维数灾难”。3.2潜在主题模型空间向量模型是将文本数据“机械”地映射在一个词典长度大小的向量上，它无法表示出文本潜在的语义信息。针对这个问题，潜在主题模型被提了出来。它的核心思想是：将每个文本看作是由一些主题下的词语组合而成。潜在主题模型的目地是要将这些词语背后的主题发掘出来，然后用这些主题表示这个文本。换句话说，潜在主题模型是将文本从高纬度的“文本―字典”的矩阵空间映射到低维的“文本―主题”语义空间。相对于向量空间模型，潜在主题模型更能够挖掘出同义或相似词，因此在计算文本相似度时，潜在主题模型的效果更好。而且，它能够将高维的文本模型降维到低维的主题模型，从而发现相似主题的文本，实现对文本的分类。从算法角度来说，潜在主题模型是由一系列主题模型挖掘算法组成。典型的潜在模型算法有潜在语义分析（LSA）、概率潜在语义