基于图的微博广告识别.doc

下载文档 降价啦

1
0
约1.08万字
约 10页
2019-08-03 发布于天津
举报
版权申诉
保障服务

基于图的微博广告识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

doi:10.6043/j.issn.0438-0479.201612030 基于图的微博广告文本识别罗斌1*，唐红艳1,2，王志豪3，秦悦1，苏劲松1 厦门大学软件学院，福建厦门 361005；2. 北京大学软件与微电子学院，北京 102600； 3. 厦门大学航空航天学院，福建厦门 361005）摘要：微博作为当下最受欢迎的信息交流平台之一，已经迅速成为了社会化营销的重要工具。目前微博平台上充斥着大量的微博广告，因此有效的微博广告文本自动识别方法对于微博学术研究具有重要意义。针对微博广告文本识别问题，提出利用基于图的半监督的标签传播算法，指导计算机从大量的非结构化的微博文本中自动识别出微博广告。通过对实验数据的评测，结果显示，当有标签样本较少时，基于图的半监督的标签传播算法能够获得比有监督的支持向量机和朴素贝叶斯算法更好的性能。收稿日期：收稿日期：2016-12-21 录用日期：2017-05-27 基金项目：国家自然科学基金；厦门大学大学生创新创业训练计划项目(2016Y1131) *通信作者：robin@xmu.edu.cn 关键词：微博广告文本识别；半监督；标签传播算法中图分类号：TP 391 文献标志码：A 微博（Micro-blog）是一个通过关注机制分享、传播、获取简短实时信息的广播式平台，由于其特有的简洁性和便捷性，微博迅速成为了当下最受欢迎的信息交流平台之一。正因为其拥有广大的用户群体，并具有高效传播等特点，许多企业以微博为平台进行产品推广，产生了大量的微博广告文本。而这些数据充分反映了商家推介商品的信息，存在着“自动发送，信息重复率高，实效性强”的特点。然而，这些数据对于其它微博数据的分析，例如，用户的情感分析，兴趣爱好分析，社会舆情分析等并无太大用处，过多的微博广告文本反而影响了微博数据分析模型的准确率。如果能够事先识别并剔除微博广告文本，将有望进一步提高相应模型的性能。因而，如何准确地从海量微博文本数据中识别出微博文本广告，对于微博许多研究都具有着重要意义。微博广告文本识别本质上是一个文本分类问题。文本分类的研究最早可追溯到20世纪50年代末期，这一时期主要是对文本分类理论的研究，如Luhn开创性地提出基于词频的文本自动分类方法；Maron和Kuhns提出概率标引模型等。到80年代，文本分类大多是采用知识工程的相关技术，根据专家规则手工建立分类器。这时的信息检索技术逐渐走向成熟，并为文本分类提供技术支撑，最著名的是SMART系统[1]。90年代后，统计和机器学习方法被引入到文本分类，分类器在自主学习后对文本进行自动分类，不再需要人工干预，准确率和查全率也得到了有效提高。目前国外对文本自动分类的研究已经从实验性阶段进入到实用性阶段，并在邮件分类、电子会议等领域取得了较为广泛的应用[2]。文本分类发展到今天，相关技术日趋成熟，提出的算法也不计其数，其中比较经典的算法包括K最近邻（K-nearest neighbor，KNN）、朴素贝叶斯（naive bayes, NB）、支持向量机（support vector machine，SVM）以及决策树（decision tree，DT）等等。近期，随着深度学习的快速发展，使用神经网络（neural network，NN）[3-5]来进行文本分类也成为一种常见的方法。这些算法多为监督式学习（supervised learning）方法，即需要利用大量的已知类别的训练样本进行学习。然而，随着数据收集和存储技术的不断发展，收集大量无标签数据的过程日益简单，而对收集到的数据进行标记却相对困难，因为这一过程往往需要耗费大量的人力物力，有时甚至需要依赖于少数领域专家来完成。因此，利用大量的无标签数据来帮助提升在少量有标签数据上学到的模型在整个数据分布上的泛化能力的需求日益强烈，而传统的有监督式文本分类方法已经无法解决这一问题。因此，本文中提出利用基于图的半监督的标签传播算法（label propagation algorithm, LPA），指导计算机从非结构化的微博文本中自动识别出微博广告，实现当有标签样本不足时利用大量的无标签样本来改善学习性能。LPA首先需要构建一个微博广告文本识别的图模型，在这个图模型中，节点代表各个有标签和无标签的微博文本，边则表示对应两条微博文本之间的相似度。然后，节点的标签信息根据节点间的相似度在图模型中迭代传播，直到整个系统达到稳定状态。本文章节安排如下：首先对标签传播算法的基本理论进行简要介绍，其次建立一个基于图的微博广告文本识别模型，然后运用标签传播算法在该模型上进行自动的微博广告文本识别，并给出在实验数据上的实验结果和分析，最后与相关工作进行比较和总结。 1 LPA基