基于图的微博广告文本识别 - 厦门大学学报（自然科学版）.doc

下载文档 降价啦

2
0
约8.68千字
约 10页
2017-09-02 发布于天津
举报
版权申诉
保障服务

基于图的微博广告文本识别 - 厦门大学学报（自然科学版）.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于图的微博广告文本识别 - 厦门大学学报（自然科学版）

doi:10.6043/j.issn.0438-0479.201612030 基于图的微博广告文本识别罗斌1*，唐红艳1,2，王志豪3，秦悦1，苏劲松1 厦门大学软件学院，福建厦门 361005；2. 北京大学软件与微电子学院，北京 102600； 3. 厦门大学航空航天学院( 关键词：微博广告文本识别；半监督；标签传播算法中图分类号：TP 391 文献标志码：A 微博（Micro-blog）是一个通过关注机制分享、传播、获取简短实时信息的广播式平台，由于其特有的简洁性和便捷性，微博迅速成为了当下最受欢迎的信息交流平台之一。正因为其拥有广大的用户群体，并具有高效传播等特点，许多企业以微博为平台进行产品推广，产生了大量的微博广告这些数据反映了推介商品的信息，存在着发送，信息重复率高实强特点。，微博数据的，例如，用户的情感分析，兴趣爱好分析，社会舆情分析并无太大用处过多的微博广告反而影响了微博数据的准确率够识别广告文本将有望提高相应模型的性能。因而准确地从海量微博文本数据中识别出具nearest neighbor，KNN）、朴素贝叶斯（naive bayes, NB）、支持向量机（support vector machine，SVM）以及决策树（decision tree，DT）等等。近期，随着深度学习的快速发展，使用neural network，NN）[3-5]来进行文本分类成为一种常见的方法。PA首先需要构建一个微博广告文本识别的图模型，在这个图模型中，节点代表各个有标签和无标签的微博文本，边则表示对应两条微博文本之间的相似度。然后，节点的标签信息根据节点间的相似度在图模型中迭代传播，直到整个系统达到稳定状态。本文章节安排如下：6]提出的一种基于图的半监督学习方法，它的基本思路是利用少量有标签节点的标签信息进行指导并预测大量无标签节点的标签信息。由于其具有直观易理解、简单易实现、复杂度低且分类效果好等特点，LPA被广泛应用于文本信息分类和社交网络分析等领域。标签传播的主要原理是利用少量的有标签节点，通过在密集的无标签区域中传播标签信息从而找到许多与有标签节点相似的无标签节点，并使用这些节点来增强系统的学习性能。首先需要根据样本之间的关系建立一个图模型，在这个图模型中，节点代表有标签样本数据和无标签样本数据，边则表示对应两个节点之间的相似性，每个节点的标签信息根据边的权重传播给相邻节点，边权重越大，该节点对其相邻节点的影响力越大，标签越容易传播。为了避免有标签节点的标签信息的影响力逐渐减弱，在标签迭代传播的过程中，要始终将有标记节点的标签保持不变，使其像一个源头一样把标签信息传播给未标记节点。最终，当迭代传播过程终止时，相似较高的节点的概率分布也会趋于相似，就可以将这些节点划分为同一类型，从而结束标签传播过程；令中的剩余个样本为无标签节点，则有。实验的目标就是根据样本数据和有标签节点的类别标签预测出无标签节点的类别标签。首先运用空间向量模型将微博文本表示成向量形式，主要包括特征选择[8]和计算TF-IDF特征值[9]两个步骤。然后利用余弦相似性计算出任意两个微博文本间的相似度。若给定文档以及文档，则和之间的余弦相似性定义为： (1) 设为节点和间的相似度，则和之间的边的权重计算公式如下： (2) 其中，是一个平衡因子，用以调整控制权重的大小。结合顶点和边权重信息，可以构造出一个微博广告文本识别图模型。在这个完全图模型中，可能会存在一些权重较小的边，这些边对各个节点的标签信息的影响较小。若保留这些边，必然会增加模型的复杂程度，甚至可能会对结果产生干扰。因此，在依据相似度建立图模型时，需要设置一个相似度阈值，将相似度小于该阈值的边删除，从而降低标签传播过程的复杂性，提高算法效率。本文将在实验中考察相似度阈值对方法效果的影响。 3基于图的微博广告文本自动识别根据边的权重定义一个的概率转换矩阵： . (3) 其中，表示从微博文本传递到微博文本的概率，体现了对微博文本的影响。， (4) 步骤2. 将每个节点的标签信息根据概率转换矩阵传递给相邻节点，即： (5) 步骤3. 写回有标签节点的标签信息，即用的值覆盖的值。步骤4. 不断重复步骤2和步骤3，直到矩阵收敛。步骤5. 将无标签节点标注为矩阵中第行的最大值对应的类别，设为节点的标签，则： (6) 4 实验和结果分析 4.1 实验设置实验数据是以各种手机品牌为关键词从新浪微博上搜索到的关于手机评价的微博数据。表1所示的是实验数据的基本情况，包括广告（ad）与非广告（non-ad）、有标签（labeled）和无标签（unlabeled）数据的数量。表1 实验数据 Tab.1 Statistics of experi