网站大量收购独家精品文档,联系QQ:2885784924

微博用户属性识方法研究.pdf

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
微博用户属性识方法研究

微博用户属性识别方法研究 摘要 微博用户属性识别方法研究 摘要 随着社交网络的迅猛发展,自动分析社交网络中的有用信息成为目前自然语言处 理、社交网络分析等领域的重要研究课题。其中,微博用户属性识别是一项基本任务。 该任务旨在根据微博用户产生的相关数据对用户的个体属性 (例如,性别、年龄等) 进行 自动识别。准确识别用户的个体属性,可以帮助更好的进行智能营销、个性化预 测及情感分析等研究。本文的研究内容主要包括以下三个方面: 首先,针对微博中用户的个人与非个人属性,本文提出了一种结合微博用户的用 户名和微博文本两类信息的分类方法。该方法针对两种文本训练不同分类器,并在此 基础上提出了一种基于分类器融合的方法,同时利用用户名和微博两类信息进行分类。 实验结果表明,本文的方法可以达到较高的识别准确率,并且分类器融合方法明显优 于仅利用用户名或微博文本的单分类器分类方法。 其次,针对微博用户的性别属性,提出了一种基于交互式信息的半监督性别分类 方法。传统的性别分类研究依赖大量的标注样本,而通常情况下人工标注样本费时费 力。作为一种社交网络平台,微博提供了多种交互机制以供用户互动。因此,微博平 台既包括用户发布的微博等非交互式信息,同时也包括回复等交互式信息。本文提出 了一种基于交互式信息的半监督性别分类方法,该方法将交互式和非交互式两类信息 作为协同训练算法的两个视图,充分利用未标注样本实现半监督性别分类。实验结果 表明基于非交互式和交互式视图的半监督性别分类方法能够有效利用非标注样本提 升性别分类性能。 最后,针对微博用户的年龄属性,提出了一种基于文本和社交信息的半监督年龄 回归方法。该方法通过协同训练算法同时结合用户的文本和社交两类信息,充分利用 未标注样本实现半监督年龄回归。此外,我们提出了一种基于 QBC 的方法,解决了 回归问题中样本置信度衡量的难题。实验结果表明,本文提出的基于文本和社交信息 的半监督年龄回归方法,在数据平衡和不平衡两种情况下都能有效利用非标注样本提 升年龄回归的性能。 I 摘要 微博用户属性识别方法研究 关键词:微博分析,用户属性识别,性别分类,年龄识别,半监督学习 作者:薛云霞 指导老师:李寿山 II User Attribute Recognition on Microblog Abstract User Attribute Recognition on Microblog Abstract With the rapid growth of social media, automatically analysis on useful information in Social Network has become an important research topic in the communities such as Natural Language Processing and Social Media Analysis. User attribute recognition on Microblog is one foundational task which aims to determine the attributes of the users in Microblog (e.g. gender, age) according to the related data generated by t

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档