基于mixtureLDA的新浪微博主题挖掘与应用-软件工程专业论文.docxVIP

  • 2
  • 0
  • 约5.81万字
  • 约 57页
  • 2019-02-13 发布于上海
  • 举报

基于mixtureLDA的新浪微博主题挖掘与应用-软件工程专业论文.docx

基于mixtureLDA的新浪微博主题挖掘与应用-软件工程专业论文

万方数据 万方数据 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。 研究生签名: 日期: 南京邮电大学学位论文使用授权声明 本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文 档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索; 可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质 论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。 涉密学位论文在解密后适用本授权书。 研究生签名: 导师签名: 日期: 摘要 自 Twitter 和 Facebook 等社交网站诞生以后,社交网站成为人们日常生活中必不可少的 一项社交活动。用户通过 PC 和无线两种主要方式登陆微博客户端,发布自己对周边发生的 事件的即时感受和分享一些活动信息。目前微博内容限制字数不超过 140 字,但也支持长微 博和图文混排的形式发布微博内容。图文混排的非结构化信息和用户结构化基础属性信息构 成了微博数据的半结构化特征。而如何处理这种半结构化数据获取有效信息一直是数据挖掘 领域关注的热点话题。 微博主题是对微博内容的概括,这种概括某种程度上能够反映出用户发布的微博内容的 核心思想。因此挖掘微博主题对分析用户兴趣有很重要的研究意义,主题挖掘的结果能够为 基于主题的个性化推荐应用提供数据支撑。本文在真实的微博数据集上分析出新浪微博内容 特征和新浪微博用户的特征后,构建 mixtureLDA 主题模型来分析新浪微博用户微博内容主 题。通过 mixtureLDA 模型分析出用户各微博类别下的主题概率分布,从而得到用户关注的 重要话题。 另外,我们以困惑度作为模型评判标准,将 mixtureLDA 模型与 MB-LDA 和 userLDA 模 型进行对比实验,验证模型的推广性和效率。实验结果表明,mixtureLDA 模型比其他模型的 困惑度值更低,迭代次数更少,说明 mixtureLDA 比其他模型更优。本文还在 mixtureLDA 模 型的基础上,将主题模型结果作为微博用户的主题属性应用于个性化推荐中。 本文主要贡献如下: 1)针对新浪微博的微博内容特征,提出一种能够有效挖掘新浪微博用户的微博主题的主 题模型 mixtureLDA; 2)mixtureLDA 模型在分析用户微博内容特征的情况下为不同微博类型特征设定不同的 超参数,使得模型挖掘的微博主题更贴近用户的真实兴趣倾向; 3)数据采集来自新浪微博开发平台,mixtureLDA 模型在真实数据集上取得良好的实验 结果。该模型能够分析出用户的微博主题和共同关注的热点话题,并将结果应用于微博主题 个性化推荐。 关键词:新浪微博,主题挖掘,微博类型,mixtureLDA,社交网络 I Abstract Since Twitter and FaceBook has become popular, microblog becomes a indispensable social activity among people’s social activity. People can access microblog platform through the PC or wireless and so on. They send a message on mircoblog platform to express their feeling on the things happened among their life circle. Microblog contents only contains 140 words, which supports sending mixed picture and text among the contents. Microblog is a semi-structured data, which contains structured user information and unstructured text information. How to deal with semi-structured data and get useful information from the microb

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档