面向网络空间的主题分类研究-计算机技术专业毕业论文.docxVIP

面向网络空间的主题分类研究-计算机技术专业毕业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 摘 要 I万方数据 I 万方数据 摘 要 随着互联网技术的快速发展,人类已经进入了一个网络化的时代,微博作为网络 空间中的新型媒体,逐渐成为人们获取实时信息的一个重要渠道。网络用户可以通过 微博平台自由地表达个人观点、传递分享即时信息。如何对这样一个重要的信息交流 平台短时间内产生的海量数据进行组织管理,存储并检索是个亟待解决的问题。本文 将研究微博主题分类,这对微博信息的组织管理和方便网络用户及时获取准确而又感 兴趣的信息具有重要的现实意义。 首先,本文介绍了本课题的研究背景及意义,分析了网络空间中的微博分类以及 主题模型的国内外研究现状,发现中文微博数据特征维数过高而且词语之间具有语义 相关性,以至于传统的文本分类方法不能满足中文微博主题分类,为此本文针对上述 问题进行深入研究。 其次,根据新浪微博数据自身的特点,提出一种适用于微博主题提取的 SMLDA (Sina Micro-blog Latent Dirichlet Allocation)模型。该模型是基于模型 LDA(Latent Dirichlet Allocation)而改进的,综合考虑了三种类型的新浪微博数据和背景主题,并 采用吉布斯抽样算法来推理估计参数。通过实验证明了 SMLDA 模型在主题特征提取 方面的有效性。 最后,针对微博主题分类的问题,本文提出一种新的 SMLDA-SVM 模型。该模 型主要是利用 SMLDA 模型得到的潜在主题-文本矩阵对微博文本进行向量化表示, 并结合 SVM(Support Vector Machine)分类算法构造出一个高效的多分类器,进而 用于文本分类。经过实验结果的分析和比较,验证了本文所采用方法的准确性和有效 性。 关键词:新浪微博;主题模型;特征提取;支持向量机 Abstract Abstract II万方数据 II 万方数据 Abstract With the internet technology booming, humans have come into the age of network and gradually get news from micro-blog that a new stylish platform provides current news as a new type of media in network space. Subscriber can transmit real-time information and express personal views without critical inspect. Nevertheless the more information generated immediately by an important platform for the exchange of information, the harder information retrieve and store is, researcher need give some direct resolution. Data retrieve and classification is born at the right time especially meeting demands that subscriber want to get some interesting information quickly and precisely. This thesis does some research at the micro-blog theme classification which has important practical significance. Firstly, this article introduce background and significance of this thesis , analyzes the present situation of research status at home and abroad of micro-blog classification in network space and topic model, observe that Chinese micro-blog feature high dimension data and semantic correlation between words, lead to the traditional text classification methods can’t meet the Chinese micro-blog topic classifica

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档