基于微博的社区识别和话题检测应用-软件工程专业论文.docxVIP

基于微博的社区识别和话题检测应用-软件工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Applicationofcommunityidentincationandtopicdetectionbasedonmicroblogby川Y川3㈣0㈣9肿7,川3㈣9删0ZHANGYiB.E.(HunanUniVersity)2008AthesissubmittedinpartialsatisfactionoftheRequirementsforthedegreeofMasterofEngineeringSoftwareEngineeringintheGraduateSchoolofHunanUniVersitySuperVisorProfessorPENGJuhuaSeniorEngineerGANDazhiNovember,2015万方数据湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:私蓼、.日期:西莎年J朔,口日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、。使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在.年解密后适用本授权书。2、不保密囱0(请在以上相应方框内打“√”)作者签名:一独琴\日期:列S年/了月p日勃辫郴邗日翟:游厂溯7。日导师签名:、k置P...【万方数据基于微博的社区识别和话题检测应用摘要互联网的迅猛发展极大地推动了社会信息的网络化进程,以微博为代表的信息网络已经成为人们日常工作和生活的重要组成部分。在微博这种特定的环境下,原有的事件检测领域面临了新的挑战,很多微博研究处于探索阶段,等待寻求面向微博数据的有效的检测方法。从复杂的信息网络中发现所包含的网络社区可以引导用户找到感兴趣的信息,可以帮助商家准确找到消费者,为用户提供更加准确的个性化推荐,也方便网络服务提供商更有效地组织网站结构。社区发现旨在识别出网络固有的社区结构,但由于社交网络本身的复杂性,人工发现其中的社区难度大且效率低,因此,面向微博的社区发现研究具有较高的理论价值和实用价值。本文主要研究的内容是基于用户关系的社区发现和主题发现及跟踪。首先介绍了国内外研究背景,社交网络的相关定义等,探讨了进行研究工作的研究思路、先决条件。相关数据采集方面,从比较谷歌、百度爬虫的区别入手,选择了不用C00kie进行内容抓取的解决方案。从Newman快速算法出发,本文提出了基于散射状的微博社区发现方法。接着,本文研究了基于散射状的微博社区发现算法,发现微博网络中存在大量散射形结构,散射形结构的中心往往是网络中各社区中心。通过确定具有“代表性的中心节点,可快速将网络划分为以这些节点为中心的社区。最后,本文介绍了微博主题发现与跟踪系统的处理流程。详细介绍了基于Sin91e.Pass聚类算法处理大量微博话题信息后快速整理的算法,实现微博话题的自动检测。然后介绍基于查询向量的自适应主题跟踪算法,实现了可以去噪的话题追踪方案。本文纵观现有社区发现算法,取人之长,补己之短,综合微博社区区别于其他社交网络中可以单向关注的特性,围绕基于用户关系紧密度的社区划分方法展开研究。测试结果表明,通过修改爬虫header来实现微博无cookie抓取,极大提高了微博的抓取速度,可应用基于时间的技术来收集关于网络的广度优先分析信息。基于散射形的社区发现算法是准确有效的,能够对微博网络中的用户社区进行有效的识别。基于聚类的微博话题发现算法,该算法的错误检测率有所提高,召回率和准确率一直显著高,漏检率速度下降幅度较大,实现了更理想的测试值,表明改进后的算法拥有更好的整体性能,用于跟踪微博话题是可行和有效的。关键词:数据采集;社区发现;话题发现;社交网络II万方数据工程硕士学位论文AbstractTherapiddeVelopmentoftheInternethasgreatlypromotedthenetworkingintheinformationsociety,especiallythemicro.blogastherepresentativeoftheinformationnetworking,whichhasbecomeanimportantpartinda订ylifeandwork.ThereisanewchaIIengeintheoriginaleVentdetectionfieldamongthes

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档