面向主题的社交网络采集技术①-计算机系统应用.PDFVIP

面向主题的社交网络采集技术①-计算机系统应用.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向主题的社交网络采集技术①-计算机系统应用.PDF

2016 年 第 25 卷 第 10 期 计 算 机 系 统 应 用 ① 面向主题的社交网络采集技术 郑楷坚, 沙 灜 ( 中国科学院 信息工程研究所, 北京 100093) 摘 要: 社交网络数据采集是开展社交网络分析的基础. 针对当前面向主题的社交网络数据采集技术采集数据 少、召回率低的问题, 本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法, 并将 LDA(Latent Dirichlet Allocation, 隐含狄利克雷分布)模型应用于主题关键词的迭代扩展, 并提出了一种基于用户 生存值的高效扩展策略. 实验结果表明本文提出的方法可以使面向主题的社交网络数据采集系统在保证一定准 确率的情况下进一步获取主题相关数据. 关键词: 社交网络; 主题采集; 内置搜索; 通用搜索; 主题模型; LDA Topic Focused Crawling Technique on Social Network ZHENG Kai-Jian, SHA Ying (Institution of Information Engineering, Chinese Acadamic of Sciences, Beijing 100093, China) Abstract: Social network data is the basis of social network analysis that is why it’s important to collect such data. To solve the problem of less collected data and low recall rate in current focused crawlers on social network, this paper proposes a method combining the based built-in search engine and general search engines to crawl topic messages, as well as applys the LDA model to extract the topic keywords from collected data iteratively and adds new topic keywords to the seed. Besides, an efficient expansion strategy based on users survival value is discussed. Our experiment shows that the methods proposed can improve the recall rate with a high precision. Key words: social network; focused crawler; built-in search engine; general search engine; topic model; LDA 1 引言 全面, 带宽占用小, 但是受限严格; 基于浏览器的方 互联网技术的进步和智能手机的普及促进了社交 式实现简单, 适用性强, 但系统资源消耗较大, 采集 网络的蓬勃发展. 根据统计, Facebook 的月活跃用户 速度慢; 基于AJAX 模拟的方式, 采集速度快, 内容全 在2015 年第三季度便突破 15 亿, Twitter 的月活跃用户 面, 但是开发难度大, 维护成本高. 数也达到 3 亿. 在移动端方面, Mary Meeker 发布的 日益复杂庞大的社交网络及其海量内容数据对社 [1] 《2015 年互联网趋势报告》 显示, 用户量最多的前

文档评论(0)

2752433145 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档