- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向主题的社交网络采集技术①-计算机系统应用.PDF
2016 年 第 25 卷 第 10 期 计 算 机 系 统 应 用
①
面向主题的社交网络采集技术
郑楷坚, 沙 灜
( 中国科学院 信息工程研究所, 北京 100093)
摘 要: 社交网络数据采集是开展社交网络分析的基础. 针对当前面向主题的社交网络数据采集技术采集数据
少、召回率低的问题, 本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法, 并将
LDA(Latent Dirichlet Allocation, 隐含狄利克雷分布)模型应用于主题关键词的迭代扩展, 并提出了一种基于用户
生存值的高效扩展策略. 实验结果表明本文提出的方法可以使面向主题的社交网络数据采集系统在保证一定准
确率的情况下进一步获取主题相关数据.
关键词: 社交网络; 主题采集; 内置搜索; 通用搜索; 主题模型; LDA
Topic Focused Crawling Technique on Social Network
ZHENG Kai-Jian, SHA Ying
(Institution of Information Engineering, Chinese Acadamic of Sciences, Beijing 100093, China)
Abstract: Social network data is the basis of social network analysis that is why it’s important to collect such data. To
solve the problem of less collected data and low recall rate in current focused crawlers on social network, this paper
proposes a method combining the based built-in search engine and general search engines to crawl topic messages, as
well as applys the LDA model to extract the topic keywords from collected data iteratively and adds new topic keywords
to the seed. Besides, an efficient expansion strategy based on users survival value is discussed. Our experiment shows
that the methods proposed can improve the recall rate with a high precision.
Key words: social network; focused crawler; built-in search engine; general search engine; topic model; LDA
1 引言 全面, 带宽占用小, 但是受限严格; 基于浏览器的方
互联网技术的进步和智能手机的普及促进了社交 式实现简单, 适用性强, 但系统资源消耗较大, 采集
网络的蓬勃发展. 根据统计, Facebook 的月活跃用户 速度慢; 基于AJAX 模拟的方式, 采集速度快, 内容全
在2015 年第三季度便突破 15 亿, Twitter 的月活跃用户 面, 但是开发难度大, 维护成本高.
数也达到 3 亿. 在移动端方面, Mary Meeker 发布的 日益复杂庞大的社交网络及其海量内容数据对社
[1]
《2015 年互联网趋势报告》 显示, 用户量最多的前
您可能关注的文档
最近下载
- 2025-2026学年人教版英语八年级上册UNIT 8 单元综合评估卷(含答案及听力原文,无听力音频).doc VIP
- 常用电工仪器仪表使用方法PPT课件.pptx VIP
- 2025年广东省华医网公需课考题答案—人工智能赋能制造业高质量发展.docx VIP
- 基于核心素养的初中生物实验教学设计研究报告教学研究课题报告.docx
- 物流园安全生产三项制度(安全生产责任制、制度、操作规程)汇编.pdf VIP
- 2019年山东省广播电视技术能手竞赛(网络安全)答案.doc VIP
- (9月3日)铭记历史,吾辈自强——纪念抗日战争胜利80周年初中主题班会课件.pptx VIP
- 07 保护及故障信息管理子站技术规范书(通用).doc
- 2025-2026学年小学信息科技湘教版2024三年级上册-湘教版(2024)教学设计合集.docx
- 第一届全国技能大赛贵州选拔赛砌筑项目技术文件1.docx VIP
文档评论(0)