- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息爬取工具MetaSeeker的介绍及其在微博中的应用.pdf
网络
信息爬取工具 MetaSeeker的介绍
及其在微博中的应用
刘丹 叶子青 周舒 唐瑶 粟妮 张璐妮
(北京邮电大学,北京海淀 100876)
[摘 要】移动互联网为微博的发展带来了契机,如何深入理解微博用户的行为,从而利用好微博平台,这是政府相关管理机
构和网络营销企业共同关注的问题。从海量的微博数据中提取有用的数据就要依赖于网络爬虫技术,而选择合适的爬虫技术可
以使我们的研究简便且有效率。
关【键词】微博;网络爬虫;爬虫工具
中图分类号 :TN971 文献标识码 :A 文章编号 :1008—1739(2015)10—72—2
Introduction ofInform ation CrawlingTool M‘‘etaseeker’’and Its
Application in W eibo
LIU Dan,YE Zi—qing,ZHOU Shu,TAN GYao,SU NiZHANG Lu—nj
,
(BeijingUniversityofPostsandTelecommunication,Beijing100876,China)
Abstract:MobileIntemethasbroughtanopportuniytforthedevelopmentofmicro—blogW(eibo).Nowitisthecoml~onCOncem of
governmentadministration andInternetenterprisetounderstandmicro—blogusers’behavior SOastomakegooduseofmicro—blog
,
platform ·Toextractusefuldatafrom theillassofmi cro—blogdatalargelydependsonwebcrawlertechnology
. Appropriatechoiceof
crawlertechnologyenablessimpleandefficientstudy.
Keywords:m icro—blog;webcrawler;crawler—liketool
1引言 文件 ,且能够持续地 、大批量地提取 web信息,输 出带有语义
结构元数据的信息提取结果文件 ,可以高效地为信息服务系
统补充内容。
目前来说,微博 已经成为了 种·新型社交的重要媒介 ,以
实现 移动终端 j 联网的无缝连接,以及易用 、随意 、即
时 、传播快等特点,在不到三年 的时间内已发展成为重要的分 2关于网络爬虫技术
享 _r:具和 自媒体传播平台,成为人们网上生活的重要组成部
分。在使用微博的过程中,一一条微博的评论量与转发量会与什 网络爬虫技术是通过专门的_丁具实现对海量网络数据的
么因素相关引起了我们兴趣 ,故而希望通过捕捉大量的数据, 提取 、挖掘 。在大数据时代 ,数据即意味着财富,生活 中的很多
进行实证分析,来确定评论量与转发量的影响因素及其
您可能关注的文档
最近下载
- 投标人对保证工程质量及详细的质量违约处罚措施的承诺;.doc
- 2023年深圳市南山区第二外国语学校小升初分班考试英语模拟试卷及答案解析.docx
- 华东理工大学《多元统计学》2020-2021学年第二学期期末试卷.pdf
- 主题班会成功无捷径 学习当奋斗(课堂PPT).ppt
- 习概 推进依法治国.docx VIP
- 安徽大学-2020-2021学年第-一-学期大学英语A试卷及答案.docx
- 常见创伤分类与现场急救(1).ppt
- DENON天龙AV接收机AVC-X8500H产品说明书.pdf
- 中学英语教研组校本研修活动记录.doc
- 河北工业大学2022-2023学年第2学期《高等数学(下)》期末试卷(A卷)附标准答案.pdf
文档评论(0)