- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络计量学
第4章 网络计量研究的 数据搜集方法与工具 数据搜集方法 4.1 网络日志文件数据搜集方法 4.2 网络信息数据调查搜集方法 4.3 网络引文数据搜集方法 工具 4.4 搜索引擎工具 4.5 网络爬虫工具 应用 4.6 网络数据搜集方法的应用举例 4.1 网络日志文件数据搜集方法 80 [25/May/2011:20:21:56 +0800] GET HTTP/1.1 200 12447 Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) 4.2 网络信息数据调查搜集方法 1.网民监测 2.网站监测 3.在线调查 4.离线调查 4.3 网络引文数据搜集方法 网络引文:指学术论文后所附的、其来源出处是互联网资源的参考文献,实际上是用作参考文献的网络信息资源,其突出特征是著录内容中含有网址。 搜集方法: 手工或利用程序自动提取 网络引文搜索引擎 4.4 搜索引擎工具 4.4.1 概述 概念 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 1990年 Archie 1995年元搜索引擎 2006年垂直搜索引擎 4.4 搜索引擎工具 4.4.1 概述 2. 构成和原理 构成:搜索器(URL、web空间划分)、索引器(客观索引项、内容索引项)、检索器、用户接口(简单接口、复杂接口) 流程:(1)抓取网页(2)处理网页(3)提供检索服务 3. 发展趋势 (1)提高信息查询结果的精度及检索的有效性 (2) 基于智能代理的信息过滤和个性化服务 (3)采用分布式体系结构提高系统规模和性能 (4)重视跨语言检索的研究和开发 4.4.2 搜索引擎在网络计量学研究中的应用 重要的数据收集工具 局限性 (1)覆盖范围有限,查全率太低,检索结果的不一致性 (2) 使用不便、效率低下 (3)功能不足 (4)稳定性差 (5)精度不高 (6)缺乏客观性 3. 搜索引擎用于网络计量学研究必须满足 (1)具有能够包括所研究的网络环境的所有网页及其链接的大型数据库 (2) 具有能够辨别一定网络环境下网页数量和链接数量的搜索命令 (3)具有统计网页及其链接结果的布尔逻辑命令 4.4.3 网络计量学中的搜索引擎研究 评价研究 (1)稳定性和成长情况 1998年Rousseau对AltaVista和NorthernLight进行21周连续跟踪研究 2001年MikeThelwall对多个搜索引擎为其7个月的跟踪研究 (2)性能 1997年Clarke和Willet对AltaVista、Excite、Lycos进行比较 2003年邱均平对AllTheWeb和AltaVista进行比较 2006年邱均平对Google、 AllTheWeb和AltaVista进行比较 2.应用研究 1999年Steve Lawrence提出将几个主要引擎结合起来 2001年Alastair G.Smith将自己设计的专门爬行器和AltaVista进行比较 2003年肖建华提出二次搜索系统 3. 改进研究 排序标准: (1)人工判断 (2) 按商业因素排序 (3)按搜索条件频率排序 4.4.4 重要搜索引擎工具概述 商业搜索引擎 商业搜索引擎 特征 搜索方式 优劣势 google 规模大、内容全、多语言、使用灵活 常规检索、高级检索 基于权威值处理的搜索结果;重要的数据搜集工具(AdPlanner) AllTheWeb 内容丰富、更新及时、搜索精度高 常规搜素、高级搜索、主题搜索 可实现新闻时事更新;数据库容量大;对中文支持不好 AltaVista 功能最完善、搜索精度最高 常规搜素、高级搜索、主题搜索 首个提供多语种检索的搜索引擎;全球拥有专利最多的搜索引擎 4.4.4 重要搜索引擎工具概述 2. 科学搜索引擎 科学搜索引擎 领域 信息来源 搜索方式 排序方式 优劣势 Scirus 只专注于科技方面 网络资源、期刊数据库 常规检索、高级检索 按相关度或按时间排序 较高的检索准确度;不支持多语种检索,服务不完全免费 Google Scholar 科技工作者的信息需求 普通Google数据资源、与Nature/OCLC/IEEE合作 常规检索、高级检索 相关度 搜索结果显示被引次数、图书馆搜索和相关文章,提供引文链接;检索服务完全免费;支持多语言检索;查全率查准
您可能关注的文档
最近下载
- 行测秒杀技巧.docx VIP
- 9706.1有源医疗器械检测用-GB_T 42062-2022风险管理报告.docx VIP
- 2025年河北省政府采购评审专家考试试题及答案.docx VIP
- FIDIC-咨询协议通用条款-2006第四版-中文翻译.pdf VIP
- 中国多发性骨髓瘤诊治指南(2024年修订).pdf
- 大学生职业生涯规划.pdf VIP
- 横河(Yokogawa)uR10000、uR20000通信接口使用说明书(中文).pdf
- 2024版外研版英语八年级上册全册各单元重点知识点清单(默写).pdf VIP
- 幼儿园食育课程与中华优秀传统文化相融合的价值与路径研究.docx VIP
- BAKERHUGHS旋转导向简介教学.pptx VIP
原创力文档


文档评论(0)