- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信息检索 南京中医药大学 文献检索教研室 教学内容 网络信息检索基础 网络信息采集 网络信息的组织 网络信息的整合 网络信息的搜索 搜索引擎 常用搜索引擎的检索与利用 网络信息检索基础 网络信息检索:借助Internet检索信息资源的一种方式,是检索技术、网络技术及信息存储和处理技术相结合的产物。广义:信息采集、组织、存储与检索 浏览器:是为了阅读浏览网页而编制的客户端应用程序。如IE浏览器、360浏览器、QQ浏览器、Google Chrome、NetScape浏览器等 WEB图结构 WEB图中的一些概念 节点(Node):指每个网页,当图中每个连接的单位是网站时,每个网站看成一个Node。 入度(In degree):每个Node的入度指的是指向该Node的Node数目。 出度(Out degree):每个Node的出度指的是该Node指向的Node数目。 网络信息检索的特点 检索主题广泛:存取范围覆盖Internet上的所有资源 内容新颖实时 功能完善友好:用户界面友好易操作;具有良好的导航及编辑功能 检索灵活多元:传统检索方法与全新检索技术相结合 用户透明 网络信息检索工具:构成 信息采集机制(Harvesting mechanism) 自动程序 Robot 人工选择、采集 网络用户递交 标引机制(Indexing mechanism):自动、人工 组织机制:数据库 检索机制(Searching facility):检索代理软件、用户界面(Interface) 网络信息检索工具:分类 按检索对象分: Web资源检索工具:主流 非Web资源检索工具: FTP:Archie等 Usenet: Deja News等 Lists:Liszt等 Gopher:Veronica等 全文信息: WAIS等 按包含检索工具数量分: 单一型(Singular search tools) 集合型(Collective search tools): 元搜索引擎(Metasearch Engine或Megasearch Engine) 网络信息检索工具:分类 按检索机制分: 目录型(Subject directory, catalogue) 索引型:搜索引擎(Search Engine) 混合型(Hybrid tools) 目录型检索工具和搜索引擎之间的界限越来越模糊,大 多数流行的网络检索工具均同时提供两种方式的检索,担负 网络资源主题指南和索引双重责任。目前这种混合型(hybrid) 检索工具代表了网络检索工具的发展趋势,多被混称为搜索 引擎。 按检索内容分: 综合型 专题型 特殊型 网络信息检索工具:优势 内容丰富、信息存储量大 内容更新快、新颖 检索便捷、途径众多 使用方便,不受限制 网络信息检索系统 网络信息检索技术 网页搜索技术 标引技术 索引技术 检索技术 排序技术 网络信息采集 主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程,信息采集系统也常常称为Robot, Spider, Crawler等等 信息采集是搜索引擎获得数据来源的过程,地位相当重要 信息采集的目标:快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程 不同的协议 不同的网络情况 时效性的要求 网页质量的要求 实际上是图的遍历过程 通过种子页面或站点(Seed),获取更多的链接,将它们作为下一步种子,循环 这个过程一般永远不会结束! 网络信息采集 步骤: 站点索引:网站搜索,提供站点列表(盲目搜索和定向搜索) 网络搜索:由网络机器人(网络蜘蛛)在网络在爬行,访问Web上所有用户可以访问的地方,收集Web上的资源。 网络蜘蛛的类型 通用网络蜘蛛 增量式网络蜘蛛 主题网络蜘蛛 基于用户个性化的网络蜘蛛 基于代理的网络蜘蛛 迁移的网络蜘蛛 信息采集的基本结构 采集的遍历算法 宽度优先vs. 深度优先 宽度优先:先采集完同一层的网页,再采集下一层网页 深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采集 有研究表明:宽度优先的方法得到的网页集合的重要性更好 网站采集vs. 全局URL采集 网站采集:一个网站一个网站采集 全局URL采集:将所有URL放入一个URL池,从中使用某种方法进行选择 网站采集在支持应用方面灵活性大一些,但是采集效率可能不如全局URL采集,通常的搜索引擎采用全局URL采集的方法。 采集中的“礼貌”问题 遵守网站上发布的Robot.txt采集限制协议 采集时尽量不要太过密集地采集某个网站,这种密集访问类似于DoS攻击,导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为。 信息采集的研究趋势 高速、高质量信息采集 个
您可能关注的文档
最近下载
- “一带一路”倡议在国际制度层面的支撑与基础.docx VIP
- 上海新天地调研报告.pptx VIP
- 最新统编版一年级语文上册《口耳目手足》精品教学课件.pptx VIP
- 2024年05月黑龙江省齐齐哈尔市自然资源局所属事业单位2024年公开选调4名工作人员笔试笔试历年典型考题及考点研判与答案解析.docx VIP
- 降压启动教学课件.pptx VIP
- 城市轨道交通信号基础课件 -计轴+应答器.ppt VIP
- 212页-【低空经济】低空应急防灾体系建设方案.pdf
- 基于PLC的机械臂控制系统设计与实现.doc VIP
- 日本“都市再生”的发展沿革、主体制度与实践模式研究_张朝辉.doc VIP
- 感统训练手册(3-13岁儿童适用).docx VIP
原创力文档


文档评论(0)