第六章网络信息检索技术方案.ppt

下载文档 降价啦

11
0
约1.37万字
约 109页
2017-08-25 发布于湖北
举报
版权申诉
保障服务

第六章网络信息检索技术方案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络信息检索南京中医药大学文献检索教研室教学内容网络信息检索基础网络信息采集网络信息的组织网络信息的整合网络信息的搜索搜索引擎常用搜索引擎的检索与利用网络信息检索基础网络信息检索：借助Internet检索信息资源的一种方式，是检索技术、网络技术及信息存储和处理技术相结合的产物。广义：信息采集、组织、存储与检索浏览器：是为了阅读浏览网页而编制的客户端应用程序。如IE浏览器、360浏览器、QQ浏览器、Google Chrome、NetScape浏览器等 WEB图结构 WEB图中的一些概念节点(Node)：指每个网页，当图中每个连接的单位是网站时，每个网站看成一个Node。入度(In degree)：每个Node的入度指的是指向该Node的Node数目。出度(Out degree)：每个Node的出度指的是该Node指向的Node数目。网络信息检索的特点检索主题广泛：存取范围覆盖Internet上的所有资源内容新颖实时功能完善友好：用户界面友好易操作；具有良好的导航及编辑功能检索灵活多元：传统检索方法与全新检索技术相结合用户透明网络信息检索工具：构成信息采集机制（Harvesting mechanism）自动程序 Robot 人工选择、采集网络用户递交标引机制（Indexing mechanism）:自动、人工组织机制：数据库检索机制(Searching facility)：检索代理软件、用户界面（Interface）网络信息检索工具：分类按检索对象分： Web资源检索工具：主流非Web资源检索工具： FTP：Archie等 Usenet： Deja News等 Lists：Liszt等 Gopher：Veronica等全文信息: WAIS等按包含检索工具数量分：单一型（Singular search tools）集合型（Collective search tools）：元搜索引擎(Metasearch Engine或Megasearch Engine) 网络信息检索工具：分类按检索机制分：目录型(Subject directory, catalogue) 索引型：搜索引擎(Search Engine) 混合型（Hybrid tools）目录型检索工具和搜索引擎之间的界限越来越模糊，大多数流行的网络检索工具均同时提供两种方式的检索，担负网络资源主题指南和索引双重责任。目前这种混合型(hybrid) 检索工具代表了网络检索工具的发展趋势，多被混称为搜索引擎。按检索内容分：综合型专题型特殊型网络信息检索工具：优势内容丰富、信息存储量大内容更新快、新颖检索便捷、途径众多使用方便，不受限制网络信息检索系统网络信息检索技术网页搜索技术标引技术索引技术检索技术排序技术网络信息采集主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程，信息采集系统也常常称为Robot, Spider, Crawler等等信息采集是搜索引擎获得数据来源的过程，地位相当重要信息采集的目标：快速获得高质量的网页信息采集是一项十分繁杂和庞大的工程不同的协议不同的网络情况时效性的要求网页质量的要求实际上是图的遍历过程通过种子页面或站点(Seed)，获取更多的链接，将它们作为下一步种子，循环这个过程一般永远不会结束！网络信息采集步骤：站点索引：网站搜索，提供站点列表（盲目搜索和定向搜索）网络搜索：由网络机器人（网络蜘蛛）在网络在爬行，访问Web上所有用户可以访问的地方，收集Web上的资源。网络蜘蛛的类型通用网络蜘蛛增量式网络蜘蛛主题网络蜘蛛基于用户个性化的网络蜘蛛基于代理的网络蜘蛛迁移的网络蜘蛛信息采集的基本结构采集的遍历算法宽度优先vs. 深度优先宽度优先：先采集完同一层的网页，再采集下一层网页深度优先：先沿一条路径采到叶节点，再从同层其他路径进行采集有研究表明：宽度优先的方法得到的网页集合的重要性更好网站采集vs. 全局URL采集网站采集：一个网站一个网站采集全局URL采集：将所有URL放入一个URL池，从中使用某种方法进行选择网站采集在支持应用方面灵活性大一些，但是采集效率可能不如全局URL采集，通常的搜索引擎采用全局URL采集的方法。采集中的“礼貌”问题遵守网站上发布的Robot.txt采集限制协议采集时尽量不要太过密集地采集某个网站，这种密集访问类似于DoS攻击，导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为。信息采集的研究趋势高速、高质量信息采集个