中文信息检索专题.pptVIP

下载本文档

3
0
约6.67千字
约 41页
2019-06-21 发布于广东
举报
版权申诉

中文信息检索专题.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

十八、搜索引擎结构（续）搜索器搜索器（一般称为Spider或Crawler）的功能是在Internet遍历网址，发现和搜集网页信息。它常常是一个机器人（Robot）程序，日夜不停地运行。它要尽可能多、尽可能快地搜集Internet上的新网页，还要定期更新已经搜集过的旧网页，以避免死链接和无效链接。十八、搜索引擎结构（续）索引器索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示网页以及生成页面库的索引表。十八、搜索引擎结构（续）检索器检索器的功能是根据用户的查询在索引库中快速检出网页，进行网页与查询的相似度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。十八、搜索引擎结构（续）用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎，高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法，以充分适应人类的思维习惯。十九、Google的搜索机制三个部分网页抓取、索引入库和用户检索。网页抓取主要负责网页的抓取，由URL服务器（URL Server）、抓取器（Crawler）、存储器（Store Server）、和URL解析器（URL Resolver）四个部件组成，抓取器是该模块的核心。索引入库主要负责对网页内容进行分析，对网页进行索引并存储到数据库里，由索引器（Indexer）和分类器（Sorter）两个部件组成，该模块涉及许多文件和数据，有关于桶（Barrels）的操作是该部分的核心。用户检索主要负责分析用户输入的检索表达式，匹配相关网页，把检索结果返回给用户，由查询器（Searcher）和网页级别评定器（PageRank）两个部件组成，其中网页等级的计算是该模块的核心。十九、Google的搜索机制（续）二十、搜索引擎分类目录(Dictionary)搜索引擎机器人(Robot)搜索引擎元（Meta）搜索引擎二十、搜索引擎分类（续）目录(Dictionary)搜索引擎以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。信息大多面向网站，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是：Yahoo、LookSmart、Open Directory、Go Guide等。机器人(Robot)搜索引擎二十、搜索引擎分类（续）机器人(Robot)搜索引擎由一个称为蜘蛛（Spider）的机器人程序以某种策略自动地在互联网中搜集和发现信息，由索引器为搜集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。这类搜索引擎的代表是：AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google、天网、悠游、OpenFind等。二十、搜索引擎分类（续）元（Meta）搜索引擎元搜索引擎没有自己的数据，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是不能够充分使用所使用搜索引擎的功能，用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。二十一、搜索引擎技术的发展趋势注重提高信息检索结果的准确度，提高检索的有效性基于智能代理的信息过滤和个性化服务采用分布式体系结构提高系统规模和性能重视交叉语言检索的研究和开发自然语言理解技术计算机科学与技术学院中文信息检索专题Chinese Information Retrieval 苏州大学计算机科学与技术学院一、历史计算机信息检索起源于20世纪50年代初。1954年美国海军兵器中心图书馆利用IBM701机开发计算机信息检索系统，它标志着计算机信息检索阶段的开始。计算机信息检索技术已经从脱机检索、联机检索、光盘检索发展到了网络检索阶段。一、历史（续）中文文本信息检索最早见于“748工程”中的汉字情报检索。 80年代中期后，由于计算机处理能力的大大提高和应用的普及化，中文文本信息检索的研究广泛开展，各种汉字文本索引方法、检索算法以及实用化系统开始出现。