如何通过垂直搜索引擎构建自己的学术搜索引擎..docVIP

下载本文档

2
0
约2.71千字
约 6页
2017-01-12 发布于重庆
举报
版权申诉

如何通过垂直搜索引擎构建自己的学术搜索引擎..doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

如何通过垂直搜索引擎构建自己的学术搜索引擎.

如何通过垂直搜索引擎构建自己的学术搜索引擎课题背景随着因特网的发展，网上信息资源日益丰富且呈现出以下特点： (1)信息量大而且分散； (2)自治性强； (3)信息资源多种多样；(4)不一致和不完整性。这些给信息挖掘带来了挑战。一方面使其实用性不断加强，越术越多的人从网上获取信息：另一方面，人们经常会感到通过一般的搜索引擎难以找到自己想要的信息，对于具体专业或某一领域的内容尤其如此，如学术文献. 所以，要从Internet上获取有价值的专业信息，就必须有专门的搜索引擎来获取专业性的信息。垂直搜索引擎是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式，通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”，且具有行业色彩，相比较通用搜索引擎的海量信息无序化，垂直搜索引擎则显得更加专注、具体和深入。学术搜索引擎顾名思义就是搜索学术资源的引擎，资源以学术论文、国际会议、权威期刊、学者为主，随着新一代搜索引擎的快速发展，学术搜索引擎应具备个性化、智能化、数据挖掘分析、学术圈等特色。2．3垂直搜索引擎的结构本文根据常用的搜索结构，有机地将分类目录式搜索引擎和基于查询串的搜索引擎结合起来，设计了一个垂直搜索引擎的体系结构，如图所示。其各部分功能简述如下： l、爬虫软件：也称为spider，crawler和robot等，定向搜索各类信息前十名的网站，并负责将这些Web文档搜集到原始数据库中。 2、索引器：负责对原始数据库的文档构造索引，并且存储在索引数据库中。索引是检索的有利工具，好的索引机制会导致检索效率的提高。 3、检索器：是垂直搜索引擎的核心。检索器利用索引数据库中的索引来查找与用户查询相匹配的文档，计算各个文档和查询关键词的相关度，并将相关度大于阈值的文档按照相关度递减的顺序排列，返回给用户。 4、用户接口：提供可视化的查询输入和结果输出界面。一般来说，在输出界面中，垂直搜索引擎将检索结果展示为一个线形的文档列表，其中包含了文档的标题和超链等信息。从图可以看出：垂直搜索引擎系统包括搜集子系统、索引子系统和检索子系统三个组成部分。 2．3．1搜集子系统搜集子系统的功能是在互联网中漫游、发现和搜集信息。它常常是一个计算机程序(也称为spider，crawler和robot等)，日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息，同时因为互联网上信息更新很快，所以还要定期访问已经搜集过的旧信息，以避免死链接和无效链接。由于互联网中存在海量信息而且复杂多变，Web搜集器的实现常常采用分布式、并行计算技术，以提高信息发现和更新速度。本文设计的web搜集器能够根据某一类信息需求，从互联网上的各个信息网站(主要是独立制作发布信息的网站)，收集围绕着某个(或某类)主题的相关信息资料。它是垂直搜索引擎的核心部分． 2．3．2索引子系统索引予系统包括索引器和索引数据库。索引器将原始数据库的内容重新组织，建立索引数据库，以提高检索效率．索引子系统如图2—7所示。索引予系统的第一步就是为原始网页建立索引，实现图2-7中索引网页库；接下来对索引网页库进行分析，它包括提取正文信息和把正文信息切分为索引项两个阶段；最后将网页到索引项的映射转化为索引项到网页的映射，形成倒排文件(包括倒排表和索引项表)，同时将网页中包含的不重复的索引项汇聚成索引项表。 2．3．2．1索引网页库索引网页库的任务就是完成给定一个URL，在原始网页库中定位到该URL所指向的记录旧。如果不对网页库建立索引信息，可以通过顺序查找的方法完成URL到指定记录的过程，但是会消耗大量的I／O，数据量增大的时候不能满足垂直搜索引擎的快速响应要求，所以需要创建索引。对原始网页集R，索引网页库算法描述如图 2—8所示。网页索引文件以ISAM(索引顺序访问模式)存储。这种结构可以保证数据的紧凑性和O(1)的检索能力。为节省空间，索引文件中的每一行记录不保存文档的长度，因为文档长度可以通过后续文档起始位置偏移和当前文档起始位置偏移的差获得。 URL索引文件以ISAM存储，包含了URL的摘要和文档编号。为了能够快速地给指定的URL找到对应的文档编号，URL索引文件按照URL摘要排序，这样就可以根据二分查找算法在URL索引文件中查找到对应的文档编号。 2．3．2．2分析网页分析网页包括提取正文信息和把正文信息切分为索引项两个阶段。形成的结果是文档号到