中文农业搜索网站的设计与实现-农业部.docVIP

下载本文档

1
0
约4.03千字
约 5页
2017-03-04 发布于天津
举报
版权申诉

中文农业搜索网站的设计与实现-农业部.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文农业搜索网站的设计与实现-农业部

中文农业搜索网站的设计与实现周国民，樊景超，周义桃（中国农业科学院农业信息研究所，北京 100081）引言搜索引擎作为解决用户要在信息海洋里查找信息难这个问题而出现的技术，己成为互联网上非常重要的网络导航服务。目前，web网上拥有超100亿的静态网页。而当前的通用搜索引擎所能检索的网页一般不超过web网的30-40%，即使是用户最多的Google，其检索的网页也只在30亿左右。另一方面，web技术的发展使更多的网页以动态形式存在，形成所谓的隐藏web网，据估计这部分的信息是整个静态Web空间的500倍以上，而且有递增的趋势。由于搜索引擎在Intemet中所具有的重要地位，它一直就是用户关心的热点之一，也是各家相关公司全力开发的技术焦点。我国各类网站发展非常迅速，而农业网站仅占这些网站的很小一部分，因此通过综合的搜索引擎网站，如google、百度等，会搜索到很多无关的信息。据不完全统计，在农业领域现有各种网站1万多个，涉及农、林、牧、渔、水利、气象、农垦、乡镇企业、及其它农业部门，网页数200多万个，如何仅仅针对这些农业网站中的信息，开发一个专业化的搜索引擎，实现农业信息的精确搜索是本文研究的出发点。系统结构与功能中文农业网页搜索网站（简称“农搜”）由网页抓取模块、全文分析与索引模块、全文与语义检索引擎、全文和语义索引库、以及交互接口模块构成。如图1所示。网页抓取模块是根据中文农业网站地址，按照特定的抓取算法，从网络上实时采集中文农业网页。全文分析与索引模块包括全文分析与索引、语义分析与索引两个部分，它把采集回来的中文网页进行逐个处理，分别构建全文索引和语义索引，并保存到全文和语义索引库中。全文与语义检索引擎则根据用户的查询请求生成检索结果集。交互接口模块完成对查询语句的分析和检索结果的高亮显示以及网站直达功能。 “农搜”的主要功能包括如下五个方面：① 网页全文检索功能，用户查询时，提供与关键字匹配的结果列表。② 网站直达功能，用户点击检索结果的标题超链接，即可跳转到网页的互联网地址。③ 网页评分功能，全文引擎和语义引擎根据各自的评分算法，对网页进行平分和排名。④ 内容提示功能，全文检索把输出的内容含有检索词的部分高亮显示，提示用户。⑤ 语义相似网页检索功能，根据用户的选择文档，进行二次检索并输出相关网页。 “农搜”的主页面如图2。它特点包括两个方面。一是，采用了独特的智能页面分析技术，实现了中文农业网页信息的结构化索引，用户输入关键词后，返回的结果集中不再是没有关联和分类的网页集，而是分成了农业科研单位、农业专家人才、农业实用技术等分门别类的相关网页信息集，在专业化、大众化信息服务的基础上，实现了精准、个性化的信息服务。二是，实现了“全文检索+语义检索”的智能检索引擎，通过使用“全文检索+语义检索”的智能检索引擎技术，不但实现了信息的查全率，这点和主流的检索引擎是一样，同时比较好的实现了信息的查准率。用户通过关键词后利用“全文检索引擎”查到一系列网页后，“农搜”可以根据用户指定的任何一个网页，利用“语义检索引擎”查到这个页面的最相似页面。图1“农搜”系统结构图2“农搜”网站首页关键技术 “农搜”实现了“全文检索+语义检索”的智能检索引擎，由于基于字的或者基于词的全文检索引擎已经有很多这方面的研究，本文不再叙述，下面重点介绍我们设计的语义检索引擎所采用的技术和实现原理。 1988年S.T. Dumais等人提出了隐含语义索引（Latent Semantic Indexing）方法，该方法是向量空间模型的一个延伸分支，它是通过统计方法分析大量的文本集，自动生成关键字——概念（语义）之间映射规则，提取并量化这些潜在的语义结构，消除同义词、多义词的影响，提高文档表示的准确性。隐含语义索引方法的提出，使得基于向量空间模型的检索研究获得新生，在信息过滤、信息分类、信息聚类、交叉语言检索、信息理解等众多领域中得到了广泛的应用。使用隐含语义索引方法，需要构建隐含语义索引空间，SVD是最早提出使用，也是目前普遍使用的典型隐含语义索引空间的构造方法。但基于SVD的隐含语义索引方法不太合适于大规模动态变化的数据集，而互联网上信息的一个显著特点是数据量大和数据变化快，因此，使用这种技术路线来索引和检索互联网上的海量信息并不很成功。1996年T.G. Kolda 和 D.P. O’Leary 提出了一种改进算法来构建隐含语义索引空间，即SDD算法（Semidiscrete Decomposition）。日本国家农业研究中心（NARC）农业综合研究所农业情报研究部的研究人员将SDD算法用于日文网页和中文网页的信息检索，取得了比较好的应用效果，证明了基于SDD算法隐含语义索引方法能够有效地处理大规模动态变化的数据集。目