基于.net搜索引擎.docVIP

下载本文档

8
0
约2.14万字
约 30页
2017-08-24 发布于重庆
举报
版权申诉

基于.net搜索引擎.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于.net搜索引擎.doc

基于ASP.Net搜索引擎的设计与实现摘要 3 Abstract 4 第一章绪论 5 1.1搜索引擎的背景及意义 5 1.2 搜索引擎的现状 6 第二章搜索引擎概述 8 2.1 搜索引擎的概念 8 2.2 搜索引擎的发展 8 2.3 搜索引擎的工作原理 9 2.4 .NET简介 10 第三章搜索引擎的设计 11 3.1网页搜集 11 3.1.1网络爬虫的介绍 11 3.1.2网络爬虫设计 12 3.1.3网络蜘蛛的实现 14 3.1.4数据库设计 16 3.2 网页的信息处理 16 3.2.1 倒排索引 16 3.2.2 Lucene.Net介绍 17 3.2.3索引结构 19 3.2.4中文分词技术 21 3.3 查询信息 24 3.3.1查询实现 25 3.3.2 word文档查询 26 3.3.3关键字高亮显示 27 第四章用户接口设计 28 4.1用户注册、登陆 28 4.2查询扩展 28 4.3个性化查询 29 4.4 系统数据库设计 30 第五章测试与评价 31 5.1查询测试 31 5.2评价 32 第六章结论和展望 33 参考文献 35 致谢 36 附录 37 摘要互联网的快速发展使得网络中的信息量越来越大，普通用户对信息的检索越来越困难。搜索引擎的出现大大的该少了这种情况，互联网的快速发展也使搜索引擎的不断的发展着，而搜索引擎的逐渐转向商业化运行，使得搜索引擎的技术细节越来越隐蔽。本文以搜索引擎的三个基本功能：网页爬取、网页处理、查询服务为出发点，并按这三个功能将系统进行功能模块划分，以ASP.NET技术作为基础，实现了一个搜索引擎。网页中存在着大量链接的同时也具有众多的冗余信息，例如，导航信息条、广告栏、版权信息等，这些冗余信息大大限制了网页的可用性，因此在本文中网页爬取的重点就是如何快速的提取这些链接，而网页处理的重点则是去除网页中的冗余信息。本文利用正则表达式的灵活性实现了对网页中链接地址的提取和网页中冗余信息的剔除。在获取链接地址进行网页爬取的同时对网页信息进行提取，同时基于最大化匹配算法实现中文分词算法，并利用DotLucne提供的接口功能成功实现对提取网页信息的索引，经过网页信息的提取和分词预处理，检索过程建立的索引更小，检索的效率和结果更加理想，并基于此索引为用户的查询请求提供服务。：搜索引擎；网页爬取；ASP.net；中文分词；With the rapid developnebt of the Internet,it has become the largest information source in our life.Information search an retrieval for ordinary users become more and more difficult.The emergence of search engines greatly improves this situation.Search engine has made a constant development with the development of the Internet,but uts gradually shifting to conmmercial operation makes the technical details of search engine more and more hidden.With the start point of three basic requirments of search engines as Web Spider,Pages’Processing and Providing Servives,this paper divides the system into three functional modules,and based on ASP.NET,this paper explores the principle and realizes one search engines. In web pages,three are a large number of links,how to fetch out these links fast is the key point of the Web Spider in these paper.At the same time,web pages contain a lot of redundant informationg,navigation tools,advertising fields,copyright information and so on,these re