- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CPM搜索引擎的设计与实现.doc
CPM搜索引擎的设计与实现
毕业 目录
摘要2
前 言4
1 概述5
1.1 搜索引擎的概念5
1.2 1些著名的搜索引擎6
1.2.1 Google6
1.2.2 百度7
1.2.3 天网7
1.3 典型搜索引擎工作原理9
2 CPM搜索总体设计10
2.1基本要求10
2.2 体系结构规划分析11
2.3 各模块设计策略分析11
2.3.1 网页搜集11
2.3.2 预处理13
2.3.3 查询服务14
2.4 体系结构16
3 网页搜集模块的设计与实现18
3.1 超文本传输协议18
3.2 网络蜘蛛原理19
3.3 网络蜘蛛的类结构20
3.4 CSPIDERTHREAD类21
3.5 网络蜘蛛爬取策略26
3.6 控制对1个站点并发搜索线程的数目26
3.7 数据库设计26
4 预处理模块的设计与实现28
4.1 分析网页28
4.1.1 分析网页内容28
4.1.2 获取网页所有链接URL29
4.3 网页重复搜集的避免30
4.4 网页重要程度确定31
4.5 中文分词31
4.5.1 算法介绍31
4.5.2 正向减字最大匹配法33
4.5.3 分词系统实现35
5 查询服务模块设计与实现40
5.1 查询服务系统结构40
5.2 查询结果显示41
5.3 用户界面41
5.4 针对查询服务对分词系统的改进43
6 结束语44
致谢46
参 考 文 献47
附录48
1 网络蜘蛛程序与数据库接口实现48
2 分词系统对文章处理的函数实现49
CPM搜索引擎的设计与实现
摘要:本文论述了1个小型搜索引擎(CPM搜索)系统的设计原理、设计思想及具体的实现过程,对在设计过程中涉及到的关键算法作了具体分析和介绍,并对各个模块的架构以及设计思想和设计过程作了详细阐述。该系统主要包括3个模块:网页搜集、预处理和查询服务。网页搜集和预处理模块采用VC++开发 ,实现了抢先式多线程网络蜘蛛程序和中文分词系统。查询服务模块实现了基于ASP的搜索是个人毕业设计做的1个小型搜索引擎系统,设计的目的就是让它足够小,但是又让它具备完整的搜索服务功能。便于任何1个对搜索引擎感兴趣的人可以利用自己有限的硬件资源(如自己的台式机)搭建,实现小型搜索服务,如校园搜索。
关键字:网络蜘蛛;中文分词;网页重要程度;网页索引词;动态库
The Design And Realization of CPM Search Engine
Abstract: There is a small search engine (CPM search) system design principles, design concepts and concrete realization process in the discourse. in the design process involves a specific analysis of the key algorithms and introduction, and the structure and design of the various modules of ideas and made a detailed design process. The system consists of three main modules : ent and query services. Collection and pretreatment module used VC++ development, achieving pre-empt a number of systems . Query service module based on the ASP achievement of the is a small search engine search y graduate-design time. The aim of design it is enough small, but it has also integrated search service functions. A search engine for any interested person may make use of its limited hardall search services, such as campus search.
KeyWords:Netportance of the ic link libraries
包括:毕业 任务书 没有源代码
文档评论(0)