- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
随着互联网的迅速发展,网络规模不断扩大,信息储量急剧增长,搜索引擎技术越来越得到广泛地使用。
本文通过对各种通用搜索引擎的关键技术进行研究,完成了对通用WEB搜索引擎的设计与实现。搜索引擎系统包括3个功能模块:网页获取模块,数据存储模块和检索模块。本人在课题组中主要承担工作有:系统整体设计、数据库的设计实现以及中文分词系统的设计实现。
本系统的整体设计突出操作简便、功能强大、人性化设置、并行处理可移植等特点,其中中文分词,各模块的存储流程是系统的设计亮点。本文中对搜索引擎的各种技术算法进行了介绍,而且根据系统的需要进行了各功能模块的设计。数据库设计的特点是:大容量存储、高效检索和简单查询。索引数据库以页面信息表和词库表为核心,通过对词创建索引以提高检索效率;中文分词系统采用JDK平台开发,实现对中英文句子的分割,使其分为单独的词或词组。
关键词:搜索引擎;WEB搜索;中文分词;索引数据库;排序。
Abstract
With the rapid development of the internet, the constant expansion of the network size, the run-up growing of the information storage, the technology of the search engine is becoming more and more popular.
The article accomplish the design and realization of the general WEB search engine through the studying of all kinds of the general search engine. The search engine system includes three functions modules. They are Homepage gain module, data storage module and retrieval module. My main duty in this topic research is overall System design, database design realization, Chinese participle system design realization.
The prominent point in this overall system is that operation is simple, the function is formidable, the human nature establishment, the parallel processing may transplant and so on, especially the Chinese participle and each memory operation module. The article does not only introduce all kinds of technical algorithm in the search engine, but design each function module according to the need of the system. The database design characteristic is: Large capacity memory, highly effective retrieval, simple inquiry. The index database takes the page information table and the word storehouse table as a core, enhancing the searches efficiency through establishing the words index. Chinese participle system uses the JDK platform exploitation, realization to the Chinese and English sentence division, causes it to divide into the independent word or the phrase.
Keywords: WEB search; Chinese participle; Index database; Arranges
目 录
1 绪论 1
1.1 研究的背景及意义 1
您可能关注的文档
最近下载
- 深度学习基础及应用(人工智能、大数据技术、计算机等相关专业)全套教学课件.pptx
- 《深度学习基础及应用》教案 第9课 利用循环神经网络进行文本预测和分类(二).docx VIP
- 《深度学习基础及应用》教案 第8课 利用循环神经网络进行文本预测和分类(一).docx VIP
- 《深度学习基础及应用》教案 第6课 利用卷积神经网络进行图像处理(一).docx VIP
- 《深度学习基础及应用》教案 第10课 利用生成对抗神经网络进行图像生成.docx VIP
- 《深度学习基础及应用》教案 第8课 利用循环神经网络进行文本预测和分类(一).pdf VIP
- 《深度学习基础及应用》教案 第5课 构建神经网络(三).docx VIP
- 《深度学习基础及应用》教案 第2课 夯实深度学习开发基础.docx VIP
- 人教版五年级上册数学精品教学课件 第3单元 3.3 商的近似数.ppt VIP
- 《深度学习基础及应用》教案 第10课 利用生成对抗神经网络进行图像生成.pdf VIP
文档评论(0)