秋学期网络工程大作业互联网搜索的关键技术.docVIP

下载本文档

2
0
约1.37万字
约 26页
2018-01-15 发布于浙江
举报
版权申诉

秋学期网络工程大作业互联网搜索的关键技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

秋学期网络工程大作业互联网搜索的关键技术

09-10秋学期网络工程大作业互联网搜索的关键技术作者学号陈香1071000002 作者学号蒋硕1071000011 作者学号李欢欢1071000014 作者学号李艳蕊1071000015 作者学号隗和雪1071000037 信息工程学院中文摘要搜索引擎是互联网搜索的重要技术，基于搜索引擎的网络爬虫技术和中文分词技术又是在搜索引擎技术中不可或缺的两大技术。其中中文分词技术是计算机中文信息处理中的难题，而中文分词算法是其中的核心，但由于中英文环境中语素的不同特点，使得中文必须解决分词的问题。本次学习研究的目的是了解搜索引擎技术和基于搜索引擎的网络爬虫技术和中文分词技术，并将中文分词的相关算法进行研究对比，方便日后选取最佳的技术进行搜索。本次学习研究采用了网上查阅电子资料以及阅读书籍资料，通过学习，研究，讨论，整理和对比等方法。本学习研究建构和论证了各种技术的工作流程和搜索策略，并对各种策略做了详细的案例分析，并且做了相应的对比。各种技术都有自己的优缺点，在了解之后，采用最佳的搜索技术才是关键。关键词：技术搜索引擎网络爬虫中文分词目录引言 3 一. 搜索引擎技术 4 1.什么是搜索引擎 4 2.搜索引擎原理 4 二. 基于搜索引擎的网络爬虫技术 5 1. 什么是网络爬虫技术 5 2. 网络爬虫原理 6 3. 网络爬虫搜索策略 8 (1)宽度优先搜索策略 8 (2)深度优先搜索策略 9 (3)聚焦搜索策略 10 4. 网络爬虫的具体实现 11 三. 基于搜索引擎中文分词技术 12 1. 什么是中文分词 12 2. 中文分词的过程 13 3. 中文分词算法的分类 14 (1)基于字符串匹配的分词方法 14 (2)基于理解的分词方法 18 (3)基于统计的分词方法 18 4．各种分词方法的优劣对比 19 （1）歧义识别 19 （2）新词识别 20 （3）需要词典 20 （4）需要语料库 20 （5）需要规则库 20 （6）算法复杂性 21 （7）技术成熟度 21 （8）实施复杂性 21 （9）分词准确性 21 （10）分词速度 21 结论 22 参考文献 23 引言随着Internet的飞速发展和网上信息的迅速增加，各种各样的搜索引擎不断涌现。搜索引擎对网页进行索引时需要进行索引项的提取，那么搜索引擎是通过什么对成千上万的网页进行提取呢？由于中文词汇之间没有天然的分隔符，所以必须采用分词技术进行中文文本的索引项提取。但是分词技术的具体算法有哪些？不同算法间又有何联系和区别呢？本文就对基于搜索引擎的网络爬虫与基于搜索引擎的中文分词的各种算法进行了比较与分析。一. 搜索引擎技术 1.什么是搜索引擎搜索引擎是因特网上一种基于 WEB 的信息检索工具, 用来检索网站、网页、新闻组、图片、声音等 Web 文件。这类网站与一般网站不同的是, 其主要功能是采用人工或自动的方式去搜寻 WEB 上的信息, 并将网络信息进行主题分类、建立索引, 再把索引的内容存放到索引数据库中, 通过查询语法为用户返回匹配资源, 以帮助用户在 Internet 中搜寻所需要的信息。面对浩瀚的网络资源, 搜索引擎为所有网上冲浪的用户提供了一个入口. 2.搜索引擎原理现在学术界和工业界，一致认为搜索引擎分为下载、分析、索引和查询 4 个系统，这 4 个系统相互配合，共同实现了搜索引擎的需求。在图 1 中：下载系统负责从万维网上下载各种类型的网页，并保持与万维网的同步。分析系统负责分析下载系统得到的网页数据，进行信息抽取、网页去重、中文分词和 PageRank 等。索引系统负责将分析系统处理后的网页对象索引入库，作为搜索引擎的数据大本营，需要存储数以亿计的网页，并需要支持多用户的同时检索，提供低于秒级的检索时间。查询系统负责分析用户提交的查询请求，经过检索、排序、提取摘要等相关操作，从索引库中检索出网页并将网页排序后，以查询结果的形式返回给用户. 图1 搜索引擎简单结构图二. 基于搜索引擎的网络爬虫技术 1. 什么是网络爬虫技术通过搜索引擎, 用户可以穿梭于放置在不同地点、隶属于不同网络的 WWW 网页, 获取所需要的各种信息,其商业运行十分成功且都有自己的核心技术。而在整个搜索引擎系统中, 网络爬虫起着重要的作用, 它是搜索引擎最核心的技术,是Internet 搜索引擎的数据来源,它决定着整个