中文信息检索关键技术剖析.docVIP

下载本文档

1
0
约4.48千字
约 10页
2018-11-09 发布于福建
举报
版权申诉

中文信息检索关键技术剖析.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文信息检索关键技术剖析

中文信息检索关键技术剖析　　摘要：本文对Web中文信息检索进行了简介，分析了Web中文信息检索的几个关键技术，总结时下流行的中文搜索引擎技术。笔者还提出了一些心得、体会和设想，最后对智能中文搜索引擎进行了展望。　　关键词：信息检索；搜索引擎；网络爬虫；中文分词；排序　　中图分类号：TP393文献标识码：A文章编号：1009-3044(2007)15-30770-02 　　Analysis of the Key Technology of Chinese Information Retrieval 　　WANG Dong 　　(Dept of Computer Science Technology, Qiongzhou College, Wuzhishan 572200, China) 　　Abstract:The paper makes a brief introduction on the Web Chinese Information Retrieval, and analyses some key technology on it. And the Chinese search engine technology popularly at present has been turned out. The author proposed some ideas, the experiences and the tentative plans, and eventually carried on the forecast on the intelligent Chinese search engine technology. 　　Key words:Information Retrieval；Search Engine；Web Crawler；Chinese Participle；Arrangement 　　　　1 引言　　　　近年来，Internet迅速发展成为一个分布于全球的混合信息空间。为了帮助用户获得网络上的丰富信息，Web信息检索系统应运而生，其最新发展趋势是检索的智能化和垂直化。人们在享受信息检索工具带来方便的同时，“忠实表达”和“表达差异”等问题日益突显出来。随着人工智能、机器学习、语义Web等技术的快速发展，人们提出了智能化搜索引擎来解决传统搜索存在的弊端。下面笔者就Web中文信息检索的智能化技术提出自己的一些看法。　　　　2 Web中文信息检索概述　　　　WWW上的信息检索主要研究对整个HTML文档信息的表示、存储、组织和访问，即根据用户查询要求，从信息数据库中检索出相关信息资料，以文本数据为主要处理对象，提供根据数据资料的内容而不是外在特征来实现的信息检索手段。[1] 　　在Web信息检索技术领域，英文信息检索发展得较为完善，如信息的表示采用向量空间方法，基于内容相关性的查询反馈等。Web信息检索的发展是一个不断探索的过程，如今它己向第二代发展，功能也越来越强大[2]。然而，目前中文网络信息检索还存在着许多问题：1、查询方式单一，查准率和查全率不高。中文搜索引擎一般只有分类目录浏览和简单的关键词检索，缺乏高级的查询方式。但是中文是一种存在着大量音、形、义相近词汇的复杂语言，单一的检索方式经常会使得使用者得不到想要的结果；2、中英文混合检索问题。如：当你输入“MP3”时，有些网站会认为你在查找英文网页，进而自动将你送到一个英文搜索引擎上；3、专业的网络信息检索引擎较少；4、中文网络检索的相关性无法与英文媲美，检索字串与网页中文字的简单匹配并不见得就是语义上的匹配。　　　　3 Web中文信息检索的关键技术　　　　3.1 网络爬虫　　网络爬虫(Crawler)是通过网页的链接地址来寻找网页的程序，它从网站的某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。网络爬虫一般有两种策略：深度优先和广度优先[3,4]。深度优先是指网络爬虫会从起始页开始，逐个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。第二种方式可以让网络爬虫并行处理，提高其抓取速度。网络爬虫抓取HTML文档时，需要把HTML标识符过滤掉，同时记录页面的版式信息，例如文字的大小、是否标题等，这些信息有助于计算单词在网页中的重要程度。　　3.2 中文自动分词技术　　对中文来讲，自动识别汉语文献中词的边界，将书面汉字序列切分成正确的词串，是