基于单字的中文全文检索数据结构和算法模型分析-产业经济学专业论文.docxVIP

下载本文档

5
0
约2.92万字
约 35页
2019-02-20 发布于上海
举报
版权申诉

基于单字的中文全文检索数据结构和算法模型分析-产业经济学专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

F复S3《1 F复S3《1 7 提要 Chinese Full Text Retrieval System is one of the fast developing fields in IT industry． The paper analyzes several different algorithm models based on Chinese word and Chinese character,and puts forward a kind of data structure and algorithm model doesn’t depend on a specific computer or operating system．It verifies the theoretical value of the model in the current application by comparing the efficiencies between the model and the other one could save the storage volume．中文全文检索系统是信息产业中发展较快的一个领域。本文就中文全文检索的不同算法模型，特别是基于分词和基于单字的不同全文检索算法进行了分析比较，针对现实应用问题提出了一个不依赖于具体机器和操作系统的中文全文检索数据结构和算法模型。本文还针对该模型提出了一个改进存储空间效率的模型方法，并对改进模型与原模型进行了分析和比较，从而验证了原模型在目前实务应用上的理论价值。关键词：坚全塞墼索娄塑垡鸯鳆糕基于单字的中文全文检索数据结构和算法模型分析第一章基于单字的中文全文检索数据结构和算法模型分析第一章前言数字化和网络化的信息环境带来了数据库技术的变革，同时也为数据库的核心技术——信息存储与检索技术的发展提出了新的挑战，如何有效地从海量非结构化数据中检索出有用信息，成为人们关注的热点。信息大体可以分为结构化数据和非结构化数据两类：一类信息能够用统一的结构如二维表加以表示，称为结构化数据，如会计信息的数字、符号等：另一类信息无法用数字或者统一的结构表示，如全文、声音、图像、影像等，称为非结构化数据。非结构化数据的大量涌现和海量数据的产生，对数据存储和检索技术提出了与传统方式完全不同的新需求，集中表现在数据库管理系统本身的存储和检索技术上。特别是随着非结构化数据应用领域的不断拓展，基于关系型数据库理论、擅长处理结构化数据的关系数据库开始暴露出越来越多的局限，这些局限性也集中表现在对海量非结构化信息的存储和检索方面。全文检索技术的产生为解决非结构化数据的存储、检索问题提供了解决方案。全文检索技术首先产生于西方发达国家，基于字母组词的语言文字与基于中文单字组词在语言文字上的差异，使得相对于中文而言，西文更容易使用基于分词的全文检索技术，检索算法上也简单得多。从计算机发展史看，西方国家计算机普及得较早，从大中型计算机起步，逐步向小型机和微机发展，由于大中小型计算机对软件、信息的集中化、系统化管理要求较高，信息管理比较规范，因而为全文检索软件的发展构建了}E较好的信息基础。我国信息产业的真正发展是从80年代以微机为起点逐步壮大起来的。中文信息化处理几大技术瓶颈的突破，特别是中文字符集的规范化、中文输入法和中文字处理技术的实用化，使得中文信息开始逐步增加。但由于中文全文检索算法和软件技术难点不易突破，再加上微机的信息管理处于随意、无序、孤立处理的状态，单机的全文信息量不可能有大的积累，因此也就产生不了全文检索的需求。西方国家无论在全文检索的软件和算法上，还是在全文信息的管理上都比中国领先。随着计算机网络的发展，从计算机局域网开始，中文信息量开始飞速增加，因此产生了中文全文检索在单机和计算机局域网上应用的需求。在计算机广域网、互联网发展起来后，中文全文检索技术继局域网应用后进入了一个更高的应用阶段。Internet时代的数据显零出两个主要特点，即非结构化数据大量涌现和海量数据的产生。由于这两个特点，以中文全文检索技术为核心，以网页抓取软件为信息搜集手段的中文搜索引擎已经成为Internet的重要应用，中文全文检索技术成为网络时代的主流技术之一。基于单宇的中文全文检索数据结构和算法模型分析第二章基于单宇的中文全文检索数据结构和算法模型分析第二章中文全文检索技术综述信息检索是指找出包含了指定的一类特征(关键词、检索表达式)的文档、段落或句群供用户阅读的过程。传统的信息检索技术是使用文献名称、作者、日期、版号等分类检索方式。为了对文献的内容进行了解，出现了以主体词表为基础的主题词检索