- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
中文全文检索系统是信息产业中发展较快的一个领域,而一个中文检索系统的核心就是索引器,本文介绍了索引器构造的不同算法模型,对相关的技术进行了比较,分析了各自的优缺点和实现难点,提出了一种中文全文检索中索引实现的数据结构和新型的算法模型。
本文首先综述了中文全文检索中索引构造的相关技术,主要包括索引文件数据结构、索引单位选取和索引压缩算法。
在上述综述的基础上,本文采用了基于单字的倒排表文件格式和可变字节编码压缩技术实现了整个索引系统。该系统包括三方面的功能分别是:文本预处理、索引创建和索引更新。
在文本预处理部分实现了中文、外文和特殊字符的分离,同时实现了停止词 (stopword)的删除。
在索引创建部分本文首先给出了一种基于传统倒排表的索引创建算法——合并排序式索引创建算法,该算法需要源文本10倍大小的临时空间。为了解决合并排序式索引创建算法临时空间过大的问题,本文提出了一种新的索引创建方案,该方案采用分级的倒排表索引组织结构和链式顺序混合存储的方式。它不仅不需要额外的临时空间,而且还提高了索引创建的效率。在索引创建的过程中本系统采用了可变字节编码压缩技术对索引进行压缩,实验表明该压缩算法将索引文件大小减少了20-30%。
在索引更新部分本文提出了三种顺序存储方式下准动态的索引更新策略,一种链式存储格式下索引动态更新的算法。该系统采用的链式存储结构下的索引更新算法复杂度达到了O(n)。
关键词:中文全文检索;索引器;倒排表;索引压缩
ABSTRACT
Chinese Full-Text Retrieval System is one of the fast developing fields in information industry , and the core of the Chinese retrieval system is the Index device. The paper analyzes several different algorithms of constructing the index device, and compares the related techniques, and then gives the advantages and disadvantages of each and the difficulty of achieving. Fnially this paper gives the data structure and a new algorithm model of The index in full-text retrieval system..
This paper first summarizes the related techniques of index constructing in Chinese Full-Text Retrieval, mainly includes data structure of document indexing, index compression algorithms.
The further way, this paper implements the entire index system using the setechniques, such as character based-on Inverted lists and the variable byte coding compression algorithm. This system includes three functions respectively is:Text pretreatment, index foundation and index up dating.
In the part of text pretreatment, has realized separation of Chinese, foreign and the Special character, and has realized deletion of stopword.
In the part of index foundation, produces one kind index foundation algorithm based on traditional Inverted Lists——Sort-Merge method. This algorithm needs the 10 time of sizes for temporary
您可能关注的文档
- 毕业设计(论文)-当前大学生就业困境及对策研究.doc
- 毕业设计(论文)-道路运输存在的问题以及治理的策略.doc
- 毕业设计(论文)-电动汽车异步电动机驱动系统的的研究.doc
- 毕业设计(论文)-电火花线切割加工工艺参数选择及优化试验.doc
- 毕业设计(论文)-电气设备的电气设备问题探究.doc
- 毕业设计(论文)-电子标签(RFID)防伪系统设计与实现.doc
- 毕业设计(论文)-舵机的数字化控制器设计.doc
- 毕业设计(论文)-改善老年人的饮食习惯.doc
- 毕业设计(论文)-高功率因数开关电源设计.doc
- 毕业设计(论文)-光电开关设计.doc
- 毕业设计(论文)-基于单片机C52的温度报警系统.doc
- 毕业设计(论文)-基于单片机步进电机转速测速控制器.doc
- 毕业设计(论文)-基于单片机步进电机转速控制器.doc
- 毕业设计(论文)-基于单片机的100厘米以下距离控制系统设计(执行部分).doc
- 毕业设计(论文)-基于单片机的CAN通信模块设计.doc
- 毕业设计(论文)-基于单片机的便携式心率测试仪的设计.doc
- 毕业设计(论文)-基于单片机的出租车计价器的设计--电子设计.doc
- 毕业设计(论文)-基于单片机的电容测量仪设计.doc
- 毕业设计(论文)-基于单片机的多功能电子时钟系统.doc
- 毕业设计(论文)-基于单片机的加药自动控制电路的设计.doc
最近下载
- 合作开发农贸市场项目协议书7篇.docx
- BS EN 28510-1-2014 胶粘剂 柔性粘结刚性试件组件的剥离试验 90°剥离.pdf VIP
- 2023-2024学年五年级下册数学冀教版 期中测试卷(含答案) .pdf VIP
- 机器学习_聚类.ppt VIP
- (安装工程)广联达BIM5D软件教程-学习课件.ppt VIP
- 采暖系统施工方案.doc VIP
- 最新2023版知识产权贯标GBT29490表单 知识产权法律法规及其他要求合规性评价表[知识产权合规管理体系文件].docx
- 一种铁路车辆能量回收装置和铁路车辆.pdf VIP
- 最新2023版知识产权贯标GBT29490表单 知识产权风险和机遇识别评价清单[知识产权合规管理体系文件].docx
- 加热炉专利申说明书.pdf VIP
文档评论(0)