- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分词技术在异构数据统一检索中的研究及应用-计算机软件与理论专业论文
Nanjing University of Aeronautics and Astronautics
The Graduate School
College of Computer Science and Technology
Research and Application of Word Segmentation Technology in Heterogeneous Data’s Unified Retrieval
A Thesis in
Software and Theory of Computer
by
Han Xiaomei Advised by
Associate Prof. Zheng Hongyuan
Submitted in Partial Fulfillment of the Requirements
for the Degree of Mastor of Engineering December,2011
承诺书
本人郑重声明:所呈交的学位论文,是本人在导师指导下, 独立进行研究工作所取得的成果。尽我所知,除文中已经注明 引用的内容外,本学位论文的研究成果不包含任何他人享有著 作权的内容。对本论文所涉及的研究工作做出贡献的其他个人 和集体,均已在文中以明确方式标明。
本人授权南京航空航天大学可以有权保留送交论文的复印 件,允许论文被查阅和借阅,可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存论文。
(保密的学位论文在解密后适用本承诺书)
作者签名: 日 期:
南京航空航天大学硕士学位论文
南京航空航天大学硕士学位论文
分词技术在异构数据统一检索中的研究及应用
分词技术在异构数据统一检索中的研究及应用
i
i
PAGE
PAGE vi
摘 要
随着信息化的高速发展,各种数据资源迅速累积,数据结构也日益复杂。面对大量的信息, 而且是逻辑结构,存储结构等差异很大的数据信息,如何方便地且快速、准确地检索出有效信 息,从而获取重要资源,是信息时代人们的迫切需求。为解决异构数据统一检索问题,本文提 出一种异构数据统一检索方法并引入分词技术,提高信息检索的查准率及系统检索效率。
本文介绍了分词技术与异构数据检索的国内外研究现状,对分词技术和异构数据检索的基 本理论、常用技术和方案、典型算法等进行了分析和总结。在此基础上,设计了一种异构数据 统一检索总体架构,并详细介绍了框架的层次划分、各层次模块的功能、系统的运行流程及架 构的特点。在分析传统分词算法及分词词典机制的基础上,结合异构数据统一检索的特点,设 计了一种基于改进的整词二分词典的快速分词法,并给出算法的具体实现。经实例验证,该分 词算法分词准确,响应快速,能很好的适应异构检索对查询语句的切分、关键词提取及查询结 果相似度比对等操作的要求。本文通过对检索结果处理流程的逐步分析,研究了构成检索结果 处理层核心部分的相似度计算方法,设计了一种基于贝叶斯分类的相似度算法,并将改进的快 速分词法应用于检索结果相似度计算的预处理,提高算法效率。
最后,结合某省海事局船舶管理信息系统实现了分词技术在异构数据统一检索中的初步应 用。应用结果表明,数据检索覆盖率、系统检索响应时间和检索查准率都有明显提升,有效的 解决了异构数据统一检索问题。
关键词:分词,异构数据检索,元搜索引擎,XML 文档,贝叶斯分类
ABSTRACT
With the high-speed development of informatization, various kinds of data accumulate rapidly,and data structures become more and more complex.Facing so much information,which especially have big differences on logical structure and storage structure, how to easily , quickly and accurately search the effective information to gain important resources, is the urgent need of people in the information age.To solve the problem of heterogeneous data unified retrieval, this thesis presents an unified retrieval system of heterogeneous data and brings in the se
您可能关注的文档
- 分布式视频编码系统中边信息技术研究-电子与通信工程专业论文.docx
- 分布式视频编码相关技术的研究-信号与信息处理专业论文.docx
- 分布式视频编码系统中边信息的研究-通信与信息系统专业论文.docx
- 分布式视频转码服务调度算法研究-信号与信息处理专业论文.docx
- 分布式视频转码系统的设计与实现-软件工程专业论文.docx
- 分布式计算系统管理端的跨平台实现-软件工程专业论文.docx
- 分布式计算框架Antnest的任务调度设计与实现-计算机技术专业论文.docx
- 分布式视频转码系统设计-计算机应用技术专业论文.docx
- 分布式视频编码的边信息融合与重构-通信与信息系统专业论文.docx
- 分布式计算引擎的集群管理及负载均衡策略研究-计算机系统结构专业论文.docx
文档评论(0)