分布式海量问题数据的相似性检索模型研究-计算机技术专业论文.docx

下载文档 降价啦

1
0
约7.75万字
约 73页
2018-12-06 发布于上海
举报
版权申诉
保障服务

分布式海量问题数据的相似性检索模型研究-计算机技术专业论文.docx

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分布式海量问题数据的相似性检索模型研究-计算机技术专业论文

I万方数据 I 万方数据摘要摘要随着互联网前沿技术被广泛普及与迅速发展，各企业和组织结构内部信息化程度逐步提高，各类信息资源的数据量呈爆炸式增长。信息检索就是从海量的信息资源中获得用户所需要信息的技术。由于目前大多数企业、组织内部所使用的站内搜索引擎技术稍弱，或者单纯依赖于数据库 SQL 语句查询等相对传统一些的方式解决检索需求，缺乏对于查询内容的相似性度量，使得用户查询体验不尽人意。因此，如何降低成本和高效存储以检索、分析海量半结构化数据而索求价值成为了诸多企业实现数据资产化以及规模化的一大挑战。传统海量数据的处理方法存在数据存储和管理成本较高、处理能力弱以及并行编程复杂等缺点，使其应用范围受到很大限制，且对硬件设备要求极高。在分析现有分布式计算和存储等关键技术基础上，结合对 Hadoop 生态系统的研究和实际软硬件条件，为满足海量问题单（Problem Report）的相似性检索需求，提出了分布式海量问题数据的相似性检索模型，以下为本文所作的研究：首先，针对本文半结构化的异构数据集（海量问题单）设计并行化解析算法。利用 Hadoop 在处理海量数据方面的优势，将原始数据文件存储于 HDFS 中；通过对现有半结构化 XML 文件解析方法的研究，分析并总结各自的优势与不足，自定义数据文件在 HDFS 上的逻辑分片方式，并结合 MapReduce 编程框架和自适应元素映射算法实现数据的并行化解析；为了合理的数据组织和避免二次解析，将解析的数据存储到 Hadoop HBase 数据库中。接着，构建海量问题数据的相似性检索的索引库。结合查询的实际需求以及数据特点，通过相应域权重参数调整使用 Lucene 完成和优化索引库的构建。在查询阶段，由用户来设置单个问题单某元素的侧重程度参数来影响相似问题单检索结果的结合排序，在一定程度上提高查准率。最后，实现对检索结果的聚类分析。通过对多个聚类算法的分析和实践，结合模型的实效性需求，本文选取后缀树（STC）聚类算法来辅助用户筛选查阅结果结合。针对 STC 聚类后的主题选取对类簇的描述性不足这一问题，优化主题选取。利用组块识别技术将文本切分为符合一定语法功能和反映组成意义的短语，相比于以词频和权重的计算策略主题选取更富可读性和指导性。通过实验数据表明论文设计的检索模型在保证良好的查准率和召回率的同时，具备良好的稳定性和有效性。关键词：海量数据、问题单、相似性、组块识别、聚类； II万方数据 II 万方数据 Abstract Abstract With the rapid development, popularization of Internet technology, the internal informationalization degree of enterprise and organizations was gradually increased that lead to an explosion of all kinds of informational resources. Information retrieval is a technology that searches the information users need from massive information resources. However, most of the enterprises, the organization with poor technology in in-station search engine and purely relied on the relatively traditional way like SQL queries to resolve retrieval requirements, and the lack of similarity measure for queries made for a bad user experience. Therefore, numerous industries have to face the great challenge of how to realize the potential value of capitalized and scale data by searching and analysing massive semi-structured data with efficient storage and lower cost. Currently, traditional approaches to massive data parallel