- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式海量问题数据的相似性检索模型研究-计算机技术专业论文
I万方数据
I
万方数据
摘 要
摘 要
随着互联网前沿技术被广泛普及与迅速发展,各企业和组织结构内部信息化程度逐 步提高,各类信息资源的数据量呈爆炸式增长。信息检索就是从海量的信息资源中获得 用户所需要信息的技术。由于目前大多数企业、组织内部所使用的站内搜索引擎技术稍 弱,或者单纯依赖于数据库 SQL 语句查询等相对传统一些的方式解决检索需求,缺乏对 于查询内容的相似性度量,使得用户查询体验不尽人意。因此,如何降低成本和高效存 储以检索、分析海量半结构化数据而索求价值成为了诸多企业实现数据资产化以及规模 化的一大挑战。
传统海量数据的处理方法存在数据存储和管理成本较高、处理能力弱以及并行编程 复杂等缺点,使其应用范围受到很大限制,且对硬件设备要求极高。在分析现有分布式 计算和存储等关键技术基础上,结合对 Hadoop 生态系统的研究和实际软硬件条件,为 满足海量问题单(Problem Report)的相似性检索需求,提出了分布式海量问题数据的相 似性检索模型,以下为本文所作的研究:
首先,针对本文半结构化的异构数据集(海量问题单)设计并行化解析算法。利用 Hadoop 在处理海量数据方面的优势,将原始数据文件存储于 HDFS 中;通过对现有半结 构化 XML 文件解析方法的研究,分析并总结各自的优势与不足,自定义数据文件在 HDFS 上的逻辑分片方式,并结合 MapReduce 编程框架和自适应元素映射算法实现数据 的并行化解析;为了合理的数据组织和避免二次解析,将解析的数据存储到 Hadoop HBase 数据库中。
接着,构建海量问题数据的相似性检索的索引库。结合查询的实际需求以及数据特 点,通过相应域权重参数调整使用 Lucene 完成和优化索引库的构建。在查询阶段,由用 户来设置单个问题单某元素的侧重程度参数来影响相似问题单检索结果的结合排序, 在 一定程度上提高查准率。
最后,实现对检索结果的聚类分析。通过对多个聚类算法的分析和实践,结合模型 的实效性需求,本文选取后缀树(STC)聚类算法来辅助用户筛选查阅结果结合。针对 STC 聚类后的主题选取对类簇的描述性不足这一问题,优化主题选取。利用组块识别技 术将文本切分为符合一定语法功能和反映组成意义的短语,相比于以词频和权重的计算 策略主题选取更富可读性和指导性。通过实验数据表明论文设计的检索模型在保证良好 的查准率和召回率的同时,具备良好的稳定性和有效性。
关键词:海量数据、问题单、相似性、组块识别、聚类;
II万方数据
II
万方数据
Abstract
Abstract
With the rapid development, popularization of Internet technology, the internal informationalization degree of enterprise and organizations was gradually increased that lead to an explosion of all kinds of informational resources. Information retrieval is a technology that searches the information users need from massive information resources. However, most of the enterprises, the organization with poor technology in in-station search engine and purely relied on the relatively traditional way like SQL queries to resolve retrieval requirements, and the lack of similarity measure for queries made for a bad user experience. Therefore, numerous industries have to face the great challenge of how to realize the potential value of capitalized and scale data by searching and analysing massive semi-structured data with efficient storage and lower cost.
Currently, traditional approaches to massive data parallel
您可能关注的文档
- 典型地屏障对铁路线路减振效果分析-道路与铁道工程专业论文.docx
- 典型土楼风环境研究-防灾减灾及防护工程专业论文.docx
- 典型场效应器件电荷控制模型研究-凝聚态物理专业论文.docx
- 典型垃圾渗滤液物化预处理技术的适用性评价研究-环境工程专业论文.docx
- 典型城市污水处理厂提标改造分析-建筑与土木工程专业论文.docx
- 典型城市生活垃圾处置的温室气体协同减排研究-环境工程(环境科学)专业论文.docx
- 典型城市轨道交通网络性能评价及改善-交通运输规划与管理专业论文.docx
- 典型城市近地面O3浓度演化的自组织动力机制-生态学专业论文.docx
- 典型复杂网络的最短路径统计特性分析-计算机应用技术专业论文.docx
- 典型多环芳烃污染土壤生物修复-环境科学专业论文.docx
- 2025东草木之人的青春悲歌解读葬花吟.docx
- 2025读写有道:西游记心得修心与成长.docx
- 2025新时代乡村幼儿骨干教师赋能提质的实践与思考.docx
- 2025以真实性评价提升中班幼儿观察能力的实践探索.docx
- 2025古典文化意象中的意蕴美说木叶课例赏鉴.docx
- 2025大单元学习分课时设计八上第三单元资产阶级民主革命与中华民国的建立.docx
- 2025八下社会主义制度的建立与社会主义建设的探索大单元学习分课时设计新中国工业化的起.docx
- 2025红楼梦整本书阅读与研讨活动设计.docx
- 2025七下历史元朝的建立与统一教案.docx
- 2025八下历史第一单元中华人民共和国的成立与巩固大单元学习分课时设计抗美援朝.docx
文档评论(0)