文本信息处理系统的设计与实现 - 改.docx

下载文档 降价啦

13
0
约2.38万字
约 38页
2016-08-23 发布于湖北
举报
版权申诉
保障服务

文本信息处理系统的设计与实现 - 改.docx

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本信息处理系统的设计与实现 - 改

大连理工大学本科毕业设计（论文）文本信息处理系统的设计与实现（论文）题目The Subject of Undergraduate Graduation Project (Thesis) of DUT学院（系）：软件学院专业：软件工程学生姓名：许瀚学号： 201292445 指导教师：陈志奎评阅教师：完成日期：大连理工大学Dalian University of Technology摘要大数据，它指的是数据集是非常大，使用现有的数据库管理工具来处理，也出现了许多重要的应用，比如上网搜索，商业信息，社交网络，社交媒体，基因组学和气象学。大数据提出了数据库和数据分析研究了隆重的挑战。应对大数据的挑战，文本处理是不可或缺的一部分。大数据与人们以各种方式连接的媒介。尤其是，大型数据集探索性分析和隐私保护数据共享和分析按需数据挖掘，这些内容都是数据处理的发展方向。由于资源供应的弹性和按需性质，云计算提供了一个高性价比和强大的技术大数据的能力。在这种模式下，数据服务提供商能够租地理上分散的数据中心来处理他们大量的数据。数据被动态生成，资源价格变化，随着时间的推移，从不同的不同地理位置的移动数据，数据中心而供应充足的计算资源来处理它们，是实现成本效益的一项重要任务。联合线上的方式，提出了解决这一问题的任务。我们针对问题，优化问题，然后将其分离步诹进行实现。以最小化，包括计算成本，存储长期时间需要的平均成本等成本，带宽成本和延迟成本。本文的主要目的是提供可用于执行大数据文本处理平台的实现进行深入的分析。适用于普通WEB应用搭建，构造一个基于文本处理的数据处理平台，针对分词，关键字提取，全文检索，相似度查找等功能进行集成的网站。除了WEB应用部分，在每个这些平台所使用的软件框架的详细说明也与自己的长处和不足讨论。一些描述的关键特性有可能帮助读者做出关于根据他们的计算需求的平台是正确的选择一个明智的决定，能够提供更多的参考。关键词：写作规范；排版格式；毕业设计（论文）The Subject of Undergraduate Graduation Project (Thesis) of DUTAbstract“Abstract”不可省略。；或者手动设置成字体：Times New Roman，居中，字号：标题“Abstract”上方是论文的英文题目，字体：Times New Roman，居中，字号：Times New Roman，字号：Key words与摘要正文之间空一行。Key words与中文“关键词”一致。词间用分号间隔，末尾不加标点，3-5个；Times New Roman，小四，加粗。Key Words：Write Criterion；Typeset Format；Graduation Project (Thesis)目录摘要IAbstractII1 绪论11.1系统研发背景11.2系统研发现状21.3本文主要工作21.4论文组织结构32 相关技术和原理32.1 分词32.2 提取关键字52.3 全文摘要72.4 Lucene82.5 索引122.6 分析142.7 搜索142.8展示搜索结果153 系统需求分析153.1 业务需求分析153.1.1全年犯罪情况分布图153.1.2全国各省犯罪案件分布图153.1.3案发场所的分布图153.1.4词频统计153.1.5判决年限统计图163.1.6作案性质划分统计163.1.7基于相关度的文本摘要分析163.1.8关键词展示163.1.9主题概率分布163.2 功能需求分析163.2 功能需求分析164 系统设计174.1系统设计原则与目标184.2系统核心功能模块设计234.2.1中文分词模块264.2.2索引设计265系统测试27结论（设计类为设计总结）29参考文献30致谢311 绪论1.1系统研发背景时下是一个信息数据爆炸的年代，我们在生活中无论是购物，交友，停车，健身，旅行还是读写，都在无时无刻的创造着新的数据，在海量的数据集中，很难通过普通的数据处理方法进行数据的分析和清洗，在时间与空间上都难以为满足需要，所以大数据的概念在近年来也持续升温。社交媒体时代，用户能够通过互联网来表达自己的意愿，进行评论或表达自己的观点。需要分析的数据不再局限于能够较好的处理的“冷酷”且“坚硬”的结构化数据。更多的需要处理的非结构化数据成了近年来研究和攻克的方向。文本分析的目的是讲所有的非结构化数据进行清洗、处理、整合从而变成结构化数据，但由于超过80%的数据都是非结构化数据的今天，我们很难找个一个通用的处理非结构化数据的手段，所以对研究对象的文本进行学习总结归纳以及提取是一个非常重要的过程，存储与分析中文文本数据也是技术上的关键，如何能