三七大数据平台技术解决方案报告书-V1.0.doc

下载文档 降价啦

1
0
约16.33万字
约 261页
2019-04-30 发布于安徽
举报
版权申诉
保障服务

三七大数据平台技术解决方案报告书-V1.0.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

三七数据大数据技术解决方案北京三七数据技术有限公司 2017年月日目录 1 概述 6 2 面临的挑战 6 2.1 数据采集 10 2.2 数据清洗 10 2.3 数据存储 12 2.4 数据并行处理 12 2.5 数据分析 12 2.6 可视化 12 2.7 传统解决方案的分析 12 3 相关技术的研究 12 3.1 参考模型框架 12 3.2 数据采集 12 3.2.1 结构化数据的采集 12 3.2.2 半结构化数据的采集 12 3.2.3 非结构化文本数据中信息的抽取 15 3.3 数据清洗和数据质量的保证 15 3.3.1 数据质量的概念及分类 15 3.3.2 数据清洗的原理 18 3.3.3 单数据源中的数据清洗 20 3.4 数据的集成和融合 37 3.4.1 多数据源集成问题的分类 38 3.4.2 数据标准化的研究 40 3.4.3 数据集成的流程 41 3.4.4 多数据源中重复实体的清理 41 3.4.5 数据不一致性问题的研究 43 3.5 数据的存储和处理 43 3.5.1 并行和分布式处理理论 43 3.5.2 并行RDBMS 47 3.5.3 Hadoop 49 3.5.4 Hadoop扩展和优化 53 3.5.5 NoSQL 58 3.5.6 查询优化 110 3.6 大数据中的数据挖掘 112 3.6.1 传统数据挖掘概述 112 3.6.2 大数据时代数据挖掘发展新趋势 120 3.6.3 WEB数据挖掘 124 3.6.4 超数据集成挖掘方法与技术研究 153 3.6.5 数据挖掘网格技术 186 3.7 大规模机器学习 208 3.7.1 机器学习概述 209 3.7.2 扩展机器学习的必要性 211 3.7.3 面临的挑战 213 3.7.4 概率图模型 214 3.7.5 集成学习 215 3.8 可视化和可视化分析 225 3.8.1 概述 225 3.8.2 可视化技术 225 3.8.3 可视化分析 227 3.8.4 文本的可视化分析 228 3.8.5 网络可视化分析 230 3.8.6 移动轨迹数据的可视化分析 230 3.8.7 交互式可视化分析 230 3.9 数据溯源技术的研究 230 3.9.1 概述 231 3.9.2 模式级数据的溯源 232 3.9.3 实例级数据的溯源 232 3.9.4 数据溯源应用的分类 233 3.9.5 未来研究方向 234 3.10 同步技术的研究 235 3.10.1 概述 235 3.10.2 通信程序 235 3.10.3 数据库复制技术 239 3.10.4 ETL技术 242 3.10.5 事务处理 244 3.10.6 XML技术 246 3.11 数据共享技术 248 3.12 安全技术的研究 249 3.12.1 安全风险分析 249 3.12.2 安全技术需求 250 3.12.3 身份认证与密匙协商 251 3.12.4 访问控制技术 251 3.12.5 入侵检测技术 252 3.13 隐私保护技术的研究 253 3.13.1 概述 253 3.13.2 隐私保护的技术手段 254 3.13.3 匿名技术研究 256 4 总体技术解决方案 258 4.1 总体描述 258 4.2 功能框架 258 4.3 技术架构 258 4.3.1 数据采集层 258 4.3.2 数据管理层 258 4.3.3 数据分析层 258 4.3.4 数据展示层 258 4.3.5 数据应用层 258 4.4 与传统数据解决方案对比 258 5 实施方案设计和建议 258 概述（主要是描述大数据的定义，大数据的特点，大数据的来源，大数据的行业趋势，大数据的应用。可以把行业研究报告的总结放在这里）面临的挑战大数据分析面临巨大的挑战，以下我们从5方面来讨论：异构性和非完整性当用户使用信息时，可以容忍大量的异构性。实际上，自然语言的丰富性和微妙可以提供有价值的深度。然而，机器分析通常希望是同构的数据，无法理解自然语言的微妙之处。所以，通过机器进行数据分析的第一步就是必须仔细地定义数据结构。很多的数据分析系统都要求好的数据结构。少一些的结构化设计对于一些目的可能更加有效，但是计算机系统的有效性则有赖于多个数据的大小和结构的一致性。半结构化数据的有效表示，访问和分析需要更加进一步的工作。即便是在数据清洗和错误纠正之后，数据还可能是不完整的和错误的。在数据分析得过程中应该有效地管理这种不完整性以及这些错误。这是一个非常大的挑战。近期关于概率数据或者不确定数据的管理也许可以在这方面取得一些进展。数据的大小任何人对大数据的第一个想法就是它的大小。多年来，对大数据并且快速增长的数据的管理一直是很具有挑战的问题。在过去，这