- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
word格式整理版
范文范例 学习指导
三七数据
大数据技术解决方案
北京三七数据技术有限公司
2017年7月31日
目 录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc338008203 1 概述 PAGEREF _Toc338008203 \h 6
HYPERLINK \l _Toc338008204 2 面临的挑战 PAGEREF _Toc338008204 \h 6
HYPERLINK \l _Toc338008205 2.1 数据采集 PAGEREF _Toc338008205 \h 10
HYPERLINK \l _Toc338008206 2.2 数据清洗 PAGEREF _Toc338008206 \h 10
HYPERLINK \l _Toc338008207 2.3 数据存储 PAGEREF _Toc338008207 \h 12
HYPERLINK \l _Toc338008208 2.4 数据并行处理 PAGEREF _Toc338008208 \h 12
HYPERLINK \l _Toc338008209 2.5 数据分析 PAGEREF _Toc338008209 \h 12
HYPERLINK \l _Toc338008210 2.6 可视化 PAGEREF _Toc338008210 \h 12
HYPERLINK \l _Toc338008211 2.7 传统解决方案的分析 PAGEREF _Toc338008211 \h 12
HYPERLINK \l _Toc338008212 3 相关技术的研究 PAGEREF _Toc338008212 \h 12
HYPERLINK \l _Toc338008213 3.1 参考模型框架 PAGEREF _Toc338008213 \h 12
HYPERLINK \l _Toc338008214 3.2 数据采集 PAGEREF _Toc338008214 \h 12
HYPERLINK \l _Toc338008215 3.2.1 结构化数据的采集 PAGEREF _Toc338008215 \h 12
HYPERLINK \l _Toc338008216 3.2.2 半结构化数据的采集 PAGEREF _Toc338008216 \h 12
HYPERLINK \l _Toc338008217 3.2.3 非结构化文本数据中信息的抽取 PAGEREF _Toc338008217 \h 15
HYPERLINK \l _Toc338008218 3.3 数据清洗和数据质量的保证 PAGEREF _Toc338008218 \h 15
HYPERLINK \l _Toc338008219 3.3.1 数据质量的概念及分类 PAGEREF _Toc338008219 \h 15
HYPERLINK \l _Toc338008220 3.3.2 数据清洗的原理 PAGEREF _Toc338008220 \h 18
HYPERLINK \l _Toc338008221 3.3.3 单数据源中的数据清洗 PAGEREF _Toc338008221 \h 20
HYPERLINK \l _Toc338008222 3.4 数据的集成和融合 PAGEREF _Toc338008222 \h 37
HYPERLINK \l _Toc338008223 3.4.1 多数据源集成问题的分类 PAGEREF _Toc338008223 \h 38
HYPERLINK \l _Toc338008224 3.4.2 数据标准化的研究 PAGEREF _Toc338008224 \h 40
HYPERLINK \l _Toc338008225 3.4.3 数据集成的流程 PAGEREF _Toc338008225 \h 41
HYPERLINK \l _Toc338008226 3.4.4 多数据源中重复实体的清理 PAGEREF _Toc338008226 \h 41
HYPERLINK \l _Toc338008227 3.4.5 数据不一致性问题的研究 PAGEREF _Toc338008227 \h 43
HYPERLINK \l _Toc338008228 3.5 数据的存储和处理 PAGEREF _Toc338008228 \h 43
HYPERLINK \l _Toc338008229 3.5.1 并行和分布式处理理论 PAGEREF _Toc33800
您可能关注的文档
最近下载
- 终末消毒护理ppt.pdf VIP
- 实用日语(下)(南昌大学)中国大学MOOC慕课章节测验答案(课程ID:1003721006).pdf
- 单位物业管理服务方案投标文件(技术方案).pdf
- 医院信息系统(HIS)软件基本功能规范A.pdf VIP
- 电大一网一《网络安全技术》形考任务三(实验7、8、9,三选一,权重25%,需辅导教师评阅)作业3.doc VIP
- 2025中信证券融资测试题及答案.docx
- 河北省卫生系列高级专业技术职称申报评审条件(护理类).pdf VIP
- 电大一网一《网络安全技术》形考任务一(实验1、2、3,三选一,权重25%,需辅导教师评阅)作业1.doc VIP
- 〖生物〗生态系统的结构和功能课件-2025-2026学年生物八年级上册(新教材人教版).pptx VIP
- 医院信息系统基本功能规范.pdf VIP
原创力文档


文档评论(0)