- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
.
三七数据
大数据技术解决方案
北京三七数据技术有限公司
2017年7月31日
目 录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc338008203 1 概述 PAGEREF _Toc338008203 \h 6
HYPERLINK \l _Toc338008204 2 面临的挑战 PAGEREF _Toc338008204 \h 6
HYPERLINK \l _Toc338008205 2.1 数据采集 PAGEREF _Toc338008205 \h 10
HYPERLINK \l _Toc338008206 2.2 数据清洗 PAGEREF _Toc338008206 \h 10
HYPERLINK \l _Toc338008207 2.3 数据存储 PAGEREF _Toc338008207 \h 12
HYPERLINK \l _Toc338008208 2.4 数据并行处理 PAGEREF _Toc338008208 \h 12
HYPERLINK \l _Toc338008209 2.5 数据分析 PAGEREF _Toc338008209 \h 12
HYPERLINK \l _Toc338008210 2.6 可视化 PAGEREF _Toc338008210 \h 12
HYPERLINK \l _Toc338008211 2.7 传统解决方案的分析 PAGEREF _Toc338008211 \h 12
HYPERLINK \l _Toc338008212 3 相关技术的研究 PAGEREF _Toc338008212 \h 12
HYPERLINK \l _Toc338008213 3.1 参考模型框架 PAGEREF _Toc338008213 \h 12
HYPERLINK \l _Toc338008214 3.2 数据采集 PAGEREF _Toc338008214 \h 12
HYPERLINK \l _Toc338008215 3.2.1 结构化数据的采集 PAGEREF _Toc338008215 \h 12
HYPERLINK \l _Toc338008216 3.2.2 半结构化数据的采集 PAGEREF _Toc338008216 \h 12
HYPERLINK \l _Toc338008217 3.2.3 非结构化文本数据中信息的抽取 PAGEREF _Toc338008217 \h 15
HYPERLINK \l _Toc338008218 3.3 数据清洗和数据质量的保证 PAGEREF _Toc338008218 \h 15
HYPERLINK \l _Toc338008219 3.3.1 数据质量的概念及分类 PAGEREF _Toc338008219 \h 15
HYPERLINK \l _Toc338008220 3.3.2 数据清洗的原理 PAGEREF _Toc338008220 \h 18
HYPERLINK \l _Toc338008221 3.3.3 单数据源中的数据清洗 PAGEREF _Toc338008221 \h 20
HYPERLINK \l _Toc338008222 3.4 数据的集成和融合 PAGEREF _Toc338008222 \h 37
HYPERLINK \l _Toc338008223 3.4.1 多数据源集成问题的分类 PAGEREF _Toc338008223 \h 38
HYPERLINK \l _Toc338008224 3.4.2 数据标准化的研究 PAGEREF _Toc338008224 \h 40
HYPERLINK \l _Toc338008225 3.4.3 数据集成的流程 PAGEREF _Toc338008225 \h 41
HYPERLINK \l _Toc338008226 3.4.4 多数据源中重复实体的清理 PAGEREF _Toc338008226 \h 41
HYPERLINK \l _Toc338008227 3.4.5 数据不一致性问题的研究 PAGEREF _Toc338008227 \h 43
HYPERLINK \l _Toc338008228 3.5 数据的存储和处理 PAGEREF _Toc338008228 \h 43
HYPERLINK \l _Toc338008229 3.5.1 并行和分布式处理理论 PAGEREF _Toc338008229 \h 43
HYPERLINK \l _Toc338008230 3.5.2 并行RDB
您可能关注的文档
最近下载
- 2025下半年广东珠海市纪委监委招聘所属事业单位工作人员12人备考题库最新.docx VIP
- 炸药及起爆技术.pptx VIP
- 金航联执业药师继续教育《常用抗菌药物的处方审核要点》习题答案.docx VIP
- ISO 5173 2009 金属材料焊缝的破坏性试验—弯曲试验(中文版).pdf VIP
- 浙美版美术一年级上册第8课《影像撕纸》教学设计.docx VIP
- 工业废碱液处理控制系统的设计.doc VIP
- 2025贵州安顺市人民医院招聘编外聘用专业技术人员70人笔试模拟试题及答案解析.docx VIP
- 新解读《GB_T 20174 - 2019石油天然气钻采设备 钻通设备》最新解读.docx VIP
- 甲醇应急处置方案.docx VIP
- 2025下半年广东珠海市纪委监委招聘所属事业单位工作人员12人备考笔试试题及答案解析.docx VIP
原创力文档


文档评论(0)