大数据时代-1pdfnet.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
整体框架结构 资源管理 指网站分类体系、网站、网站访问URL等基本资源的管理维护。 反监控管理 抓取管理 监控管理 指被访问网站(特别是社会化媒体)会禁止爬虫访问,怎么让他们不能监控到我们的访问时爬虫软件,这就是反监控机制了。 指通过URL结合资源、反监控抓取数据并存储。 指不管什么系统都可能出问题,如果对方服务器宕机、网页改版、更换地址等我们需要第一时间知道,这时监控系统就起到出现了问题及时发现并通知联系人。 抓取平台组件图 抓取平台架构图 通过界面可以: 管理资源、反监控规则、网页扣取规则、消息中间件状态、数据监控图表。 通过后台可以: 调整资源分配并能动态更新保证抓取不断电。 对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。 3.其他数据采集方法 ①抽取:将复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。 ②清洗:对数据通过过滤“去噪”从而提取出有效数据。 1.大数据处理 数据的处理与集成主要是完成对于已经采集到的数据进行适当的处理、清洗、去噪以及进一步的集成存储。 2.4 大数据处理与集成 造成数据“污染”的原因: 滥用缩写词 丢失值 数据输入错误 不同的惯用语 重复记录 拼写变换 不同的计量单位 过时的编码 为了使进入数据仓库系统的数据更准确、一致,消除“脏数据”对建立数据仓库系统造成的不良影响,因此,数据清理是非常有必要的。 数据清理处理内容包括: 对数据的格式标准化; 异常数据清除; 纠正错误; 重复数据的清除。 目前现存的数据清理方法有: 脏数据的预处理、排序邻居方法、优先排队算法、多次遍历数据清理方法、增量数据清理、采用邻域知识进行清理、邻域无关的数据清理和采用数据库管理系统的集成数据清理。 例如为了处理大数据集,CURE采用了随机抽样技术,许多文献也采用这种抽样方式来加快对大型数据集的聚类分析。 CURE(Clustering Using Representatives):是一种针对大型数据库的高效的聚类算法。 2. 大数据集成 大数据中的集成是将大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。 数据集成时应解决的问题包括: 数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。 (1)数据转换 是数据集成中最复杂和最困难的问题,所要解决的是将数据转换为统一的格式。 结构化数据源 集成目标 非结构化数据源 转换查找表 半结构化数据源 转换过程 (2)数据的迁移 即从一个系统迁移到另一个新的系统。在组织内部,当一个应用被新的所替换时,就需要将旧系统中的数据迁移到新的应用中。 (3)组织内部的数据移动 即组织内部的应用系统中,拥有的不同的数据库或其它形式的数据存储,这些应用间能够实现信息共享。 传统的数据接口是用“点对点”的方式构建, 大数据的数据集成策略与方案需要不同于“点对点”的方式来完成数据的移动。 (4)从非结构化数据中抽取信息 搜索非结构化数据并发现主数据 主数据 非结构化数据源 带有主数据元数据标签的非结构化数据源 转换 进程 集成目标 转换查找表 结构化数据源 存储在数据库外部的数据,如文档、电子邮件、网站、社会化媒体、音频、以及视频文件,可以通过客户、产品、雇员或者其他主数据引用进行搜索。 (5)将数据处理移动到数据端 将数据处理过程分布到数据所处的多个不同的位置,这样可以避免冗余,可以更加的经济高效。 合并结果 大数据1 协作进程 大数据2 大数据3 查询 结果1 查询 查询 结果2 结果3 3.网络数据采集方法中的数据处理 网络数据处理主要包括四个模块,这四个模块的主要功能如下: 分词:对抓取到的网页内容进行切词处理。 排重:对众多的网页内容进行排重。 整合:对不同来源的数据内容进行格式上的整合。 数据:包含两方面的数据,Spider Data(爬虫从网页中抽取出来的数据)和Dp Data(在整个数据处理过程中产生的数据)。 ①对抓取来的网页内容进行分词; ②将分词处理的结果写入数据库; ③对抓取来的网页内容进行排重; ④将排重处理后的数据写入数据库; ⑤根据之前的处理结果,对数据进行整合; ⑥将整合后的结果写入数据库。 (5) (6) (2) (1) (3) 数据 分词 排重 整合 整个数据处理过程的基本步骤如下: (4) 内容小结 本章主要介绍了数据采集的概念、数据采集系统的基本组成以及医学临床数据采集系统的概念、特点等。针对大数据的采集,介绍了大数据采集的数据来源和大数据采集的技术方法。为了减少及避免后续

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档