高教社2025金融监管科技教学课件第四章 大数据技术.pptxVIP

高教社2025金融监管科技教学课件第四章 大数据技术.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第四章大数据技术

Outline大数据技术概述大数据的关键技术大数据技术与金融监管2

大数据技术概述01

大数据的核心特性(“4V“)1.1大数据技术的概念大数据是指难以通过传统数据库管理工具和数据处理应用进行处理的大型复杂数据集。Volume(体量大)大数据的首要特性,数据规模极其庞大,是传统数据集无法比拟的,数据规模能够达到TB、PB,甚至ZB和EB等计量级别。Value(价值密度低)大数据具有极大的隐藏价值,表面上一些企业拥有大量数据,事实上其发挥价值的只是其中一小部分数据,价值密度较低。Variety(类型多)大数据的自然属性,数据的来源与形态包罗万象,数据种类繁多,包含结构化、半结构化和非结构化数据。Velocity(速度快)大数据的关键特性,数据的生成和处理速度非常快,实时性要求高。4

大数据发展的主要阶段1.2大数据技术的发展历史阶段时间跨度核心主题关键技术/概念影响/成果I60s-70s数据库的诞生DBMS(IMS),关系模型(SQL基础)实现数据结构化管理与高效检索。II80s-90s数据分析起步数据仓库(DSS),商业智能(BI,OLAP)存储历史数据,开始支持商业决策。III2000-2010“大数据”形成3V(体量、速度、多样性),Hadoop/MapReduce应对互联网爆炸式增长的海量数据。IV2010-2020技术多样化/成熟NoSQL(处理非结构化),实时处理(Kafka,Spark),数据湖解决数据类型和处理速度的挑战。V2020-至今AI与云融合AI/机器学习(数据源),云计算(AWS/Azure)推动智能应用,降低基础设施成本,关注隐私伦理。5

大数据在金融监管领域的应用演进1.3大数据技术在金融监管领域的应用全面数字化转型:实时数据分析/智能风控(ML/DL)快速反应、决策自动化智能化监管升级:监管科技(RegTech)/智能投顾效率提升、深入创新核心业务赋能:风险管理/反欺诈/客户营销精细化运营、业务安全基础能力建设:数据存储/Hadoop框架突破存储瓶颈最高层(IV)2020年-至今高层(III)2015-2020年中层(II)2010-2015年底层(I)21世纪初6

大数据的关键技术02

(一)数据采集方法2.1数据采集与预处理1、结构化数据采集2、非结构化数据采集3、半结构化数据采集结构化数据是可用二维表表示的固定结构数据。采集方法:①数据库接口——SQL查询(MySQL、PostgreSQL)或ETL工具(Nifi、Talend);②API接口——RESTfulAPI(HTTP请求)和SOAPAPI(XML格式)。非结构化数据是结构不固定、无法用关系数据库存储的数据(文档、图片、视频等)。采集方法:①网络爬虫——模拟浏览网页提取数据,常用工具有BeautifulSoup、Scrapy、Selenium;②物联网设备——传感器采集物理量并转换为数字数据(温度传感器、加速度传感器、音视频采集器等)。半结构化数据介于结构化与非结构化之间,具有一定但变化较大的结构。采集方法:①日志文件采集——从服务器、应用程序日志中解析提取数据,常用工具有Logstash、Fluentd;②消息队列与流处理——Kafka、RabbitMQ传输实时数据流,ApacheFlink、SparkStreaming实时处理分析。8

(二)数据预处理2.1数据采集与预处理1离散化与归一化常用方法:二进制化、标准化、Min-Max缩放

特殊方法:离散余弦变换(DCT)用于音视频压缩;归一化将样本向量长度缩放为12特征提取多项式展开:生成特征的多项式组合,捕捉复杂交互奇异值分解(SVD):矩阵分解实现降维向量组合器:简化数据处理流程4特征索引多维索引:R-tree、KD-tree提高查询效率降维方法:PCA、LDA、自编码器近似最近邻:局部敏感哈希(LSH)加速查询5特征编码One-Hot:分类变量转二元变量LabelEncoding:分配唯一整数标识LOOE:处理缺失值的分类特征3特征选择过滤式:统计学权重排序包裹式:基于模型性能评估,成本高但效果好嵌入式:训练时选择特征,常用正则化9

2.2数据存储与管理分布式文件系统HDFSNoSQL数据库分布式数据库HBase云数据库开源分布式文件系统,采用主从架构,名称节点管理元数据,数据节点存储数据块。通过块存储和冗余备份实现高可靠性,适用于海量非结构化数据的高吞吐量访问场景。非关系型数据库,采用键值、列族、文档等灵活数据模型。无固定表结构,支持水平扩展,适用于大数据量、高并发读写场景,填补关系数据库在商业应用中的缺陷。高性能面向列的分布式数据库

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档