金融与财务机器学习 第3章 金融大数据的处理与分析.pptVIP

金融与财务机器学习 第3章 金融大数据的处理与分析.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

******公开数据源——国家职能部门官网*国家统计局统计数据专栏国家统计局每年发布中国统计年鉴,包括人口、国民经济核算、就业和工资、价格、人民生活、财政、各行业基本情况等共28个方面统计信息。公开数据源——国家职能部门官网*FRED官网页面联邦储备经济数据FREDFederalReserveEconomicData的缩写来自数十个国家、国际、公共和私人来源的数十万个经济数据时间序列组成。由理事会、经济分析局、劳工统计局和人口普查局报告的相关数据。公开数据源——证券数据平台*证券宝Baostock包括股票数据、指数数据、季频财务数据和季频公司报告实验3-1:在Baostock上下载所需股票历史数据及K线数据。JQData包含沪深A股行情数据,上市公司财务数据,指数数据,场内基金数据,期货数据和宏观经济数据Python中通过安装jqdatasdk第三方库即可访问JQDataYahooFinanceAPI提供常规货币、股票和债券的市场数据,基本面数据,期权数据,市场分析和财经新闻在Python安装yfinance第三方库免费获取中国和美国各金融市场、金融产品的历史及实时数据公开数据源——互联网企业财经专区*东方财富网数据中心公开数据源——GoogleDatasetSearch*在GoogleDatasetSearch中搜索“收入”关键词通过在该平台上搜索所需数据集关键词,将会返回与该关键词有关的,存储或发布在任意站点的数据集。支持多种语言搜索相关数据库选定数据库详细信息文献数据源*中文金融情感词典姜富伟、孟令超、唐国豪《媒体文本情绪与股票回报预测》一文中构建将英文的LM词典转化为中文版本,从现有的中文通用情感词典中筛选出适合金融语境的词语,以及利用word2vec算法从文本语料中挖掘情感词语等三种方法构建了最终的中文金融情感词典。美国公司特征因子JeremiahGreen、JohnR.M.Hand、X.FrankZhang《ThecharacteristicsthatProvideIndependentInformationaboutAverageU.S.MonthlyStockReturns》JeremiahGreen在个人网站“/site/jeremiahrgreenacctg/home.”中公布了94个公司特征因子计算的SAS代码美国宏观经济变量MichaelW.McCracken和SerenaNg《FRED-MD:AMonthlyDatabaseforMacroeconomicResearch》基于FRED数据库的134个月度宏观经济变量*第三节描述性统计中心趋势性*中心趋势性*分散性*对称性和厚尾性*对称性和厚尾性*持续性*持续性*相关性*相关性——Pearson系数*相关性——Pearson系数*相关性——Spearman等级相关系数**第四节数据预处理缺失值处理*删除缺失值对包含缺失值对象的所有信息进行删除处理简单且能保证数据的完整性,但却丢弃了删除数据的隐含价值当删除含缺失值的对象相对于样本总体而言很小时有效填充缺失值常数填充:使用常数0,1,-1直接代替缺失值或根据自身经验对缺失值设定值特征值填充:以该空值最大概率取值填充。用于填充的特征值包括均值、众数或中位数。滞后值填充:将缺失值沿用缺失值对象上期值异常值处理*异常值处理——异常值识别*异常值处理——异常值识别*异常值处理——缩截尾处理*标准化处理*标准化处理将有量纲数据转化为无量纲数据,保持数据集中度,便于不同数据的比较和回归常见的标准化方法为Z值标准化(Z-Score)和最小最大值标准化(Min-MaxNormalization)。标准化处理**本章小结与复习思考题本章小结*金融领域实证研究和业界处理中常用的金融数据库有国内的国泰安数据库、万得资讯、中国研究数据服务平台以及获取国外数据的CRSP数据库。除从收费数据库中下载数据外,研究者们还可通过国家职能部门官网、公开证券数据平台、GoogleDatasetSearch等公开数据源中收集所需数据。另外从相关文献作者的个人网站中获取相关数据处理代码或现成数据也是一个不错的数据收集源。描述性统计常用工具包括:均值、方差、中位数、偏峰度、各类相关系数。实施描述性统计的最大目标是让我们能够准确掌握所关心的变量特征。本章小结*数据预处理的基本流程为检查缺失值并处理、异常值识别与处理、数据标准

文档评论(0)

dllkxy + 关注
实名认证
文档贡献者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档