Discover the beneath 80%
Discover the Beneath 80%
等待钻取的油田
——互联网财经大数据
新浪财经 冯兆意
A、数据连接一切
什么是大数据
新浪财经大数据情况
新浪财经大数据类型
专注于大数据与金融创新
什么是大数据
专注于大数据与金融创新
结构化数据:存在于关系数据库中,多年来一直主导着IT应用;
半结构化数据:包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为基础,这也是谷歌和百度存在的理由;
非结构化数据:广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过80%的数据属于非结构化数据。
大数据 是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
“大数据”理念定义为4个V,即数量(Volume)、多样性(Variety)、速度(Velocity)及数据的准确性(Veracity)。
新浪财经大数据
专注于大数据与金融创新
Volume
新浪财经大数据
专注于大数据与金融创新
Velocity
新浪财经大数据
专注于大数据与金融创新
新浪财经大数据
专注于大数据与金融创新
Veracity
670家国内外合作媒体
73家境内外行情、数据合作伙伴
562个高端专栏作家
超20个国家和地区记者站
85%+可信度代表投资者总体
真 实
新浪财经大数据类型
新浪影响主流中国,微博汇聚社会力量
新浪财经大数据
专注于大数据与金融创新
新浪+微博 双核联动
新闻
行情
用户
微博
搜索
股吧
B、新浪大数据平台架构
大数据平台架构
大数据挖掘框架
专注于大数据与金融创新
专注于大数据与金融创新
用户建模的基础准备
HTMLJSMETA…DW(标准化、规范化)
行为收集
ETL
UDF
集群
报告
报表
API
服务
数据发现
用户(产品)
合作伙伴
C、新浪财经大数据应用
新闻中的新主题,新概念 - Motif Investing
舆情分析与股票正负面 - Multi-Factor Strategy
用户浏览行为与投资表现 - Behavior Analysis
专注于大数据与金融创新
新闻数据挖掘
证券关注度 Stock Attention
新新闻 New News
主题聚类 Topic Cluster
行业聚合 Industry Cluster
舆情监控 Monitoring Public Opinion
事件影响预测 Event Influence Forecast
其他 Others
自然语言是人类最自然最重要的交流工具,也是人类获取信息和表达信息的重要载体,随着线上媒体的不断发展,每天会产生海量信息流。新浪财经每日产生30000条财经资讯,我们从中可以得到什么?
专注于大数据与金融创新
新闻数据—话题挖掘—概念潜在语义分析(LSA)
LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度——即“Topic”或者“Concept”。我们知道,在文档的向量空间模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权重
专注于大数据与金融创新
LSA的概率图模型:
新闻数据案例1—话题挖掘—概念潜在语义分析(LSA)
新闻TOPIC聚类—小时频率
专注于大数据与金融创新
新闻数据案例2—策略因子—新闻大数据策略
专注于大数据与金融创新
绩效统计
统计项
新闻大数据策略
沪深300
三个月收益
14.31%
8.02%
年化收益
70.73%
36.15%
年超额收益
34.58%
N/A
最大回撤(三个月)
-4.75%
-1.14%
夏普比率(三个月)
51.77%
40.24%
ALPHA收益(三个月)
0.56%
N/A
最长盈利区间数
5
4
最长亏损区间数
2
2
区间数量
12
12
胜率
75.00%
66.67%
新闻对于股市,兼具:基本面/情绪面/大数据,新闻不仅是信息的最初来源,而且记录着传播过程,是投资决策中的重要依据。
我们使用新闻大数据进行选股,在保证大数据的前提下,着力量化两个核心要素:
1.新闻中个股情感判断。
2.PV点击量增速。点击量增速反映该条新闻的热度,但由于不同个股PV量级不同,不能简单用增量作为筛选因子,必须做“增速”的处理后才能衡量公司自身进入公共视野的程度。
在基于上诉逻辑中,我们在只有好消息的股票中,筛选点击量增速最大的50只股票,形成股票池20141101的回溯结果如右图。
新闻数据案例3—新词发现
专注于大
原创力文档

文档评论(0)