- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
{精品资源}基于爬虫的量化
基于爬虫的量化推荐系统设计
坏蛋
个人简介
坏蛋,生于80年代,从出生到大学毕业乃至工作,一直混迹于东北
某城市,现工作于东北某事业单位,属于吃不饱但也饿不死,在今
年这次“牛市”中没有忍住冲动入市了,但结果其实大家都能想到。
痛定思痛,决定重新捡起专业,为了收回我那可怜的私房钱,还有
男爷们的自尊(俺媳妇总埋汰我炒股赔钱的事情,当然她不知道我
到底赔了多钱,要是知道了就不会埋汰我了)走上了量化研究的道
路。这条路已经走了2个月了,但事情太多,所以还真是没有太多
的东西,今天就献丑了。
投资方法分类:
量化交易的可行性
量化投资方法:深圳证券交易所对量化交易的定义如下,投资者利用计算机技术、
金融工程建模等手段将自己的金融操作方式,用明确的方式加以定义和描
述,用以协助投资者进行投资决策,并且严格的按照所设定的规则去执行交易策
略(买、卖)的交易方式。
量化投资要求具备扎实的数据和精密的模型,并通过计算机技术使得数据的
获取、存储变得容易和可行,精密的模型能够高效实时的运算及时输出投资决策,
通过交易所系统接口自动完成买、卖下单。这个过程中金融工程、金融数学和计
算机机器学习的发展都使得许多的交易策略能够被的编成计算机模型并加以运
用。
摘自《大规模机器学习在算法交易中的应用与研究》 作者:陈自强
思维导图
传统量化交易系统可划分为数据抓取及存储、量化模型运行、程序下单三大模块。
前面的思维导图中没有考虑程序下单,因为T+1的交易模式,直接导致不能进行高频交易,并且我根本没有券商的api,所以没有添加程序下单的模块,而是变成的推荐,也就是上面的输出结果。
爬虫系统的总体构建
本图引用自《基于hadoop的分布式爬虫及其实现》作者:程锦佳
爬虫的流程
图片来自《无比强大的网络爬虫heritrix》
作者:曹宇
为什么要自己爬?
缺点:1、费时费力(因为需要自己编写部分代码,对于我这个年过30,还已经10年都没有编码的人来说真是
折磨)
2、需要一定的设备。需要稳定的服务器、网络及相关维护人员。这个可能比较麻烦,阿里的云租用费
有点高,尤其是你要不停的进行爬取的时候,可能服务器费用比我炒股的获利还要高。(如果有可能将来对付
挣点钱,我也希望能提供类似tushare一样的为人民服务的服务。哈哈……)
3、需要学习的东西比较多。虚拟化(因为不可能拿出整台服务器为我所用,所以需要采用虚拟化
的技术,挤挤别的系统的资源。)数据库mysql单表过千万插入速度慢,还经常闹毛病,这个也需要不停的查
找原因。Hadoop,好像现在不用这个基本上就天理难容的感觉,同样也是在虚拟机上跟别人挤挤资源吧。
Python,目前正在学习和使用中,爬虫就靠他了,主要是插件还多,很多时候顺手连数据分析都能做了。
4、影响休息和生活。作为一个30多岁的东北老爷们,花大量时间做以上工作其实还是非常影响生活的,
最近体重明显增加,酒量明显下降。
优点:1、成就感。每每完成一项任务都有一种成就感。
2、灵活性。自己有的数据,往往在处理上更加熟悉。比如可以通过对格式化数据和非格式化数据可以
进行交叉对比。
3、金钱?这个我目前还真没有赚到,希望大家一起努力赚钱。
如果不想自己爬,可以怎么办?
现有部分平台支持自定义策略如
/
网上有专门卖交易数据的如万能的某宝
实在不行电子表格也可以帮你做一些分析
爬虫系统
1、格式化数据: 如股票交易记录
格式统一,处理方便
最笨的办法
每个股票一个表,存储从tushare上爬下来的
每分钟交易记录,单表数据量明显少了很多。
信息量大,但大多数属于无用信息。爬取后需要重新清洗数据。
2、非格式化数据:如网站新闻、微博、微信等数据
拟爬取非格式化数据内容
内容
网站
地址
上市公司公告
Sina
/corp/view/vCB_BulletinGather.php?stock_str=gg_date=ftype=0
大宗交易
Easymoney
/dzjy/default.html
资金流向
Easymoney
/bkzj/
主力净流入
Easymoney
/zjlx/list.html
基金净值
Easymoney
/fund.html#os_0;isall_0;ft_;pt_1
基金所持股票
Easymoney
/基金编码.html
股票解禁表
Easymoney
/dxf/default.html
微博、股票贴吧和雪球也都应该重点看看,但他们的数据水量太大!
简单介绍TUSHARE HTTP://TUSHARE.WADITU.COM
历史行情:
ts.get_hist_data(600848)
返回值说明:
date:日期
open:开盘价
high:
您可能关注的文档
最近下载
- 蒂森MC2详细说明.pdf VIP
- 公交公司安全工作总结.docx VIP
- 打点计时器试卷习题精选附答案(出试卷可选用) .doc VIP
- (正式版)SH∕T 3006-2024 石油化工控制室设计规范.pdf VIP
- (完整版)打点计时器试卷习题附答案(出试卷可选用).docx VIP
- 国家开放大学——政治学原理——章七 自检自测—2022春季作业—2021秋季班.doc VIP
- 在线网课学习课堂《社会研究方法( 华科)》单元测试考核答案.docx VIP
- 蒂升电梯调试资料MC2B门机BG211-BG211C.pdf VIP
- 提高卧床患者踝泵运动的执行率.pptx VIP
- 蒂森MC2-B系统调试手册.pdf VIP
原创力文档


文档评论(0)