- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
随机森林初级入门
本文由JoinQuant 量化课堂推出,本文属于进阶内容,深度属于了解,即只介绍模型运作
的原理,输入输出。
0.相关概念
分类器:分类器就是给定一个样本的数据,判定这个样本属于哪个类别的算法。例如在股票
涨跌预测中,我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的,那么分类器
就是通过样本的交易量和收盘价预测第二天的涨跌情况的算法。
分裂:在决策树的训练过程中,需要一次次的将训练数据集分裂成两个子数据集,这个过程
就叫做分裂。
特征:在分类问题中,输入到分类器中的数据叫做特征。以上面的股票涨跌预测问题为例,
特征就是前一天的交易量和收盘价。
待选特征:在决策树的构建过程中,需要按照一定的次序从全部的特征中选取特征。待选特
征就是在目前的步骤之前还没有被选择的特征的集合。例如,全部的特征是 ABCDE ,第一
步的时候,待选特征就是ABCDE ,第一步选择了C,那么第二步的时候,待选特征就是
ABDE 。
分裂特征:接待选特征的定义,每一次选取的特征就是分裂特征,例如,在上面的例子中,
第一步的分裂特征就是C。因为选出的这些特征将数据集分成了一个个不相交的部分,所以
叫它们分裂特征。
1. 决策树的构建过程
要说随机森林,必须先讲决策树。决策树是一种基本的分类器,一般是将特征分为两类(决
策树也可以用来回归,不过本文中暂且不表)。构建好的决策树呈树形结构,可以认为是
if-then 规则的集合,主要优点是模型具有可读性,分类速度快。
我们用选择量化工具的过程形象的展示一下决策树的构建。假设现在要选择一个优秀的量化
工具来帮助我们更好的炒股,怎么选呢?
第一步:看看工具提供的数据是不是非常全面,数据不全面就不用。
第二步:看看工具提供的API 是不是好用,API 不好用就不用。
第三步:看看工具的回测过程是不是靠谱,不靠谱的回测出来的策略也不敢用啊。
第四步:看看工具支不支持模拟交易,光回测只是能让你判断策略在历史上有用没有,正式
运行前起码需要一个模拟盘吧。
这样,通过将“数据是否全面”,“API 是否易用”,“回测是否靠谱”,“是否支持模拟
交易”将市场上的量化工具贴上两个标签,“使用”和“不使用”。
上面就是一个决策树的构建,逻辑可以用下图表示:
在上图中,绿颜色框中的“数据”“API ”“回测”“模拟交易”就是这个决策树中的特征。
如果特征的顺序不同,同样的数据集构建出的决策树也可能不同。特征的顺序分别是“数据”
“API ”“回测”“模拟交易”。如果我们选取特征的顺序分别是“数据”“模拟交易”“API ”
“回测”,那么构建的决策树就完全不同了。
可以看到,决策树的主要工作,就是选取特征对数据集进行划分,最后把数据贴上两类不同
的标签。如何选取最好的特征呢?还用上面选择量化工具的例子:假设现在市场上有100
个量化工具作为训练数据集,这些量化工具已经被贴上了“可用”和“不可用”的标签。
我们首先尝试通过 “API 是否易用”将数据集分为两类;发现有90 个量化工具的API 是好
用的,10 个量化工具的API 是不好用的。而这90 个量化工具中,被贴上“可以使用”标
签的占了40 个, “不可以使用”标签的占了50 个,那么,通过 “API 是否易用”对于数
据的分类效果并不是特别好。因为,给你一个新的量化工具,即使它的API 是易用的,你
还是不能很好贴上 “使用”的标签。
再假设,同样的100 个量化工具,通过 “是否支持模拟交易”可以将数据集分为两类,其
中一类有40 个量化工具数据,这40 个量化工具都支持模拟交易,都最终被贴上了“使用”
的标签,另一类有60 个量化工具,都不支持模拟交易,也都最终被贴上了 “不使用”的标
签。如果一个新的量化工具支持模拟交易,你就能判断这个量化工具是可以使用。我们认为,
通过 “是否支持模拟交易”对于数据的分类效果就很好。
在现实应用中,数据集往往不能达到上述“是否支持模拟交易”的分类效果。所以我们用不
同的准则衡量特征的贡献程度。主流准则的列举3 个:ID3 算法 (J. Ross Quinlan 于1986
年提出),采用信息增益最大的特征;C4.5 算法 (J. Ross Quinlan 于1993 年提出)采用
信息增益比选择特征;CART 算法 (Breiman 等人于1984 年提出)利用基尼指数最小化准
则进行特征选择。
(如果想进行更深一步的学习,可以参考《统计学习方法》或者相关博文进行更一步的学习。
未来的量化课堂也会涉及这方面的内容。)
2. 随机森林的构建过程
决策树相当于一个大师,通过自己在数据集中学到
文档评论(0)