回归模型中哑变量的相对重要性指数.doc

回归模型中哑变量的相对重要性指数.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
回归模型中哑变量的相对重要性指数.doc

回归模型中哑变量的相对重要性指数 李海超王开军胡淼陈黎飞 福建师范大学数学与信息学院福建省网络安全与密 码技术重点实验室(福建师范大学) 为在回归模型屮描述定性属性,通常需要引入哑变量。对含哑变量的回归方程, 提出描述不同哑变量在回归方程中不同重要程度的方法。该方法分解出含哑变量 的回归方程中哑变量部分和非哑变量部分的回归平方和,计算这两部分在该回 归方程中所起作用的占比,将该占比设计为各哑变量在回归方程中的相对重要 程度指数。在近10万笔的Lending Club和Prosper网络借贷数据集上,所进行 的挖掘借款用途对借款成功率、信用等级对借款利率的影响程度的实验结果表明, 与传统回归方程仅提供哑变量前的系数却不能展现其重要程度相比,所提方法 展现出不同哑变量的不同重耍程度,为定量分析回归方程中定性自变量对因变 量的影响程度提供了重要的手段。 关键词: 定性属性;回归方程;哑变量;指数; 李海超(1990—),男,湖南临武人,研宂生,主要研宂方向: 机器学习、金融数据挖掘; 王开军(1965—),男,福建福州人,副教授,,主要研究方向: 机器学习、贺能学习与推理、数据挖掘、模式;识别;wkjwang@qq. com 胡淼(1994一),男,安徽太和人,研究生,主要研究方向:机 器学习、数据挖掘; 陈黎飞(1972—),男,福建福州人,教授,生导师,,主 要研究方向:统计机器学习、数据挖掘、模式识别。 2017-05-16 基金:国家自然科学某金资助项FI Relative importance index of dummy variables in regression model LI Haichao WANG Kaijun HU Miao CHEN Lifei College of Mathematics and Informatics, Fujian Normal University; Abstract: To describe the qualitative attributes in the regression model, it is usually necessary to introduce dummy variables. For the regression equation with dummy variables, a method was proposed to describe the different importance of the different dummy variables in the regression equation. The sums of square due to regression with dummy variables were descomposed, including the sum of the dummy variable part and that of non-dummy variable part, and the proportions of the two parts was calculated in the regression equation, and the proportion was taken as the index of relative importance of every dummy variable in regression equations. In sets of Lending Club and Prosper network with nearly 100 thousand lending data, the experimental results about the influence of the purpose of loan on the borrowing success rate and the influence of credit grade on the borrowing rate show that compared with the traditional regression equation which only provides a dummy variable coefficient and cannot shows its importance, the proposed method can show the importance of different dummy variables, and provide an important means to quantitatively analyze the influence de

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档