- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实际当中我们能够观测到的被解释变量的取值只是离散型的数据,不是连续型的,但是如果用回归模型进行估计的话又是连续型的变量,应该有一种技术可以把连续型的函数转变成离散型的估计值。最简陋的一种方法就是直接划等号 pi是变化的 这个式子表明,总体回归函数实际上是对概率值建模,并且概率值是自变量的线性函数,线性概率模型因此而得名。 即随机误差项的方差依赖于i Mroz.wf1 Inlf=1,已婚女性在1975年曾为了工资外出工作 Nwifeinc,丈夫的收入(1000美元) Educ,受教育程度 Exper,过去在劳动力市场的年数 Age,年龄 Kidslt6,年龄低于6岁的子女数 Kidsge6,年龄介于6至18岁之间的子女数 以kidslt6 为例,单位变化引起的inlf的变化是恒定的,在实际中也许并非如此,从0个增加到1个,inlf的变化可能比较大,但是从4个增加到5个,变化则比较小。这说明我们可能需要一个非线性函数 出现负的截距项 * 计算dp=beta*p(1-p)*dx的例子,见论文第5页 损失在30%以上 损失在30%以下 * * 例如抽样对象的性别、种族、婚姻状况、债券的信用等级 可以采用一个虚拟变量来描述一个定性变量,也可以用多个虚拟变量来描述一个定性变量。 jjjlxjy-177.wf1 取值为2种可能的定性变量用两个虚拟变量来定义,则出现所谓的虚拟变量陷阱(完全共线性问题),如果模型不包含截距项,可以避免这个问题,但是截距项有具体经济含义,况且对不含截距项的模型如何计算拟合优度目前没有统一的说法,因此通常回归模型都会包含截距项。 jjjlxjy-181.wf1 同样的教龄情况下,男教师的工资显著高于女教师的工资,如果考虑职称等因素,仍然存在显著差异,说明存在性别歧视 至今我们只考虑截距项上的差异,对于斜率项系数差异的测算同样可以运用虚拟变量,这个将在定性变量与定量变量的交互作用中介绍 一种做法如PPT所示,两个定性变量分别用两个虚拟变量来定义 β0:非白种人女教师 β0+β1:非白种人男教师 β0+β2:白种人女教师 β0+β1+β2:白种人男教师 另一种做法是定义三个二分类的虚拟变量:非白种人男教师、白种人女教师、白种人男教师。哪种方法更好?前一种方法只有三个系数,后一种方法有四个系数,因此后一种方法对系数更少施加限制。这一结论还需要用教材中229-230页的例7.6来验证 β0:非白种人女教师 β0+β1:非白种人男教师 β0+β2:白种人女教师 β0+β1+β2:白种人男教师 这里暗含的一个约束是:白种人男教师-非白种人女教师(基准类)=(非白种人男教师-非白种人女教师)+(白种人女教师-非白种人女教师) 另一种做法是定义三个二分类的虚拟变量:非白种人男教师、白种人女教师、白种人男教师。哪种方法更好?前一种方法只有三个系数,后一种方法有四个系数,因此后一种方法对系数更少施加限制。这一结论还需要用教材中229-230页的例7.6来验证 这样做就没有上述约束,因为 非白种人男教师-非白种人女教师= β1 白种人女教师-非白种人女教师= β2 白种人男教师-非白种人女教师(基准类)= β3 而β3不一定等于β1+ β2 Wage1.wf1 已婚男性(婚姻)+未婚女性(性别)=已婚女性 基准类:未婚男性 lwage c @expand(female,married,@dropfirst) educ exper expersq tenure tenursq * 检验1+1是否等于2 * 一个定性变量可用一个虚拟变量来描述,如果是一个定性变量但是多种分类,则可以用多个虚拟变量来描述,理论上n个分类,可以用n-1个虚拟变量即可 理论上可以采用一个虚拟变量,其离散型取值可以是多个,但是如何规定这些离散点的“距离” 可以用一个虚拟变量来表示一个分类变量,但是隐含一个前提是每一类别之间的差距是等分的,实际中并非如此,例如中学教育和大学教育引起的收入差距可能会大于研究生教育和大学教育引起的收入差距,所以要考虑用n-1个虚拟变量表示一个n类的分类变量 旅游公司的营销计划,需要分析哪些客户会对旅游消费支出更大些,以便将相关营销策略的重点放在对旅游消费支出大的群体中 一个定性变量可用一个虚拟变量来描述,如果是一个定性变量但是多种分类,则可以用多个虚拟变量来描述,理论上n个分类,可以用n-1个虚拟变量即可 理论上可以采用一个虚拟变量,其离散型取值可以是多个,但是如何规定这些离散点的“距离” 可以用一个虚拟变量来表示一个分类变量,但是隐含一个前提是每一类别之间的差距是等分的,实际中并非如此,例如中学教育和大学教育引起的收入差距可能会大于研究生教育和大学教育引起的收入差距,所以要考虑用n-1个虚拟变量表示一个n类的分
原创力文档


文档评论(0)