网站大量收购独家精品文档,联系QQ:2885784924

数据取对数的意义.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据取对数的意义 时间:2013-11-06 01:23 浏览:2238 人 平时在一些数据处理中,经常会把原始数据取对数后进一步 处理。 之所以这样做是基于对数函数在其定义域内是单调 增函数,取对数后不会改变数据的相对关系,取对数作用主 要有: 平时在一些数据处理中,经常会把原始数据取对数后进一步 处理。 之所以这样做是基于对数函数在其定义域内是单调增函数, 取对数后不会改变数据的相对关系,取对数作用主要有: 1. 缩小数据的绝对数值,方便计算。 例如,每个数据项的值都很大,许多这样的值进行计算可能 对超过常用数据类型的取值范围,这时取对数,就把数值缩 小了,例如 TF-IDF 计算时,由于在大规模语料库中,很多 词的频率是非常大的数字。 2. 取对数后,可以将乘法计算转换称加法计算。 3. 某些情况下,在数据的整个值域中的在不同区间的差异带 1 来的影响不同。例如,中文分词的mmseg 算法,计算语素自 由度时候就取了对数,这是因为,如果某两个字的频率分别 都是500,频率和为1000,另外两个字的频率分别为200 和 800 ,如果单纯比较频率和都是相等的,但是取对数后, log500=2.69897, log200=2.30103, log800=2.90308 这时候前 者为2log500=5.39794, 后者为log200+log800=5.20411 ,这时 前者的和更大,取前者。因为前面两个词频率都是500,可见 都比较常见。后面有个词频是200,说明不太常见,所以选择 前者。 从log 函数的图像可以看到,自变量x 的值越小,函数值y 的变化越快,还是前面的例子,同样是相差了 300, 但 log500-log200log800-log500 ,因为前面一对的比后面一对更 小。 也就是说,对数值小的部分差异的敏感程度比数值大的部分 的差异敏感程度更高。这也是符合生活常识的,例如对于价 格,买个家电,如果价格相差几百元能够很大程度影响你决 策,但是你买汽车时相差几百元你会忽略不计了。 4. 取对数之后不会改变数据的性质和相关关系,但压缩了变 量的尺度,例如 800/200=4, 但 log800/log200=1.2616 ,数据 更加平稳,也消弱了模型的共线性、异方差性等。 5. 且所得到的数据易消除异方差问题。 2 6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X 求导,1/Y*(DY/DX)=a*1/X, e =(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正 l 好是弹性的定义。dlnY/dlnX=(DY/Y)/(DX/X) 当然,如果数据集中有负数当然就不能取对数了。实践中, 取对数的一般是水平量,而不是比例数据,例如变化率等。 3

文档评论(0)

tiger02 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档