- 1
- 0
- 约6.06千字
- 约 9页
- 2019-01-19 发布于湖北
- 举报
光环大数据--大数据培训人工智能培训
从零开始学 Python 线性回归_光环大数据 python 培训
线性回归一般是用来预测连续因变量(目标变量)的模型,同时,它也可以
用来选择核心变量(即真正影响因变量的自变量有哪些)。关于如何构建并求解
多元线性回归模型的理论部分我们已经在《从零开始学 Python 【20】 –线性回
归(理论部分)》中做了详细的梳理,包括模型的偏回归系数的计算、模型的显
著性检验和偏回归系数的检验。如果你对理论部分还不是很明白的,建议你先看
一下我之前写的文章。
在本期的推文中,我们将手把手的分享如何使用 Python 和 R 语言实现多元
线性回归模型的落地。如果你对这篇文章感兴趣,希望能够看完下面的内容,相
信对你有一定的帮助,同时,文末部分也会给出相关脚本和数据集的下载链接。
案例分享 销售额与广告渠道的关系
如果市场的运营部门给了你一份数据,数据包含了不同广告渠道的成本及对
应的产品销售量。现在的问题是:
哪些渠道的广告真正影响了销售量?
根据已知的渠道预算,如何实现销售量的预测?
模型预测的好坏,该如何评估?
利用 Python 建模
哪些渠道的广告真正影响了销售量?对于这个问题的回答,其实就是在构建
光环大数据
光环大数据--大数据培训人工智能培训
多元线性回归模型后,需要对偏回归系数进行显著性检验,把那些显著的变量保
留下来,即可以认为这些变量对销售量是存在影响的。关于线性回归模型的落地,
我们这里推荐使用 statsmodels 模块,因为该模块相比于 sklearn,可以得到更
多关于模型的详细信息
# ======= Python3 + Jupyter =======
# 导入第三方包
importpandas aspd
importnumpy asnp
importstatsmodels.formula.api assmf
fromsklearn.cross_validation importtrain_test_split
fromsklearn.metrics importmean_squared_error
importmatplotlib.pyplot asplt
# 读取外部的销售数据
sales = pd.read_csv( ‘Advertising.csv’)
# 查看数据的前 5 行
sales.head()
光环大数据
光环大数据--大数据培训人工智能培训
# 数据集中各变量的描述性统计分析
sales.describe()
通过数据的描述性统计分析,我们可以得到这些数值变量的基本统计值,如
均值、最小值、最大值、下四分位、上四分位、标准差,而这些统计值有助于你
对数据的理解和分布的解读。接下来需要根据读取进来的数据构造回归模型,但
建模之前,我们一般需要将数据集拆分成训练集(用于建模)和测试集(用于模
型的评估)两个部分。
# 抽样 –构造训练集和测试集
Train,Test = train_test_split(sales, train_size = 0.8, random_state=
1234)
# 建模
fit = smf.ols( ‘sales~TV+radio+newspaper’, data = Train).fit()
# 模型概览的反馈
fit.summary()
通过模型反馈的结果我们可知,模型是通过显著性检验的,即 F 统计量所对
应的 P 值是远远小于 0.05 这个阈值的,说明需要拒绝原假设(即认为模型的所
光环大数据
光环大数据-
原创力文档

文档评论(0)