- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数理统计学习笔记
大作业(一)
完成指导
1 SPSS 的安装
这个大作业的主要目的是让大家学习使用统计软件。而 SPSS 这个软件易于破解,操作清晰,用于
完成大作业简直再合适不过。作为一个六系学生我当然也想过用 Python,但想了想研究调库也得有段时
间,还是不如 SPSS 一键生成来得方便。所以在此墙裂推荐大家使用 SPSS。
我所使用的软件版本是 25,各个版本的操作应该都是大同小异,由于我使用的是 Windows 系统,所
以其他系统的童鞋就得自己找一下破解,并跳过本节的剩余内容了。在这里我贴一个 Windows 系统的度
盘链接方便大家直接下载:提取码:beay 。按照下面的指示完成安装和破解。
下载后双击运行.exe 文件即可,是否安装 Python 的补充文件、路径等可以自行随缘选择。安装完
毕后,不要立即激活,然后将 crack.rar 解压,将 crack 目录下的 lservrc 文件替换到安装目录下。例如
我 SPSS 的安装路径是 D:\SPSS\,那么就将文件复制到这个路径下并选择替换。
1
图1: IBM SPSS 的安装界面
替换完毕后,可以选择使用搜索栏(或Win+S )搜索SPSS,或是在安装路径下打开Stats.exe 即可
运行 SPSS。
2 数据的选择、处理与查找
2.1 数据查找
这里主要推荐两个地方吧。一个是UCI Machine Learning Repository,这里面有很多用于机器学习
的数据集。点进“View All Dataset ”的链接中,左侧的Default Task 框框中,有一个Regression,大家
可以自行选择数据。
图2: UCI ML Repo 的Regression Task 界面
2
再一个就是data fountain,在顶部菜单栏处点击数据集即可进行检索。这里面的数据标签大多是汉
化过的,不过数据比较杂,可能会有很多非数值特征,使用起来大多需要处理(如何选择和处理见下面
两小节)。不过好的是这里面的检索系统还是挺靠谱的,你可以在此检索一些想要的数据,也可以搜索像
“价格”、“销售”之类的字眼,会更加利于回归任务。
基本上这两个 source 就可以让大家的数据不重样了。你可别小看这两个数据集,一个 Air Quality
就能有9000 多条数据,你选个100 条出来就差不多了,这要是也能有哪位兄弟能跟你选重样了,那可真
是……
2.2 数据选择
有了数据源,就要学会如何选择,这样才能更好地完成大作业。在数据的选择上,我认为需要注意
两点。
一、数据一定要是数值特征,否则没法做回归。
举个例子,我想做笔记本电脑价格的多元线性回归,可以预见到,内存越大、频率越高对价格肯定
是正增益的,屏幕分辨率越高、重量越轻、厚度越薄等因素肯定也是正增益的,这些数据都是数值的。这
样回归出来的效果好吗?估计是不好的。就算好,也可能回归出来那个常量很大,因为影响电脑的主要
因素在于CPU、显卡这些指标,而像i3、i5、i7,AMD 还是Intel,6800XT 还是 3080,这些东西是很
难以数值去表示的。如果你的数据集在这些数据上波动很大(比如你拿一个i5 的960 和一个i9 的3080
去比,就算他们内存一样、薄厚重量差不多,价位肯定也是天差地别,而你把这些因素忽略掉了),那么
回归的效果肯定是不好的,遇到这种情况的话我给两条建议:
1. 放弃整个数据集,正所谓there’s plenty of fish in the sea ,天涯何处无芳草嘛。
2. 放弃这项非数值特征,反正按照孙老师的说法,点到为止,回归出来线性程度不好就大胆拒绝,有
结论就行。
3. 对这些非数值特征做数值化。比如CPU 和GPU 的型号可以对应地换成他们在某个benchmark 上
的评分,然后再去做回归即
网络工程师持证人
本人已从事浙江省工程咨询5年,对浙江省内工程信息非常熟悉,可获取新建工程相关联系人、设计院、业主等关键信息。另外从事楼宇自控专业已10年,考取了一建二建等资格证书,有关考试方面的问题(考试心得、方法、学习资料等)都欢饮来咨询交流。
原创力文档


文档评论(0)