- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“中国好创意”全国校园推广宣传-V3
* * * * 参赛技巧 且慢动手,好好咀嚼题目 时间点 胜负规则 提交规则 提交格式 一切字面下面的暗示 参赛技巧 我们比的是什么? ——评价函数 模型表示/特征 评价函数 优化方法 机器学习 评价函数影响其他两者 如果损失函数是最小绝对差 如果损失函数是最小方差 特定模型只对特定损失函数最优 参赛技巧 先跟数据培养感情 数据竞赛的目标:overspecialization without overfitting 算法为数据而生 实用性是次要的(但也有时候是主要因素) 用可视化工具为数据画像,用可视化分析工具热身 有anomaly/outlier吗?有明显的规律吗?可以简化问题吗? 了解领域知识 数据科学家=分析技术+领域知识+数据直觉 参赛技巧 两份数据,两个排行榜 Public data (一般25-33% of total test data) Public leaderboard 实时排行榜 Private data (其余数据,for final score) 保证最精确、同时有足够泛化的model获胜 Private leaderboard 决定最终名次 有时候有三份数据 如Netflix Prize:training, test, quiz 参赛技巧 寻找相关工作 Kaggle可能已经有相似的竞赛 Tutorial,得胜者经验之谈,如 /category/dojo/ 论文,开源代码,技术文章 联系作者 到论坛寻宝,提问 活跃论坛,如 /forums/f/15/kaggle-forum 本大赛论坛 参赛技巧 准备工具和本地环境 R,Python,SQL,Java,…… 选择最拿手的 提交环境支持 Kaggle R Tutorial on Machine Learning 建立本地环境 参赛技巧 不要把模型想得太复杂 往往一些基础模型就很好 到MOOC上好好温习一下基础,如 /learn/machine-learning 特征工程:重中之重 采用原始特征, 利用领域知识选择golden features 自动方法(如PCA,深度学习) 或者采用复杂的黑盒模型 参赛技巧 避免Overfitting 相比训练数据规模,模型不能过于复杂 过多的提交可能导致overfitting Cross-validation 参赛技巧 Ensemble:终极绝招 众愚成智:很多模型加起来能够提高泛化能力,尤其是针对复杂的问题 人多未必力量大:精心挑选模型的组合 使候选模型间相关性弱 作为最后一步 一些技巧 /2015/06/ensembles-kaggle-data-science-competition-p1.html /2015/06/ensembles-kaggle-data-science-competition-p2.html 参赛技巧 In each competition I learn a bit more from the winners. A?competition?is not won by one insight, usually it is?won by several careful steps towards a good modelling approach. Everything play its role, so there is no secret formula here, just several lessons learned applied together. ? Lucas S. 1.01365 = 37.8 数据之战,虚位以待 欢迎参赛 宣传片 官网 CCF_TFBD 微信公众号 评审揭幕 微博 * HBR says data scientist is the sexiest job of 21st century. But according to McKinsey, by 2018, the U.S. alone may face a 50?percent to 60?percent gap between supply and requisite demand of deep analytic talent. 解决方案是古老智慧 悬赏 + 现代思维 众包。 英国议会悬赏20000英镑的经度大奖促使一个钟表匠发明了航海天文钟,完全改变了航海史和征服史。拿破仑悬赏12000法郎征集储存食物的方法,一个商人之子发明了罐头。近现代史上这样的悬赏还有很多,比如跨大西洋飞行,月球车、宇航员手套等。 众包完全改变了当代知识的生成和解决问题的方式,比如维基百科。 下面讲述在数据分析领域的案例。 * 第一个故事是关于Netflix,它有点像我们中国的爱奇艺,这家公司在2
您可能关注的文档
最近下载
- 人工脏器-人工肝.ppt VIP
- 能源管理系统(EMS)系列:Honeywell Energy Management_(6).能源效率的提升与能源成本的降低.docx VIP
- 古诗词及文言文阅读-五年级语文下册期末专项练习.pdf VIP
- 2025年淮安市专业技术人员公需试题-党的二十届三中全会精神解读.docx VIP
- 《成人法布雷病心肌病诊断与治疗中国专家共识2024》解读.pptx
- 马克思主义与社会科学方法论课后习题答案(2018版).pdf VIP
- 中国天然气发展报告(2025)要点.docx VIP
- 威远煤矿矿井主要灾害预防管理制度汇编.doc VIP
- 电气常用图形符号.pdf VIP
- 《中国古代的艺术》课件.ppt VIP
文档评论(0)