“中国好创意”全国校园推广宣传-V3.pptVIP

“中国好创意”全国校园推广宣传-V3.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“中国好创意”全国校园推广宣传-V3

* * * * 参赛技巧 且慢动手,好好咀嚼题目 时间点 胜负规则 提交规则 提交格式 一切字面下面的暗示 参赛技巧 我们比的是什么? ——评价函数 模型表示/特征 评价函数 优化方法 机器学习 评价函数影响其他两者 如果损失函数是最小绝对差 如果损失函数是最小方差 特定模型只对特定损失函数最优 参赛技巧 先跟数据培养感情 数据竞赛的目标:overspecialization without overfitting 算法为数据而生 实用性是次要的(但也有时候是主要因素) 用可视化工具为数据画像,用可视化分析工具热身 有anomaly/outlier吗?有明显的规律吗?可以简化问题吗? 了解领域知识 数据科学家=分析技术+领域知识+数据直觉 参赛技巧 两份数据,两个排行榜 Public data (一般25-33% of total test data) Public leaderboard 实时排行榜 Private data (其余数据,for final score) 保证最精确、同时有足够泛化的model获胜 Private leaderboard 决定最终名次 有时候有三份数据 如Netflix Prize:training, test, quiz 参赛技巧 寻找相关工作 Kaggle可能已经有相似的竞赛 Tutorial,得胜者经验之谈,如 /category/dojo/ 论文,开源代码,技术文章 联系作者 到论坛寻宝,提问 活跃论坛,如 /forums/f/15/kaggle-forum 本大赛论坛 参赛技巧 准备工具和本地环境 R,Python,SQL,Java,…… 选择最拿手的 提交环境支持 Kaggle R Tutorial on Machine Learning 建立本地环境 参赛技巧 不要把模型想得太复杂 往往一些基础模型就很好 到MOOC上好好温习一下基础,如 /learn/machine-learning 特征工程:重中之重 采用原始特征, 利用领域知识选择golden features 自动方法(如PCA,深度学习) 或者采用复杂的黑盒模型 参赛技巧 避免Overfitting 相比训练数据规模,模型不能过于复杂 过多的提交可能导致overfitting Cross-validation 参赛技巧 Ensemble:终极绝招 众愚成智:很多模型加起来能够提高泛化能力,尤其是针对复杂的问题 人多未必力量大:精心挑选模型的组合 使候选模型间相关性弱 作为最后一步 一些技巧 /2015/06/ensembles-kaggle-data-science-competition-p1.html /2015/06/ensembles-kaggle-data-science-competition-p2.html 参赛技巧 In each competition I learn a bit more from the winners. A?competition?is not won by one insight, usually it is?won by several careful steps towards a good modelling approach. Everything play its role, so there is no secret formula here, just several lessons learned applied together. ? Lucas S. 1.01365 = 37.8 数据之战,虚位以待 欢迎参赛 宣传片 官网 CCF_TFBD 微信公众号 评审揭幕 微博 * HBR says data scientist is the sexiest job of 21st century. But according to McKinsey, by 2018, the U.S. alone may face a 50?percent to 60?percent gap between supply and requisite demand of deep analytic talent. 解决方案是古老智慧 悬赏 + 现代思维 众包。 英国议会悬赏20000英镑的经度大奖促使一个钟表匠发明了航海天文钟,完全改变了航海史和征服史。拿破仑悬赏12000法郎征集储存食物的方法,一个商人之子发明了罐头。近现代史上这样的悬赏还有很多,比如跨大西洋飞行,月球车、宇航员手套等。 众包完全改变了当代知识的生成和解决问题的方式,比如维基百科。 下面讲述在数据分析领域的案例。 * 第一个故事是关于Netflix,它有点像我们中国的爱奇艺,这家公司在2

文档评论(0)

jixujianchi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档