- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
阿里音乐流行趋势预测
Datahacker 团队参赛总结;金陵书生欧阳志友
南京邮电大学教师、在读博士
特征工程、数据探索
强力Supporter;目
录;赛题分析;艺人播放量趋势;播放量总和走势;几个基本概念;规则:人为的构造一个非线性函数, 并利用数据集求取参数
模型:利用机器学习方法获得回归函数。;问题一:模式一(播放量的爆发增长)是否可以预测? 不可;问题二:数据集中其他的信息是否有用?;规则算法;对每个艺人每一天播放量最大的5%用户占播放量的比重做了限制。
由于测评公式的原因,预测量应该就低不就高,一旦远高于实际值,将会极大地影响得分。;事实上,模式二所导致的斜率b是很难回归的。;用了一个替代的指标来进行分类: b1=后30天播放量的均值/前7天播放量的均值。用不同的阈值进行了分类。
不确定的经验:对于百万级别数据量的训练集,组合特征在数百维的量级上,对分类性能有益无害。可以放心的堆特征。请大家斧正。
利用4个GBDT分类器,将艺人分为4组8个类别。
对每个类别分别线性回归出a,b,c三个系数,最终得到4组预测值,分别是pred1, pred2, pred3, pred4。;最后就是对模型进行融合。
阈值为0.96和0.98两个分类器准确率较高,其他两个准确率较低。
对于不同类别的艺人,采用了不同的加权系数。
a3: pred1*0.55+pred2*0.30+pred3*0.16
a8: pred2*0.08+pred3*0.21+pred4*0.70
其他: pred2*0.20+pred3*0.45+pred4*0.34
最终得分:505151。
模型对更换数据集不敏感,对于任意足够大,且总体参数稳定的数据集,都可以稳定的得到领先的分数。
模型对自身参数也不敏感,可以保证参数在一定范围内的变化,得分保持在一个很高的水平上。;;;;重要的事情;We love this game;THANKS
您可能关注的文档
最近下载
- 2025年恒丰银行校园招聘笔试模拟试题及答案解析.docx VIP
- 少儿英语(fly,sing,dance,jump,run)课件.ppt VIP
- 人教版一年级上册数学第二单元《位置》测试卷及一套答案.docx VIP
- 人工智能在医学检验技术中的应用.pptx VIP
- 开放大学《市场营销学》形考任务1-4试题及答案 .pdf VIP
- JASOD611-1994..doc VIP
- 天一大联考皖豫联盟2026届化学高三上期中综合测试试题含解析.doc
- 40篇短文3500单词-短文语法填空.doc VIP
- 医疗器械质量体系内部审核表.docx VIP
- 金属、非金属、露天矿山企业安全检查内容、依据及处罚细则清单.doc
文档评论(0)