- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
阿里音乐流行趋势预测目录一、赛题分析二、赛题思路三、分类与预测四、总结赛题分析 此次比赛给出了1000位艺人在2015年3月1日至2015年8月30日之间的所有歌曲数据以及相关用户的行为。要求预测9、10月份的艺人所有歌曲的播放量。预处理模型选择预测GRU按小时的播放量原始数据LSTM预测结果小波神经网络小波去噪XGboost曲线拟合 但是我们发现,预测的数值在一个比较的短的时间以后都是一个常数。 启发我们直接利用一个常数作为预测。我们认为最后两个星期的水平最能反映9、10月份大致水平,所以选择最后两个星期均值作为基准。 我们发现均值预测稍优于模型,所以抛弃用模型预测的思路。赛题思路 显然尾部14天预测没有考虑播放量时间序列所体现的特 点。所以我们将重点放在寻找播放量时间序列的特点,并根据这些特点给出不同的预测方案。分类预测结果1000个艺人八大类三、分类与预测 我们认为艺人播放量时间序列8月份的走势和状态,最能体现9、10月份的基本水平和走势。所以我们根据8月份时间序列体现特点,将艺人进行划分。 对于那些尾部存在明显趋势的艺人,将最后14天均值作为预测肯定不准确。所以我们按照8月份时间序列走势特点的强烈程度,一步步将艺人分离出来。连续下降1000 艺人第一步分离分类逐天下降星期趋势第二步分离异常第三步分离分离思路:对于十四均值基准分,我们能按照时间序列特点修改就修改,不能修改维持基准不变暑假第四步分离长期趋势第五步分离尾部趋势连续下降1000 艺人第一步分离连续下降递减率tsf7777剩余五月份(均值) 1. 五月份的均值明显大于最后一个星期的均值结构 2.最后一个星期的均值大于倒数第二个星期预测特征规则 3.倒数第二个星期的均值大于倒数第三个星期连续下降1000 艺人第一步分离逐天下降 我们将播放量预测数值降低以后,分数明显上升。这也是突破十四天均值分数瓶颈的第一步。逐天下降35均值均值77剩余最大值1. 七月,八月最大值出现在0821-0830 结构 2.最大值明显大于0721-0821区间的均值预测特征 3.最大值出现到0830之间均值大于0701-0821区间的均值规则 4.最后一个值明显大于0701-0821区间的均值比连续下降1000 艺人第一步分离逐天下降星期趋势星期趋势均值60中位数结构具有周期趋势:最后两个周这个星期的均值不具周期趋势:最后两个周的中位数8个周内,每周总有一个天是最大值特征预测规则连续下降1000 艺人第一步分离逐天下降星期趋势尾七异常第二步分离异常倒七异常 这三类艺人在总的艺人里面大概占200个人左右。将这三类艺人的预测修改以后,分值上升5000分左右。对分值上升贡献最大的类。尾14异常 考虑到如果在我们取基准分的最后14天里出现一些异常高的点,这会将我们的预测数值抬高,影响预测精度。将预测数值恢复到一个正常的水平,我们还有提高分数的空间。异常中位中位均值均值中位数60 1. 第一类异常:最后一个星期最大值明显大于最后一个星期中位数,同时最后一个星期最大值明显大于0803至0817的均值结构第一类异常:最后14天中位数类别与特征预测 2. 第二类异常:倒数第二个星期最大值明显大于倒数第二个星期中位数,同时倒数第二个星期最大值明显大于0803至0817的均值第二类异常:最后7天均值规则第三类异常:0803至0817的中位数 3. 第三类异常:前两种异常同时出现连续下降1000 艺人第一步分离逐天下降星期趋势尾七异常第二步分离异常倒七异常第三步分离尾14异常暑假 暑假中呈现的状态是暑假导致的,与暑假之前的状态存在明显差异。暑假一旦结束,时间序列就进入出另外的一种状态。暑假均值均值s构如果r0.95,预测值为0.95*f 尾部七天有四天均在下降:f*0.9 f*0.9*0.95 f*0.9*0.95*0.980718-0830之间均值与0517-0717之间均值存在明显差异预测特征如果r=0.95,预测值f 规则连续下降1000 艺人第一步分离逐天下降星期趋势尾七异常第二步分离异常倒七异常第三步分离尾14异常暑假第四步分离上升整体趋势 如果时间序列一种趋势存在比较长的时间,那么我们认为在9、10月份还会存在这种趋势。长期趋势之上升30f30中位数2020中位数f2030f30 1. 第一类上升:六个月每月均值都前一个月数值大,六个月持续上升结构第三类:最后一个星期的均值,最后一个星期的均值*(1.05)第一类:最后一个星期均值,最后一个月中位数*(1+六个月平均增长率)第二类:最后一个星期的均值,最后一个月中位数*(1.1)类别与特征预测 2. 第二类上升:最后三个月每月均值都前一个月数值大,三个月明显上升规则 2. 第三类上升:最后三个星
文档评论(0)