- 9
- 0
- 约3.42千字
- 约 6页
- 2016-09-10 发布于北京
- 举报
“脏数据”难以排除影业谈大数据预测言之尚早.doc
“脏数据”难以排除影业谈大数据预测言之尚早
截至10月16日,《黄金时代》的累计票房为4698万(已上映16天),如此成绩对于片方、媒体和公众而言都是出乎意料,毕竟满满的7天国庆黄金档是一个日产斗金的高产值档期。无论是汤唯还是冯绍峰都已是炙手可热的有极高票房号召力的大明星,此役失利,堪称冷门。
但最令人哑然的恐怕还是影片上映前百度为其背书的票房预测,当时很多媒体还认为百度的预测太过保守。在百度百发的新闻发布会上,当宣布预测票房为2.0-2.3亿后,全场只有安静,毕竟这个为期七天的黄金档期对于拥有汤唯和冯绍峰的电影而言,只预计这个数字略显保守了,但如此谨慎的预测,在今天看来竟显得过于“乐观”。
其实,百度很早就开始研究并在内部预测票房了,在今年7月18日爱奇艺影业宣布成立的新闻发布会上,爱奇艺首席内容官马东就透露,目前在爱奇艺内部,基于百度大数据的票房预测已经能够做到80%以上的准确率,未来将会在适当的时候对外发布票房预测。显然,针对《黄金时代》的百度百发(娱乐众筹产品)发布就成为了百度发布票房预测的适当时候,但只可惜出师未捷。
为什么中国最有能力做大数据预测的百度,竟会“意外”地马失前蹄?
历史沉淀数据严重不足
爱梦娱乐大数据创始人雷鸣和凡影调研客户总监王舒都认为,在国内做电影票房预测存在一个根本性的“疏漏”,就是中国电影市场的历史数据沉淀严重不足。
我国有详细、清楚和准确的票房记录是从2012年开始。当年2月,全国电影票务综合信息系统(简称新平台)上线。该平台共规划了信息速递、行业管理、影院管理、影片管理、票房数据接收、放映数据接收、监控管理、专资收缴管理、专资使用管理、查询统计、分析预测、GIS综合展示、安全认证、系统管理、SSL应用共15个模块,77项功能。从技术上实现了能够准确统计全国的票房、场次、排片等影院端生成的数据。
在此之前,除了年底由国家电影专资办统计出具的权威票房数据外,其他每周、每月票房的数据多是由专业人士根据抽样的统计进行估算。
雷鸣介绍,爱梦娱乐大数据为了弥补公开的票房数据资料不足,自己做了大量的“脏活、累活”,对2010年以来的国产电影单片的投资额、票房、演员阵容等进行了尽可能的资料搜集和统计,并进行了标签化的整理,从而形成自己的具备一定沉淀量的结构化数据。
王舒还特别提到,从2012年有详尽票房统计以来的数据并不足够有参考价值以作为票房预测的基础,因为中国电影产业自2012年以来连续地进入了一段爆发式增长期,从百亿迅速跨越到200亿元,甚至今年有望冲击300亿元。
“稳定性是做趋势性预测的基础。”王舒认为,“高速增长是具破坏性的,如果根据这样的数据进行预测,则必须作出实时的调整才能相对准确。”就王舒看来,只有等到中国电影的票房产值进入到一个稳定的平台期,电影的消费习惯趋于稳定,才可能作出基于统计分析“准确”的趋势性预测。
难以排除的数据“噪音”
据百度大数据部产品规划负责人祖峥介绍,百度票房预测基于百度每日60亿次的搜索查询数据、1亿规模的微博数据以及10年电影行业数据,通过百度大数据引擎将数据进行整合、建模和清洗,输出针对特定电影的搜索指数、社交指数、演员指数、导演指数等,最终可以导出电影总票房预测和7日票房预测等数据。
雷鸣认为,百度的搜索排名以及搜索结果导出的各类指数都会有大量来自于片方及其宣传公司,即非自然形成的人为推高---这在电影行业的宣传里司空见惯,当然也是百度的竞价排名等与搜索结果有关的收费服务所提供的“宣传空间”。
如果是这些“结果”,本身由此就会存在大量的误导,这在雷鸣的描述里被称作统计上的“噪音”,亦被称作“脏数据”。雷鸣认为,不排除《黄金时代》存在这些“噪音”,而百度方面很有可能因为没有能够剥离这些“脏数据”,从而“被自己欺骗了”。
关于百度预测模型,媒体公开的资料显示,“这一产品结合百度搜索数据、新浪微博数据,以及中国电影过去几年的历史票房数据,可以从演员热度、导演热度、电影关注度、上映时间等多个维度对一部电影进行票房预估。”
凡影调研客户总监凌毅认为,仅从披露的信息看,模型内包含的数据维度并不足够多,“或许该模型还处在初级阶段。”凌毅提到了从媒体公布的资料看,特别是忽略了档期内其他竞争影片这一重要的参考维度。而据其分析,该片之所以会票房失利,与影片对国庆档期的错判,特别是该档期内观众的消费心理错判有很大的关系。凌毅介绍,乐视影业内部对于电影项目的数据决策模型中,基于同档期竞争影片的数据分析是十分重要的数据维度。
搜狗方面亦对此颇为认同,“影响票房的未知因素多:导演、演员、剧本、宣传、首映时间、影片档期、同期竞争的影片、CPI、经济周期、天气情况、影院的排片
原创力文档

文档评论(0)