- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电影票房预测
数据到底如何搞定电影票房预测?怎样利用微博数据从股市中掘金?气象台怎样预报天气并发布预警?Google如何通过搜索行为预报流感爆发?这些有趣的问题背后,其实都隐藏着大数据的影子。基于对搜索行为、社交媒体等数据的深入分析,可以测量亿万用户的情绪变化、描绘用户的行为模式、挖掘用户的潜在需求,最终发掘出数据中蕴含的真正价值。2009年Google在《Nature》上公布了其利用搜索数据对全球流感疫情近乎实时评估的技术:(1)2012年微软纽约研究院经济学家David Rothschild在51个选区中准确预测了50个选区的总统大选结果 (2)美国印第安纳大学和曼彻斯特大学的三位学者依靠Twitter的情绪分析预测未来3-4天道琼斯指数的涨跌 ,准确率高达87.6%(3)。与此同时,大数据技术还被广泛应用于道路拥堵、彩虹甚至地震等领域的预测。搜狗搜索在大数据研究方面已经有一定收获。自2013年开始,我们决定研发一个有挑战性的社会化预测系统,命名为#深思#(这个名字来源于《银河系漫游指南》中的一部超级计算机),在不同领域进行趋势预测,期望通过这个综合系统来发现隐藏在大数据背后的奥秘。本文以搜狗为案例,分析其电影票房预测的相关技术,其他领域的研究成果将陆续发布。?票房预测:需求与现实从1896年西洋影戏传入上海徐园,到1905年中国拍摄首部国产电影《定军山》,再到2013年全国电影票房突破200亿 大关,(4)有着百余年历史的中国电影产业,在近几年呈现出飞跃式发展的态势,无论是影片质量、院线建设还是投资规模都有了长足的发展。与此同时,随着“大数据”时代的到来,电影观影群体、观影偏好与心理、电影信息传播和获取方式也都在发生着深刻的变化。毋庸置疑,多样化资本的加入是中国电影不可或缺的发展引擎,然而,电影行业以投资回报率难以预测著称,大投入未必有大产出,票房预测工具的缺失使得投资者无法有效对冲投资风险,华人著名导演吴宇森的《风语者》就拖累了米高梅公司最终走向破产。因此制作与发行公司不得不考虑所有对票房有影响的因素:辣妈李小璐对《私人订制》票房贡献几何;《风暴》票房为何远低于其金牌制片人江志强预期;被吐槽“烂片”的《富山春居图》和《小时代》缘何票房却一路走红;成龙大叔的《警察故事2013》有无必要拍成3D;《泰囧》的“报复性”观影效应能否复现……这一切的一切其实都可以从“大数据”中找到答案。因为网络上的每一次浏览、查询乃至点击所汇聚成的群体智慧都“蝴蝶效应”般地影响着电影的最终票房。2013年Google在一份名为《Quantifying Movie Magic with Google Search》(5) 的白皮书中公布了其电影票房预测模型,该模型主要利用搜索、广告点击数据以及院线排片来预测票房,Google宣布其模型预测票房与真实票房的吻合程度达到了94%,但并未见其公开对未上映电影的预测结果。搜狗公司借助“深思”系统,建立了更为复杂的模型,用于预测国内电影票房,并在新浪微博上提前发布了2013年12月国内上映电影的首周票房预测结果。很高兴到目前为止预测结果与真实数据非常接近,同时,我们的模型还可以用于对影响票房的因素进行定量分析。?搜索查询量的奥秘搜狗搜索每天都响应上亿次的搜索请求,查询词的分布和变化趋势能够很好的反映出中国网民的兴趣点和关注指向。与Google的研究类似,我们也发现,电影上映前相关查询词的搜索次数与票房收入有着很强的关联性。这一点很好理解,用户的主动搜索行为体现了用户对这部电影的潜在兴趣。我们选取了2013年1-11月国内上映的180部电影的票房和上映前的搜索量数据作为训练集,用于训练一个基础的线性回归模型。实验发现,单纯利用搜索量训练得到的模型,预测得到的首周票房与真实票房的相关度R方值仅为68%,这与Google仅用搜索数据得到的结果70%很接近。(注:R方值取值为0至1,值越大表示模型预测效果越好),这个结果也说明无论在中国还是美国,用户的搜索行为是很相似的。用搜索量来进行预测票房是一个好的开始,但是准确度还远远不够。同时很多搜索词还存在歧义的情况,比如《生化危机》,既是电影也是游戏,混在一起会造成票房预测值偏高。进一步研究发现,游戏意图的查询请求量较为平稳,但电影意图的查询请求在上映前则有一个高峰,也可以通过用户点击的URL来进一步确认用户的搜索意图。因此模型需要再引入查询量的变化趋势和用户点击的分布情况。修正后的模型可以达到74%的准确度,这时模型已经可以对电影票房进行一个粗略的估计。?社交媒体:用户的情感分析社交媒体数据对票房预测也会有一定帮助。假设你是某个明星的粉丝,打算去看他主演的电影,那么你很可能会提前转发该电影的相关微博给你的朋友。国外已经有很多预测项目都是在针对Twitter数据做研究,这里我们主要采
您可能关注的文档
- CPI分析步骤预测.docx
- 统计预测与决策作业.docx
- 超前地质预报 作业指导书-12.15ggx.doc
- 实验七JAVA与数据库的连接.doc
- 线性模型 案例分析.doc
- 探放水制度w.doc
- 灰色预测理论 定义.doc
- 《VC++2010入门经典》完全版.doc
- 零售活期存款总量预测模型.docx
- Visual Studio经典C++入门教程.docx
- 2023年度安全员考试题库检测试题打印附答案详解(达标题).docx
- 2023年度安全员考试题库检测试题打印(实用)附答案详解.docx
- 2023年度安全员考试题库检测试题打印附完整答案详解【名师系列】.docx
- 2023年度安全员考试题库检测试题打印及答案详解【考点梳理】.docx
- 2023年度安全员考试题库检测试题打印附完整答案详解【各地真题】.docx
- 2023年度安全员考试题库检测试题打印附参考答案详解【完整版】.docx
- 2023年度安全员考试高分题库含答案详解(精练).docx
- 2023年度安全员考试高分题库及参考答案详解【能力提升】.docx
- 2023年度安全员考试高分题库附答案详解【典型题】.docx
- 2023年度安全员考试高分题库及参考答案详解(培优B卷).docx
文档评论(0)