- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电视剧收视率预测分析电视剧发展论文
【摘要】本文对影响电视剧热度的因素进行了系统的研究。首先通过建立并优化AR(2)、ARMA(2,3)单一模型,预测电视剧后三集的收视率;之后建立ARMA-BP神经网络组合模型,以ARMA(2,3)模型捕捉线性特征,用线性残差训练BP神经网络以捕捉非线性特征。通过在测试集上的计算,证明组合模型的性能优于单一模型。
【关键词】电视剧收视率;一元线性自回归模型;时间序列;BP神经网络
1.前言
电视剧的热度是对其影响力和关注度的综合衡量指标。为了在目前“多屏模式”下找到电视剧热度的影响因素,并且提出更综合、客观的衡量指标,国内外专家学者进行了很多针对性的研究。主要可以分为两类:(1)单一预测模型,如:梁招娣等基于RBF神经网络对电视收视率进行预测[1],汪洋等基于BP神经网络建立收视率预测模型[2],张春燕等利用ARMA模型对在线电视剧流行度进行预测[3],毋世晓等人利用移动平均法预测网站电视剧视频点击量[4]等等。(2)组合预测模型,如:张茜等基于TEI@I方法,提出了对综艺节目收视率预测的研究框架,引入了新的解释变量百度指数和新浪微指数,并采用模型集成技术显著提高了预测精度[5]。黄玲莉等基于ARIMA与BP神经网络,建立了收视率组合预测模型[6]。对比前人的研究成果,我们发现组合模型的效果比单一模型更加出色。因此,本文在前人已有研究的基础上,综合运用了多种机器学习模型,对影响电视剧热度的因素进行了系统的研究。
2.收视率单一时序预测模型的构建和优化
2.1数据收集和预处理。本研究选取了2015年到2017年期间首播的共23部完结的电视剧作为研究对象,这些电视剧包含了不同种类的收视率变化模式,均属于该种类中较为典型的电视剧,可以比较全面的反应不同的收视率变化情况,确保了模型的广泛性与合理性。研究中所有的收视率数据均为索福瑞CSM52城收视率统计值,电视剧的基本信息(如首播日期、播出卫视、每天播放集数)等信息来源于百度百科,所有的原始数据都存储在补充材料的excel表格中。2.2建立AR(2)模型进行预测。首先,本文使用二阶自回归的时序预测模型,利用电视剧前集的收视率数据来预测最后三集的收视率。其中该模型的基本假设为:(1)电视剧收视率变化平稳,不会因为外界因素的临时干扰而发生突变;(2)不同时间的电视剧收视率统计方法一致,能够反映电视剧的受关注程度。本文基于以上的模型假设,建立了二阶自回归模型,即AR(2)模型。若假设代表第集电视剧的收视率,那么该模型的表达式为:利用excel自带的数据分析工具进行拟合,此处以2017年收视率榜首电视剧《人民的名义》为例进行模型的训练和求解。其中训练集和测试集分别为:(1)训练集:《人民的名义》前29天、共47集的收视率作为训练集。(2)测试集:《人民的名义》最后3天、共5集的收视率作为测试集。经过excel的拟合分析,得到《人民的名义》二阶自回归拟合的表达式为:拟合得到的拟合优度,说明该模型在训练集上具有比较好的拟合效果。之后在测试集上对该模型的预测性能进行测试,将后3天的收视率真实值和通过模型计算出的预测值进行对比,并且计算均方根误差参数来衡量预测性能。最终通过计算得到的预测结果,预测值序列和真实值序列之间的均方误差为。可以体现该模型具有不错的预测性能。用同样的方法,对其余的22部电视剧建立AR(2)模型,分别作出收视率的预测分析。结果发现,对于部分电视剧来说,该模型的预测性能比较好,如《平凡的世界》RMSE=0.056,《北上广不相信眼泪》RMSE=0.051,《外科风云》RMSE=0.077。而对于另外一些电视剧,该模型的预测性能比较差,例如《孤芳不自赏》RMSE=0.534,《于成龙》RMSE=0.583,《亲爱的翻译官》RMSE=0.683。由此可见,最简单的AR(2)时序预测模型仅能实现一定程度的预测功能,其局限性主要体现在以下两个方面:(1)只能描述数据分布规律中的线性特征,而难以刻画数据分布的非线性关系。这就使该模型对于基本符合线性增长趋势的电视剧收视率与测量好,而对于波动性较大的电视剧收视率难以精准预测;(2)部分模型存在过拟合的问题,将数据中的噪声当做了信号进行处理,有些参数的p-value不能通过0.05显著性水平检测。2.3对数据和模型进行优化处理。2.3.1对收视率数据异常点的处理。通过对部分电视剧测试结果的深入研究,发现部分预测收视率与真实收视率差距较大的电视剧,都存在两种不一样的播放模式。例如《武媚娘传奇》有单集播放的、也有三集连播的;《人民的名义》有单机播放的、也有两集连播的。为确定“收视率异常下降”与“当日单集播放”之间的关系,我们对23部电视剧中有不同播放模式的17部电视剧进行了统计分析,得到了如表格1所示的结论。此处,“
原创力文档


文档评论(0)