流行电数据分析电视剧论文.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流行电数据分析电视剧论文 1数据 1.1数据收集。本文共收集了包括《楚乔传》《人民的名义》《夏至未至》等八部正在更新或已经更新完的电视剧的单集点击量,收视率,评论数等数据。采用的电视剧每集点击量,评论数来自于中国网络视频指数()和爱奇艺指数(),网站提供视频上线之后的每集电视剧的点击量总数,电视剧每天至少更新一集。播出时段的收视率来自于央视索福瑞(),其中有同一天晚上播出多集的使用同一个收视率数据,同步更新的电视剧使用收集数据当天之前的数据,之后的数据不再进行统计。1.2数据预处理。为了避免因播放源不同而引起的数据之间难以考虑到的误差,本文所使用的八部电视剧均为湖南卫视同一时段播放的,且网络点击量的数据均来自于中国网络视频指数。此外,为了方便数据的使用,本文将点击量的单位定为百万次,收视率的单位为%,评论数的单位为千条。此外,本文还会去掉一些因为上线时间较短等其他因素导致的一些异常值,以求得更精准的模型。和图2) 2理论基础 一元线性回归模型具有简单易行的特点,且经过多次数据处理和计算后发现拟合度较高,所以本文所使用的模型的理论基础均为一元线性回归模型的理论。对于一元线性回归模型f(x)=w0+w1x,每一个xi都有一个实际的yi和本文通过回归得出的f(xi)与其对应,本文令yi=w0+w1xi+εi,,其中εi,是真实值与预测值之间的差值,即εi,=yi-f(xi),当残差平方和最小时,证明该模型与实际拟合程度最高,即该模型越精确。其中=ε12+ε22+…+εn2=∑i=1n[yi-f(x)i]2残差平方和是回归参数w0和w1的函数,即表示为(w0,w1),要找到最好的回归方程,即求L=min∑i=1n(yi-[w0+w1xi])2,在求解L时,本文采用梯度下降的方法:对L求偏导数得到#8706;L#8706;w1=[(w1x+w0)-y]x和#8706;L#8706;w0=(w1x+w0)-y。令w1i+1=w1i-α#8706;L#8706;w1,w0i+1=w0i-α#8706;L#8706;w0,其中α为学习率(learningrate),直到#8706;L#8706;w1=0且#8706;L#8706;w0=0,求出当时的w0和w1。 3模型的建立与处理 3.1基于一元非线性时间序列预测模型对收视率的预测。收视率,指在某个时段收看某个电视节目的目标观众人数占总目标人群的比重,以百分比表示。收视率越高,则该电视剧与同期节目相比受到的关注度就越高,一般来说,当t-1时刻的电视剧收视率越高时,观众对t时刻的电视剧的期望就越高,t时刻的收视率就越高。因此本文猜想,t-1时的收视率与t时刻的收视率存在某种关系。本文以t-1时刻的收视率为自变量来预测t时刻的收视率,进行了多次数据分析。以《楚乔传》为例:如图3是真实的t时刻与t-1时刻的电视剧收视率的关系:图3电视剧《楚乔传》t时的收视率与t-1时收视率的关系由上图可以看出,t-1时刻的收视率与t时刻的收视率基本符合一元二次的函数关系,得到的模型拟合程度较高。之后以上图中得到的回归方程,预测最后5集电视剧收视率,得出结果后再与前面几集的收视率做回归分析,得到如下图4:图4《楚乔传》预计的t时收视率与t-1时收视率的关系该数据同样得到了拟合程度很高的模型,与真实结果相比差距很小。其中,实际结果得出的二次项系数为负而上图中二次项系数为正,可能是因为使用的数据量过少。同时本文对当时电视剧播出的背景做过调查后发现,最后五集播出时处于工作日。很多人因为工作的原因不能及时收看电视,这也可能是造成预测结果偏大的一个原因。最后本文经过多次验证得出该模型可以很好的拟合数据,对任一时刻的收视率,该模型都具有很好的预测效果。因而本文可以认为,热播电视剧的收视率与上一集的收视率存在一元二次的函数关系。3.2一元线性模型预测单集电视剧评论数。通常来讲,对于一部热播电视剧,如果某一集相比较其他更加吸引观众,便更会引起人们对他的关注,反映到数据上的一方面就是该集的评论数就会越多。而在收视率和点击量两个可能可以预测评论数的因素中,本文猜想点击量能更好地预测评论数,并通过数据验证了本文的猜想。以《人民的名义》和《三生三世十里桃花》为例(如图5和图6)从下图可以看出,不论是单集还是整体,在收视率这一方面《人民的名义》远超《三生三世十里桃花》,而点击量方面的结果恰好相反,《三生三世十里桃花》则是更胜一筹,但如果本文比较两部电视剧的评论数(如图7),《三生三世十里桃花》占据了绝对优势。造成这种结果的原因是因为两部电视剧收看的人群年龄段不同,《人民的名义》的观众群体年龄相对较高,多通过电视收看电视剧,很少会到网络上发表对这部电视剧的看法;而《三生三世十里桃花》的观众群体相对年轻,多通过网络收看电视剧,并乐于与其他人商量

文档评论(0)

行业资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档