基于视频智能算法.docVIP

下载本文档

13
0
约3.91千字
约 9页
2018-08-30 发布于福建
举报
版权申诉

基于视频智能算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于视频智能算法

基于视频智能算法　　摘要随着网络视频和数字电视的普及，人们可供选择的视频越来越多，当然如何选择节目也日渐成为人们的一个问题。在这样背景下，智能推荐算法也就应运而生。本文就此问题进行了研究，基于网络爬虫程序获得的网络上10大最主流视频网站的信息，以及网上的测评和用户自己的历史记录，利用了智能推荐算法对用户的喜好进行分析，结合最新的网络视频的综合评价，对所有视频给出最终评分，从而可以给用户推荐出最合适的节目。　　关键词 Web挖掘；智能推荐算法；网络爬虫　　中图分类号TP393 文献标识码A 文章编号 1674-6708（2011）55-0204-02 　　0 引言　　互联网的普及带动了信息化数字化的全面发展，从日常生活到科研机构无不与网络息息相关，网络视频，电子商务，在线支付等行为已经渗入了我们的点滴生活之中，给人们生活带来的巨大的便利，但同时一些小烦恼也会随着而来。巨大的经济利益促进了电视广告的发展，但也因此给了网络视频，电视剧的充分的发展空间，可是网络视频没有电视的高清晰度，电视也没有网络视频的不间断和可操控性，从而催生了数字电视的迅速崛起。短短数年的发展，已经使得数字电视非常的普及，带给了人们全新的感受。如今人们头疼的不是某某电视剧怎么还不播放，而是，我今天该看什么呢。笔者也多次被这个问题深深地困扰过，因此针对网络视频播放，提出一套智能推荐算法，通过用户的浏览历史的数据，对用户的性格喜好进行分析，结合十大主流视频网站对如今所有视频电视的打分，对视频进行一个推荐运算，给用户推荐出最合适的视频电视。　　1 数据来源　　此次的程序是在将放在数字电视的机顶盒之内，通过获取用户的数据和网络上主流视频的网站的信息，利用智能推荐算法获得最适合用户的节目清单。　　首先，在每个用户使用这个机顶盒的之前，会有一个十分简单的用户调查，这个是为了初步获得用户的喜好信息。因为在用户在前100次看的电视节目有很大的随机性和偶然性，所以前100次的时候，推荐的电视节目主要是依靠主流视频的排行榜和点击量以及评分总和考量的。同样因为少量数据的不准备性，我们会删除掉一些点击率很低的视频进行排行。　　其次，当用户使用时间，次数达到一定的标准的时候（100次）以后，我们将在智能推荐的算法里加入用户自己的数据，而起所占的权重随着次数增多而越来越大，其中，我们考虑的参数包括标题，关键字，导演，主要演员，类型，标签以及获得的奖项等等，当然还会记录每个视频观看的时间和距离现在的时间。结合这些用户自己的信息，以及开始第一登录前用户登录的信息，可以分析出最准确的用户喜好类型。　　最后，还有一栏信息为最近观看，这个信息是和用户最息息相关的一项，它代表着用户最近一段时间的喜好和兴趣，优先考虑接着最近几次的视频继续看（即增大它们的权重值），同时每次播放时，会记录上次的结束点，支持断点续看。　　2 网络数据的获取　　随着网络的迅猛发展，数字信息急剧膨胀，网络数据的获取和过滤也自然成为人们日益关心的问题。在这次的课题研究中，我们利用的java提供的htmlparse进行网络信息的获取，同时通过自己对网页的分析，对很多不必要地信息进行过滤，最后将得到的我们需要的数据封装成一个个视频对象存入数据库中，同时也方便我们的读取等操作。　　在我们选取的主流网站中，网站的编写格式几乎都不相同，用我们的方法无法提供出一种通用的方法获取到所有网站的视频信息，所以我们只能对每个网站进行具体分析，编写出单独网站的网络爬虫程序，然后使用利用多线程进行同时处理。　　不过具体爬取的思想是一致的：首先是对土豆，优酷，搜狐高清等网站进行源码分析，了解了每个所需信息的位置，利用htmlparse爬取到这一页信息，然后用filter过滤只剩下自己需要的信息，并把每个视频信息封装成一个具体的对象存入数据库。　　当然，在数据爬取的过程中，会遇到网站会对一些访问量很少，知名度不高的一些冷门电影的信息给予的不全，有些评价会因为只有极少数人而变得特别高或者特别低，我们都会进行特别的处理。　　3 推荐算法　　经过前面一系列的准备，前期需要的数据基本都已经准备好，在算法中主要分了两种情况，一种是用户刚开始使用那个阶段，由于数据少造成的不准确性，用户自己的信息所占的比重（除了开始登陆前输入的信息）忽略不计；另一个阶段是随着用户的使用次数达到一定的标准，用户的信息越来越准确，所占的权重比例也越来越大，同时引入了最近浏览历史这一项参数，因为时间越靠近现在，越贴近近期用户的兴趣方向，所以最近期的浏览历史，尤其是断点续播的占的权重更大，同时，综合主流网站的排名，点击量和评分，最后对推荐的视频进行一个综合的评分，选择前10名进行推荐，最后显示在界面上。　　首先，第一阶段，