协同过滤技术在广电用户个性化推荐中探究.docVIP

下载本文档

3
0
约2.73千字
约 6页
2017-06-21 发布于未知
举报
版权申诉

协同过滤技术在广电用户个性化推荐中探究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

协同过滤技术在广电用户个性化推荐中探究

协同过滤技术在广电用户个性化推荐中探究　　摘要：随着广电运营商双向业务的不断发展，为解决用户无法从海量内容中快速找到喜爱节目的问题，协同过滤个性化推荐技术在广电领域得到了关注和应用。通过一个改进的K-means聚类算法对相似用户（簇）有效聚类，在为用户准确快速智能推荐感兴趣的电视节目取得了良好的效果关键词：个性化推荐；协同过滤；聚类；广电运营 1 背景近年来，广电运营在高清、互动电视平台的建设方面取得了长足的进步，包括点播、时移、回看、资讯信息在内的大量交互业务在各地纷纷上马，大大改善了各地电视用户的收视体验，同时也为运营商平台化进行了深入的探索和验证。个性化推荐技术是解决上述问题的重点方案之一，通过主动把热点内容、最新内容或者用户喜好的内容推送给用户，用户无需进行繁琐的内容浏览，就能快速定位到自己感兴趣的内容，一方面提升了用户体验，另一方面也大大增加了运营商投资购入的节目内容的长尾效应[1]。本文针对广电家庭用户个性化推荐技术的难点，重点讨论利用协同过滤推荐技术与注重速度和精度的智能聚类算法来为用户精准推荐和推送其感兴趣的节目内容 2 协同过滤推荐技术 2.1 协同过滤算法分类随着协同过滤技术在电子商务领域的广泛应用，协同过滤算法主要分为基于内存、基于知识、基于模型和混合式推荐等，其中各种算法各有千秋，只能根据自身的实际情况选择适合自身的算法 2.2 聚类技术一种基于用户相似度矩阵实现近线分析的算法简单描述为新物品上线后，通过门户Portal、选单、榜单及非个性化推荐方式被老用户收看后，可以基于系统通过用户协同过滤算法得到的用户相似度矩阵，将新物品推荐给与收看过该物品的用户相似的其他用户[3]。通过这种基于相似群体（簇）推荐的方式，可以将新物品的推荐能够快速推荐给大量老用户而聚类技术就是将有共同特性的项目或事物聚集在一起，在该模型中通过将有共同兴趣爱好的用户聚集在一起，认为该聚集簇中的目标用户与邻居用户有相同的产品风格喜好，从而就可以向目标用户推荐邻居用户喜好的商品，这种模型推荐算法不仅可以推荐用户所喜欢已知种类的商品，还可以向用户推荐用户可能会喜欢的新鲜商品 3 k-means聚类算法 3.1 K-means聚类算法原理 K-means的算法原理是：首先从数据集（包含N个数据样本点）中随机选择k个数据样本点作为初始聚类中心，对于剩余的（N-k）个其他数据样本点，分别将他们分配给距离那k个中心簇最近（相似度最大）的簇中，然后再分别重新计算他们的聚类中心（即该簇中所有数据样本点的均值），不断重复这一过程，直到聚类中心不再改变，标准测度函数开始收敛为止。否则继续迭代执行聚类，其算法描述如下：输入：数据集（包含N个数据样本点），初始k个数据簇中心输出：满足终止迭代条件的k个数据簇 3.2 基于k-means算法的用户聚类现实生活中，相似的用户有共同的用户特征、喜好特征、行为特征，而非相似用户的用户特征、喜好特征、行为特征等也都大相径庭。具体来讲，从用户特征可以从这几个大的方面来进行区分，比如说，性别，年龄，职业，学历等多方面，一般来说，不同学历的人，由于他们对知识基础的积累层次不一，导致他们选择不同的分别适合他们自己的?视节目对象，相似的用户群体他们的职业、年龄或者其他方面具有一定的相似性，导致他们选择了共同的电视节目。从喜好特征来讲，有相同爱好的用户，自然他们在选择电视节目对象时，很有可能选择同一个对象。从行为特征来讲，两个有相似行为特征的用户很有可能选择的电视节目对象也是同一类，所以在本文中，我们认为相似的用户在选择电视节目对象时也具有一定的相似性，所以我们根据用户订阅过的电视节目对象便可以将相似的用户聚类 4 改进的K-means算法 4.1 改进策略（1）计算出数据集中N个样本点两两之间的距离（本文衡量的是相似度）dis（），找到满足的两个样本点d1和d2，并将它们设为初始两个聚类中心（2）在剩余的（N-2）个样本点中，选取满足的样本点d3作为第三个初始聚类中心样本点，其中，di是除去数据集中样本点d1、d2、d3的任意一个样本点（3）依此类推，直到剩余的（N-k+1）个样本点中，选取满足的样本点dk作为第k个初始聚类中心样本点，其中，di是除去数据集中样本点d1，d2，…dk的任意一个样本点（4）对于数据集中剩余的（N-k）个样本点，计算每个样本点与上面求得的k个聚类中心样本点之间的距离，并将这些样本点归入距离其最近的聚类中心簇中（5）重新计算k个数据簇的聚类中心值和标准测度函数，中心值为该簇类所有样本点的平均值，其计算公式为，标准测度函数为，其中，nj为第j类中