- 5
- 0
- 约7.5千字
- 约 4页
- 2019-07-06 发布于天津
- 举报
多源电影信息校验算法研究
赵建立 张春升 房胜 李哲 吴文敏 孟芳
山东科技大学 信息科学与工程学院,青岛 266590
摘 要:随着互联网的发展,影视媒介越来越受到用户的青睐,尤其是电影媒介。但由于不
同的内容提供商对电影媒介描述方式的不同和偏差,影响了用户的体验。针对上述问题,需
要对来自不同提供商的数据做融合处理。为了准确地区分出两条相同的信息数据,本文从用
户和电影自身特征出发,提出了一种信息校验算法--MIV算法,并分别用三种方法训练模型
参数。通过MIV算法,准确地区分出需要作融合处理的电影信息数据,然后对这些数据作
信息补全处理。为了进一步验证所提出算法的有效性和实用性,分别与单维信息处理做比较,
采用准确率、召回率和F1得以验证,证实了信息校验算法 (MIV算法)比单维处理综合效
果更优越。
关键词:多源;电影信息融合;信息校验;五维空间向量;电影相似度
1.引言1
随着互联网的飞速发展,Web信息量呈现出几何增长趋势,进而为人们获取所需信
[1]
息和知识,带来更多的机遇和挑战。信息融合是解决信息多样问题的重要方法 。
[2]
推荐系统是解决信息超载问题的重要方法 。比如,个性化电影推荐能够满足用户
对电影的需求。然而仅仅依赖一家网络媒体的片源,完全达不到一定的数量,也不能被
用户很好地体验。因此需要整合多家提供商的电影资源。由于不同提供商对电影的描述
方式和特征不同,必须进行信息融合处理。目前常用的信息融合方法主要有以下几种:
[3,4] [5]
加权平均法、Bayes方法 、Kalman滤波法 、D-S证据合成方法、模糊推理、神经网
[6,7,8]
络 等。上述方法不支持具有多维度以及同时具有结构化、半结构化和非结构化特征
的文本内容分析,对于电影信息这种具体而又特殊的媒介远远不能满足要求。
针对上述问题,需要对来自多家媒体供应商的电影信息做信息融合处理,为检测出
两条相关信息,本文提出了一种基于电影媒介的面向互联网的多源电影信息校验算法
(MoviesInformationValidation, 简称MIV),以此计算电影间相似度,再与初始阈值比
较,最后决定是否对数据做融合处理。
2.电影信息校验算法(Movies Informatio Validatio )
2.1 算法简介
信息校验技术,主要功能就是查找来自不同片源的但确实是有关同一部影片的信息
资助项目:国家自然科学基金(No;青岛市科技发展计划项目 (KJZD-13-29-JCH);青岛经济技术开发区重
点科技发展计划(NO.2013-1-25)
联系作者:赵建立,E-mail:jlzhao@sdust.edu.cn
2 和谐人机环境2015 中国 葫芦岛
数据。该技术环节是整个融合工作的关键。对MIV算法模型构建时,分别采用了三种不
同的方法对校验效果进行了比较和分析。
电影信息主要包括九个维度。如表1所示。
表1 网络媒体抽取电影信息
电影名 主演 导演 类型 内容简介 播放url 海报 地区 发布日期
[9]
基于现有电影信息半结构化和非结构化的特点 ,利用电影名、演员、导演、类型、
内容简介五个属性的信息,构造五维空间向量。通过MIV算法得到来自不同片源的两部
MovieSim Sim0
电影之间的相似度MovieSim ,然后与设定的阈值Sim0 比较。若 ,则认为这两
部电影的信息是需要做融合处理的;否则不作处理。
2.2 算法思
原创力文档

文档评论(0)