- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于概念网媒体大数据分析和结构化描述方法
基于概念网媒体大数据分析和结构化描述方法
摘要:提出基于概念网的媒体大数据结构化描述和分析的技术框架,该框架可以针对不同的数据获取来源,通过层次式多角度概念描述模型融合数据的视觉特征、实例和概念关联的语义,并提出面向单一媒体和多媒体文档的跨媒体概念提取及基于结构的语义对齐方法,从而有效支持媒体大数据的语义关联分析及多领域的智能应用。
关键词:概念网;媒体大数据分析;概念抽取;结构化描述;可视化
Abstract:In this paper, we propose that a topic network-based enabling technology framework for big media analysis and structural description. And it proposes a hierarchical concept description model with multiple perspectives for different sources data to integrating semantic of visual, instance and concept correlation. And cross-media concept extraction method for single media and multimedia document and their structure-based semantic alignment method are also proposed, which can efficiently support the big media analysis and smart application in many domain.
Key words:topic network; big media analysis; concept extraction; structural description; visualization
随着互联网的普及和迅速发展,各类在线社交网络(如Facebook、Twitter、新浪微博、腾讯网等)的飞速发展,网络数据资源越来越多样化,并呈爆炸式增长。这种大数据的势态引发了多行业、多领域的时代性变革。大数据思想的重要在于[1]:人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。目前,在互联网中,大量文本、图像、音频、视频等媒体大数据迅速增长,其中蕴含了很多人类社会活动的基本规律,公共卫生、商业乃至思维模式因此酝酿着重大的机会和挑战。基于大数据的研究逐渐成为各国政府重点发展的国家战略,及时、准确地获取并理解这些数据及其关系不仅仅可以为政府在社会生活、金融服务、医疗卫生等方面发现和处理民生问题,辅助政府决策,同时也为互联网经济的发展提供有效的客户和经济规律的知识辅助,提供商业智能决策支持。
尽管媒体大数据成长迅速,应用广泛,但其数据量大、种类繁杂、价值密度低以及时时刻刻不断变化的特点,使得存储、统计、分类以及调用都非常困难[2],其价值远没有得到充分的利用和开发。而人工智能领域的一些理论和比较实用的方法,已经开始用于大数据分析方面,推动两个领域技术和应用融合的加速,但依然只是初期。目前谷歌、百度等通用的搜索引擎提供了基于文本描述的多媒体的检索机制,但对于大数据背景下的多种媒体数据来说,还缺乏准确文本描述,需要不同的算法分析、理解其内容的语义,实现相应的文本描述,从而为搜索引擎所用。另外,媒体数据间的异构性特点,使得当前单一媒体的搜索引擎无法有效支持大数据条件下异构媒体间的数据语义关联检索。因此,从媒体大数据智能应用的角度来看,其表示、理解及检索是重要的环节,而根据异构媒体间语义关系实现媒体大数据的智能的模式发现是解决这些问题的关键点。
1 媒体大数据分析和描述的关键问题
根据媒体大数据深度分析的目标,以及其支撑媒体搜索引擎、媒体消费和关联分析的需求,尽管当前异构媒体的关联和分析技术有一些相关研究,但有些关键问题还没有得到解决,包括:
(1)媒体数据标注的不确定性及歧义性
除了大数据的4个V(Volumn、Variety、Velocity、Value)之外,为充分利用大数据蕴含的知识信息,一个重要的问题是解决媒体数据标注的不确定性、歧义性,这种不确定的标签数据包括:
粗糙标注,例如图片中对象是在图片层次上给出的,而忽略了其区域性的语义;
抽象标注,指标签只从高层语义角度给出,缺乏具体语义关联;
无关标注,指标注和图像语义并无关联;
噪声标注,指错误的标注。
这些标签数据将误导数据驱动的机器
文档评论(0)