[管理学]基于可视化分析的多媒体语义挖掘.ppt

[管理学]基于可视化分析的多媒体语义挖掘.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[管理学]基于可视化分析的多媒体语义挖掘

32 总结 理论基础 应用 计算架构 机器学习: CRF-SVM, McEM 语义提取: 语义实体关系模型 可视化推荐 ParaQueue云计算平台 33 34 请提问 1 基于可视化分析的多媒 体语义挖掘 2 研究动机 “数据灾难” 数据已经极大丰富 中文WEB:75TB;Internet: 520PB 哪篇是今天最有意义的新闻? 地质、海洋勘探数据很容超过1TB 哪里会发生地震、赤潮? 城市视频监控数据很容易超过1PB 哪个是犯罪现场? 但是我需要的在哪里? 3 研究动机 直接提取语义并进行筛选 使用复杂的算法,试图让计算机象人一样理 解原始数据的语义,并按照人的喜好和需求 进行过滤 终极解决方案,但难度极大 原始海量数据 语义提取 ?? 感兴趣度度量 ?? 4 研究动机 可视化及可视化分析技术 把原始数据变换成易于查看的图像、动画 通过视觉这个最高速的信息交互通道与人交流 很难找到好的数据变换公式 最好的变换是语义提取 原始海量数据 反馈 数据变换 研究动机 结合语义提取与可视化分析 提取较容易获得的初等语义,适当过滤 以适合可视化为目的 在初等语义上可视化,并提供反馈手段 可以反馈修改感兴趣度度量算法 原始海量数据 语义提取 感兴趣度度量 反馈 5 数据变换 6 研究动机 需要解决的问题 如何表示和提取适合可视化的语义? 语义模型及提取算法 如何过滤语义,获得用户感兴趣的部分? 感兴趣度度量算法 使用什么样的可视化技术? 不同领域的数据可能需要完全不同的算法 多媒体新闻分析与可视化 7 多媒体语义提取 传统方法 语义分类 由于存在语义鸿沟,极其困难 视觉词袋(Bag of Words)模型 把视觉特征聚类成码书,用码书项作为视觉关键 字,再使用文字检索类似的技术 码书项并不直接表示语义 适合于某些视觉检索 8 多媒体语义提取 语义实体-关系模型 以语义实体为节点、实体间的关系为边的图 结构 语义实体:具有固定语义的实体 根据需要,语义实体可能被表示成不同的文字、图像、 声音或视频 Barack Obama Barack H. Obama U.S. President Barack Obama Barack Hussein Obama II 奥巴马 巴拉克·奥巴马 Obama 巴拉克·侯赛因·奥巴马二世 奥巴马 温家宝 北京 G2 9 多媒体语义提取 语义实体关系模型例 10 多媒体语义提取 语义实体关系模型优点 保留更多信息 多媒体信息 关系信息 可表示一个文档集合的摘要 保留跨文档信息 大量成熟的图算法可以直接使用 如何提取? 11 多媒体语义提取 语义实体关系模型提取 第一步:跨媒体关联 把多媒体文档和文字内容进行关联 语义提取,OCR,ASR 虽然只能提取少量语义,但因为直接来自视觉信 息,仍然有很大帮助 视觉相似性聚类 元文字 文件名、链接文字、临近文字…… 12 美国在黄海军演要吓唬谁 多媒体语义提取 语义实体关系模型提取 第二步:文字实体提取 序列标注算法 (CRF, HMM) 新实体检测准确率较低 从来没有在训练集中遇到 在序列标注算法中集成统计特征 实体文字串的统计特征与非实体串显著不同 内部紧密,外部松散,头尾特别 美称黄海军演尚在计划 美航母赴黄海军演对中国来说到底是喜还是忧 美韩在黄海军演是个不智之举 13 多媒体语义提取 语义实体关系模型提取 第二步:文字实体提取 提取统计特征运算量很大 需要对大量数据进行统计 绝大多数文字串不是实体 6词窗口 人民日报:0.4% BNC XML:0.02% 14 多媒体语义提取 语义实体关系模型提取 第二步:文字实体提取 负样本过滤 绝大多数负样本对分类训练没有好处 有用负样本 无用负样本 15 多媒体语义提取 语义实体关系模型提取 第二步:文字实体提取 分步过滤 先使用计算量小的特征,用高召回率算法过滤去除 大部分负样本,后续步骤只处理过滤剩下的样本 IDF 过滤 Bl (s), Bm (s ), Br (s ) CRF Cl (s), Cr (s ) R(s ) 过滤 滤除的非实体 滤除的非实体 El (s), Er (s ) SVM 滤除的非实体 实体 滤除负样本(%) 滤除负样本(%) 16 多媒体语义提取 语义

文档评论(0)

jiupshaieuk12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档