数字媒体技术概论 12媒体传输与管理.ppt

数字媒体技术概论 12媒体传输与管理.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
媒体分析与检索 媒体检索方面存在的挑战 不能直接进行基于文本的查询和检索; 怎样分析或描述媒体(图像/视频/音频)内容和语义; 如何索引图像/视频/音频; 快速检索处理和准确的检索结果; Video segments Still regions Audio segments Moving regions 第二十六页,共六十五页。 * 搜索引擎概念 信息管理的传统方式 树状目录 优点:简单,直观 缺点:管理困难,协作困难 ?需要“搜索” 根据一定线索查找需要的信息 “线索”:文件的部分内容 搜索引擎 根据内容管理信息的方式 第二十七页,共六十五页。 * 搜索引擎概念 搜索引擎 扁平式信息管理:从“线索”直接到“信息” 北京 芙蓉姐姐 美眉 流得滑 …… …… 第二十八页,共六十五页。 * 为什么关注搜索引擎 直接原因:搜索引擎可以做很多事情 查找所需要的各种信息 论文、标准、软件、音乐、电影…… 企业运作 科学研究 学习进修 娱乐休闲 第二十九页,共六十五页。 * 为什么关注搜索引擎 直接原因:搜索引擎可以做很多事情 查找所需要的各种信息 ?为什么需要查找? 我们不知道需要的东西在哪里 ?为什么我们不知道? 因为东西太多了 第三十页,共六十五页。 * 为什么关注搜索引擎 间接原因:信息爆炸 中文WEB:75TB左右 互联网(2002):520PB左右(1PB=1024TB) 浅层WEB: 167TB 深层WEB: 60-89PB E-mail: 430PB 即时消息: 274TB ?来自“How much information 2003” 比较: 常用磁盘: 80-500GB 常用盘阵:0.5-10TB 文件系统:4-32TB 数据中心:40-100TB 已实际安装的分布式文件系统:10-100TB 第三十一页,共六十五页。 * 为什么关注搜索引擎 间接原因:信息爆炸 搜索引擎把海量信息有序地组织起来,提供方便的检索手段 允许人们找到需要的信息 终极原因:搜索引擎的重要性 控制了搜索引擎就控制了互联网 第三十二页,共六十五页。 * 为什么关注搜索引擎 终极原因:搜索引擎的重要性 Google:$159B Intel: $119B Yahoo: $38B Microsoft:$262B Wal-mart: $199B 百度:$8.44B 新浪:$2.35B 搜狐:$1.79B 联想:$6.11B 来源:, 2008.2.21 第三十三页,共六十五页。 * 为什么关注搜索引擎 搜索引擎现状 网页搜索:Google占有垄断地位 日搜索量 Google: 90M, MSN: 28M Yahoo: 60M, AOL: 16M, Ask: 13M, 其它:6M ?来源:,2006.7 多媒体搜索:技术尚不成熟 Google Image Youtube Flickr 第三十四页,共六十五页。 * 为什么关注搜索引擎 发展策略 日本的发展策略 网页搜索:美国已经领先,放弃 多媒体搜索:尚可一争,大力支持 我们的发展策略 比美国做得更好! 现有搜索引擎仍然不完美 人才,市场 第三十五页,共六十五页。 * 搜索引擎结构 最终目标:方便用户获取需要的信息 信息 1. 获取/存储 2. 理解 3. 索引 4. 输入 5. 显示 第三十六页,共六十五页。 * 搜索引擎技术 数据获取与存储 数据获取:Spider, Crawler, Robot 如何并行下载? 哪些数据是新的,哪些是已有的? 新增加的页面 部分更新的页面 论坛、blog 现有搜索引擎 未见公开报道使用何种技术 主要是工程性问题 第三十七页,共六十五页。 * 搜索引擎技术 数据获取与存储 数据存储 一致性:大规模并行访问不破坏数据 可靠性:硬件损坏不丢失数据 扩展性:总体性能与硬件成线性关系 分布式文件系统 Google:GFS Lustre 第三十八页,共六十五页。 * 搜索引擎技术 理解 提取数据的语义 数学上如何表示语义? 如何把数据从原始形式转换成所需要的形式? 矢量模型 文字串切分成词 每个词作为一维,词的出现频率作为度量标准 机器学习技术 提取文档的特征并进行分类 第三十九页,共六十五页。 * 搜索引擎技术 索引 找到与某个语义相关的文档 倒排文件 快速找到 B树,Hash表 更快 并行查找,限时合并 第四十页,共六十五页。 * 搜索引擎技术 输入 获取用户的需求 关键字检索 分类浏览 显示 组织相关信息输出给用户 相关项列表 重要性排序:PageRank 摘要 第四十一页,共六十五页。 * 搜索引擎技术 尚存在的问题 输入:关键字检索并不方便 假设1:用户很清楚自己需要什么 可能例外:新闻检索,多媒体检索 假设2:用户有能力把需求转换成合适的

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档