多媒体搜索引擎搜索引擎介绍及其现状multimediasearchengine搜索引擎概念.pptVIP

多媒体搜索引擎搜索引擎介绍及其现状multimediasearchengine搜索引擎概念.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Multimedia Search Engine 多媒体搜索引擎 搜索引擎介绍及其现状 搜索引擎概念 信息管理的传统方式 树状目录 优点:简单,直观 缺点:管理困难,协作困难 ?需要“搜索” 根据一定线索查找需要的信息 “线索”:文件的部分内容 搜索引擎 根据内容管理信息的方式 搜索引擎概念 搜索引擎 扁平式信息管理:从“线索”直接到“信息” 为什么关注搜索引擎 直接原因:搜索引擎可以做很多事情 查找所需要的各种信息 论文、标准、软件、音乐、电影…… 企业运作 科学研究 学习进修 娱乐休闲 为什么关注搜索引擎 直接原因:搜索引擎可以做很多事情 查找所需要的各种信息 ?为什么需要查找? 我们不知道需要的东西在哪里 ?为什么我们不知道? 因为东西太多了 为什么关注搜索引擎 间接原因:信息爆炸 中文WEB:75TB左右 互联网(2002):520PB左右(1PB=1024TB) 浅层WEB: 167TB 深层WEB: 60-89PB E-mail: 430PB 即时消息: 274TB ?来自“How much information 2003” 比较: 常用磁盘: 80-500GB 常用盘阵:0.5-10TB 文件系统:4-32TB 数据中心:40-100TB 已实际安装的分布式文件系统:10-100TB 为什么关注搜索引擎 间接原因:信息爆炸 搜索引擎把海量信息有序地组织起来,提供方便的检索手段 允许人们找到需要的信息 终极原因:搜索引擎的重要性 控制了搜索引擎就控制了互联网 为什么关注搜索引擎 终极原因:搜索引擎的重要性 Google:$159B Intel: $119B Yahoo: $38B Microsoft:$262B Wal-mart: $199B 百度:$8.44B 新浪:$2.35B 搜狐:$1.79B 联想:$6.11B 来源:, 2008.2.21 为什么关注搜索引擎 搜索引擎现状 网页搜索:Google占有垄断地位 日搜索量 Google: 90M, MSN: 28M Yahoo: 60M, AOL: 16M, Ask: 13M, 其它:6M ?来源:,2006.7 多媒体搜索:技术尚不成熟 Google Image Youtube Flickr 为什么关注搜索引擎 发展策略 日本的发展策略 网页搜索:美国已经领先,放弃 多媒体搜索:尚可一争,大力支持 我们的发展策略 比美国做得更好! 现有搜索引擎仍然不完美 人才,市场 搜索引擎结构 最终目标:方便用户获取需要的信息 搜索引擎技术 数据获取与存储 数据获取:Spider, Crawler, Robot 如何并行下载? 哪些数据是新的,哪些是已有的? 新增加的页面 部分更新的页面 论坛、blog 现有搜索引擎 未见公开报道使用何种技术 主要是工程性问题 搜索引擎技术 数据获取与存储 数据存储 一致性:大规模并行访问不破坏数据 可靠性:硬件损坏不丢失数据 扩展性:总体性能与硬件成线性关系 分布式文件系统 Google:GFS Lustre 搜索引擎技术 理解 提取数据的语义 数学上如何表示语义? 如何把数据从原始形式转换成所需要的形式? 矢量模型 文字串切分成词 每个词作为一维,词的出现频率作为度量标准 机器学习技术 提取文档的特征并进行分类 搜索引擎技术 索引 找到与某个语义相关的文档 倒排文件 快速找到 B树,Hash表 更快 并行查找,限时合并 搜索引擎技术 输入 获取用户的需求 关键字检索 分类浏览 显示 组织相关信息输出给用户 相关项列表 重要性排序:PageRank 摘要 搜索引擎技术 尚存在的问题 输入:关键字检索并不方便 假设1:用户很清楚自己需要什么 可能例外:新闻检索,多媒体检索 假设2:用户有能力把需求转换成合适的关键字 大多数用户做得并不好 某些需求难以表示成文字,特别是多媒体检索中 假设3:系统有能力把文档转换成合适的关键字 多媒体文档:世界难题 文本文档:关键字也不一定是合适的语义 搜索引擎技术 尚存在的问题 理解:计算机并不真正理解文档的内容 多媒体文档 只能理解很小一部分语义 文本文档 去除垃圾内容(广告、目录等) 提取结构化信息 信息之间的关联 搜索引擎技术 尚存在的问题 显示 综合信息提取与表示 海量信息表示 直观方便浏览 …… 我们仍然有机会! 课程内容简介 传统搜索引擎技术 倒排文件,B树,Hash表, 布尔检索,PageRank …… 新型搜索引擎技术 智能信息提取 可视化及可视化分析 …… 课程内容简介 多媒体文档理解技术 特征提取 机器学习 …… 多媒体搜索引擎特有技术 多媒体输入,多媒体摘要 多媒体文档排序与推荐 …… * * Multimedia Search Engine

您可能关注的文档

文档评论(0)

189****0315 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档