搜索引擎优化图片的设计的技巧.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
图片搜索引擎优化设计 ——基于文本的图片信息提取 大纲 图片检索技术简介 我们设计的系统总体结构 图片文字信息提取 无用图片过滤 一些统计规律 结合文本与内容的方法(后期打算) 图片检索技术分类 基于文本 利用某种提取方法获得与图片内容相关的文本信息, 利用传统文本检索方法提供检索. 基于内容 提取图片中的可视化特征,比如颜色,形状,纹理 等,对特征建索引,提供相似查询. 基于语义 理解可是特征的语义信息,可以利用文字查询可视 特征. 基于文本 优点 符合用户查询习惯(关键字查询) 适合复杂语义查询(比如查奥运会) 利用已有的技术积累(文本检索) 性能好 缺点 提取的信息不够准确 文字描述不能保证全面性 不能基于内容相似查询 基于内容 优点 可以查询相似图片 对图片来源要求低(不需要额外文字信息) 缺点 技术不成熟 效率低 复杂语义无法表示 基于语义 通过理解图片中的可视特征来建立低层 特征到高层语义的映射(比如:能够理 解大海是蓝色的) .符合人类理解图片 的自然方式. 开始大量的研究,在未来会有很大的发 展. 我们的选择——基于文字 理由 目前的大型图片搜索引擎基本上都是以基于 文字的检索为主体. 性能良好 已有大量的网页资源可供使用. 开发周期较短. 我们设计的系统的结构 处理用户查询请 求和结果显示 提供检索功能 Index Data Build index (核心)提取 图片相关的文 字信息 search Searcher Web server/ UI Get thumbnail Image thumbnail repository Internet Extractor Web pages crawl User Spider Images 负责抓取网页 和图片 生成和存放图 片缩略图 系统工作过程 1. 2. 3. 4. 5. 抓取网页和图片 从网页中提取图片相关的文字信息 利用图片生成缩略图 对提取到的文字信息建倒排索引 提供查询 核心——图片信息提取 (Extractor) 信息来源 HTML文档用于组织文字和图片等 通过分析HTML文档找到图片和相关的文字 提取方法 不能确知网页作者组织信息的方法,所以利 用启发式规则 将最可能与某图片相关的位置的文字作为图 片的文字描述信息 常用提取模式 img标记 从src获取图片来源 从alt获取相关文字信息(注意可能为文件名) 获得width和height,用于以后的过滤 常用提取模式(续) a标记 从href获得URL,判断是否为图片(简单的 根据扩展名,不处理动态内容) 从title获得相关文字信息 从anchor_text获得图片的文字信息(通常最 准确) 常用提取模式(续) 网页的标题 图片与所在网页相关,因此和网页的标题相 关 提取title下的文字.有时title下还会嵌 套标记,需要去除.有时title使用缺省的 名字(比如new page或者Untitled Document),需要过滤 常用提取模式(续) 链接到图片所在网页的文本 和网页的标题一样,这是对网页的描述,所 以Some_info可能和xxx.jpg相关 需要跨页面的信息提取 a.html a href=a.htmSome_info/a xxx.jpg 常用提取模式 网页的meta标记 也是对网页内容的描述 可以提取其中的keywords和description的值 常用提取模式 图片的URL 图片的URL可能含有相关信息(path和 file_name) 判断path和file_name是否为中文,或者为 英文单词,是则可能有意义 不考虑站点的domain_name,太泛 常用提取模式 关联的a和img 嵌套 a href=foo.htmlimg src=xxx.jpg/a 则xxx.jpg和foo.html的内容相关,可以使用 xxx.jpg foo.html foo.html的标题作为文字信息 并列 a href=fooanchor_text/a…… a href=fooimg src=xxx.jpg/a 则xxx.jpg和anchor_text相关,可以用anchor_text 作为文字信息 常用提取模式 table结构 组织结果比较多样化 相关的文字和图片放到同一个td中; 相关的文字和图片放在同一个tr下的两个td里; 相关的文字和图片放在两个相邻的tr内; 以某种其他的规律出现在table里 提取时需要判断使用的是哪一种组织方式 常用提取模式 图片周围文字 比较难于界定周围的含义. 基于流的方式,图片所在HTML流中位置前 后一段固定的距离 Hello, worldimg src=xxx.jpg你好,世界 常用提取模式 图片周围文字 基于DOM的方式 与图片具有共同最低祖先的

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档