- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
图片搜索引擎优化设计——基于文本的图片信息提取大纲图片检索技术简介 我们设计的系统总体结构 图片文字信息提取 无用图片过滤 一些统计规律 结合文本与内容的方法(后期打算)图片检索技术分类基于文本利用某种提取方法获得与图片内容相关的文本信息, 利用传统文本检索方法提供检索.基于内容提取图片中的可视化特征,比如颜色,形状,纹理 等,对特征建索引,提供相似查询.基于语义理解可是特征的语义信息,可以利用文字查询可视 特征.基于文本优点符合用户查询习惯(关键字查询) 适合复杂语义查询(比如查奥运会) 利用已有的技术积累(文本检索) 性能好缺点提取的信息不够准确 文字描述不能保证全面性 不能基于内容相似查询基于内容优点可以查询相似图片 对图片来源要求低(不需要额外文字信息)缺点技术不成熟 效率低 复杂语义无法表示基于语义通过理解图片中的可视特征来建立低层 特征到高层语义的映射(比如:能够理 解大海是蓝色的) .符合人类理解图片 的自然方式. 开始大量的研究,在未来会有很大的发 展.我们的选择——基于文字理由目前的大型图片搜索引擎基本上都是以基于 文字的检索为主体. 性能良好 已有大量的网页资源可供使用. 开发周期较短.我们设计的系统的结构处理用户查询请 求和结果显示 提供检索功能Index Data Build index(核心)提取 图片相关的文 字信息search Searcher Web server/ UI Get thumbnail Image thumbnail repositoryInternetExtractorWeb pagescrawlUserSpiderImages负责抓取网页 和图片生成和存放图 片缩略图系统工作过程1. 2. 3. 4. 5.抓取网页和图片 从网页中提取图片相关的文字信息 利用图片生成缩略图 对提取到的文字信息建倒排索引 提供查询核心——图片信息提取 (Extractor)信息来源HTML文档用于组织文字和图片等 通过分析HTML文档找到图片和相关的文字提取方法不能确知网页作者组织信息的方法,所以利 用启发式规则 将最可能与某图片相关的位置的文字作为图 片的文字描述信息常用提取模式img标记从src获取图片来源 从alt获取相关文字信息(注意可能为文件名) 获得width和height,用于以后的过滤常用提取模式(续)a标记从href获得URL,判断是否为图片(简单的 根据扩展名,不处理动态内容) 从title获得相关文字信息 从anchor_text获得图片的文字信息(通常最 准确)常用提取模式(续)网页的标题图片与所在网页相关,因此和网页的标题相 关 提取title下的文字.有时title下还会嵌 套标记,需要去除.有时title使用缺省的 名字(比如new page或者Untitled Document),需要过滤常用提取模式(续) 链接到图片所在网页的文本和网页的标题一样,这是对网页的描述,所 以Some_info可能和xxx.jpg相关 需要跨页面的信息提取a.htmla href=a.htmSome_info/a xxx.jpg常用提取模式网页的meta标记也是对网页内容的描述 可以提取其中的keywords和description的值常用提取模式图片的URL图片的URL可能含有相关信息(path和 file_name) 判断path和file_name是否为中文,或者为 英文单词,是则可能有意义 不考虑站点的domain_name,太泛常用提取模式关联的a和img嵌套a href=foo.htmlimg src=xxx.jpg/a则xxx.jpg和foo.html的内容相关,可以使用 xxx.jpg foo.html foo.html的标题作为文字信息并列a href=fooanchor_text/a…… a href=fooimg src=xxx.jpg/a则xxx.jpg和anchor_text相关,可以用anchor_text 作为文字信息常用提取模式table结构组织结果比较多样化相关的文字和图片放到同一个td中; 相关的文字和图片放在同一个tr下的两个td里; 相关的文字和图片放在两个相邻的tr内; 以某种其他的规律出现在table里提取时需要判断使用的是哪一种组织方式常用提取模式图片周围文字比较难于界定周围的含义. 基于流的方式,图片所在HTML流中位置前 后一段固定的距离Hello, worldimg src=xxx.jpg你好,世界常用提取模式图片周围文字基于DOM的方式与图片具有共同最低祖先的
文档评论(0)