[工学]Web图片搜索引擎设计.pptVIP

下载本文档

0
0
约3.68千字
约 38页
2018-02-24 发布于浙江
举报
版权申诉

[工学]Web图片搜索引擎设计.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[工学]Web图片搜索引擎设计

Web图片搜索引擎设计 ——基于文本的图片信息提取大纲图片检索技术简介我们设计的系统总体结构图片文字信息提取无用图片过滤一些统计规律结合文本与内容的方法（后期打算）图片检索技术分类基于文本利用某种提取方法获得与图片内容相关的文本信息，利用传统文本检索方法提供检索。基于内容提取图片中的可视化特征，比如颜色，形状，纹理等，对特征建索引，提供相似查询。基于语义理解可是特征的语义信息，可以利用文字查询可视特征。基于文本优点符合用户查询习惯（关键字查询）适合复杂语义查询（比如查“奥运会”）利用已有的技术积累（文本检索）性能好缺点提取的信息不够准确文字描述不能保证全面性不能基于内容相似查询基于内容优点可以查询相似图片对图片来源要求低（不需要额外文字信息）缺点技术不成熟效率低复杂语义无法表示基于语义通过理解图片中的可视特征来建立低层特征到高层语义的映射（比如：能够理解大海是蓝色的）。符合人类理解图片的自然方式。开始大量的研究，在未来会有很大的发展。我们的选择——基于文字理由目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。性能良好已有大量的网页资源可供使用。开发周期较短。我们设计的系统的结构系统工作过程抓取网页和图片从网页中提取图片相关的文字信息利用图片生成缩略图对提取到的文字信息建倒排索引提供查询核心——图片信息提取（Extractor）信息来源 HTML文档用于组织文字和图片等通过分析HTML文档找到图片和相关的文字提取方法不能确知网页作者组织信息的方法，所以利用启发式规则将最可能与某图片相关的位置的文字作为图片的文字描述信息常用提取模式 img标记从src获取图片来源从alt获取相关文字信息（注意可能为文件名）获得width和height，用于以后的过滤常用提取模式（续） a标记从href获得URL，判断是否为图片（简单的根据扩展名，不处理动态内容）从title获得相关文字信息从anchor_text获得图片的文字信息（通常最准确）常用提取模式（续）网页的标题图片与所在网页相关，因此和网页的标题相关提取title下的文字。有时title下还会嵌套标记，需要去除。有时title使用缺省的名字（比如new page或者Untitled Document），需要过滤常用提取模式（续）链接到图片所在网页的文本和网页的标题一样，这是对网页的描述，所以Some_info可能和xxx.jpg相关需要跨页面的信息提取常用提取模式（续）网页的meta标记也是对网页内容的描述可以提取其中的keywords和description的值常用提取模式（续）图片的URL 图片的URL可能含有相关信息（path和file_name）判断path和file_name是否为中文，或者为英文单词，是则可能有意义不考虑站点的domain_name，太泛常用提取模式（续）关联的a和img 嵌套 a href=”foo.html”img src=”xxx.jpg”/a 则xxx.jpg和foo.html的内容相关，可以使用foo.html的标题作为文字信息并列 a href=”foo”anchor_text/a…… a href=”foo”img src=”xxx.jpg”/a 则xxx.jpg和anchor_text相关，可以用anchor_text作为文字信息常用提取模式（续） table结构组织结果比较多样化相关的文字和图片放到同一个td中；相关的文字和图片放在同一个tr下的两个td里；相关的文字和图片放在两个相邻的tr内；以某种其他的规律出现在table里提取时需要判断使用的是哪一种组织方式常用提取模式（续）图片周围文字比较难于界定“周围”的含义。基于流的方式，图片所在HTML流中位置前后一段固定的距离常用提取模式（续）图片周围文字（续）基于DOM的方式与图片具有共同最低祖先的文字节点目前系统中使用的模式 img标记信息 a标记信息网页标题图片的URL table结构图片周围文字（DOM）信息提取方法基于DOM的方法将HTML文档解析为DOM树，遍历所有的节点，利用DOM接口的方法获取相关信息。优点实现简单，有开放的DOM解析工具可用（HTMLTidy）利用部分结构信息，提取信息准确度稍高缺点需要解析DOM，效率较低信息提取方法（续）基于流的方法直接通过字符串查找来定位所要提取的信息优点只关注几个tag，不需要解析DOM，速度快缺点不太注重结构信息，准确性不如DOM方式高信息提取方法（续）基于wrapper的方法利用