- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[工学]Web图片搜索引擎设计
Web图片搜索引擎设计 ——基于文本的图片信息提取 大纲 图片检索技术简介 我们设计的系统总体结构 图片文字信息提取 无用图片过滤 一些统计规律 结合文本与内容的方法(后期打算) 图片检索技术分类 基于文本 利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。 基于内容 提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。 基于语义 理解可是特征的语义信息,可以利用文字查询可视特征。 基于文本 优点 符合用户查询习惯(关键字查询) 适合复杂语义查询(比如查“奥运会”) 利用已有的技术积累(文本检索) 性能好 缺点 提取的信息不够准确 文字描述不能保证全面性 不能基于内容相似查询 基于内容 优点 可以查询相似图片 对图片来源要求低(不需要额外文字信息) 缺点 技术不成熟 效率低 复杂语义无法表示 基于语义 通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的) 。符合人类理解图片的自然方式。 开始大量的研究,在未来会有很大的发展。 我们的选择——基于文字 理由 目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。 性能良好 已有大量的网页资源可供使用。 开发周期较短。 我们设计的系统的结构 系统工作过程 抓取网页和图片 从网页中提取图片相关的文字信息 利用图片生成缩略图 对提取到的文字信息建倒排索引 提供查询 核心——图片信息提取(Extractor) 信息来源 HTML文档用于组织文字和图片等 通过分析HTML文档找到图片和相关的文字 提取方法 不能确知网页作者组织信息的方法,所以利用启发式规则 将最可能与某图片相关的位置的文字作为图片的文字描述信息 常用提取模式 img标记 从src获取图片来源 从alt获取相关文字信息(注意可能为文件名) 获得width和height,用于以后的过滤 常用提取模式(续) a标记 从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容) 从title获得相关文字信息 从anchor_text获得图片的文字信息(通常最准确) 常用提取模式(续) 网页的标题 图片与所在网页相关,因此和网页的标题相关 提取title下的文字。有时title下还会嵌套标记,需要去除。有时title使用缺省的名字(比如new page或者Untitled Document),需要过滤 常用提取模式(续) 链接到图片所在网页的文本 和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关 需要跨页面的信息提取 常用提取模式(续) 网页的meta标记 也是对网页内容的描述 可以提取其中的keywords和description的值 常用提取模式(续) 图片的URL 图片的URL可能含有相关信息(path和file_name) 判断path和file_name是否为中文,或者为英文单词,是则可能有意义 不考虑站点的domain_name,太泛 常用提取模式(续) 关联的a和img 嵌套 a href=”foo.html”img src=”xxx.jpg”/a 则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息 并列 a href=”foo”anchor_text/a…… a href=”foo”img src=”xxx.jpg”/a 则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息 常用提取模式(续) table结构 组织结果比较多样化 相关的文字和图片放到同一个td中; 相关的文字和图片放在同一个tr下的两个td里; 相关的文字和图片放在两个相邻的tr内; 以某种其他的规律出现在table里 提取时需要判断使用的是哪一种组织方式 常用提取模式(续) 图片周围文字 比较难于界定“周围”的含义。 基于流的方式,图片所在HTML流中位置前后一段固定的距离 常用提取模式(续) 图片周围文字(续) 基于DOM的方式 与图片具有共同最低祖先的文字节点 目前系统中使用的模式 img标记信息 a标记信息 网页标题 图片的URL table结构 图片周围文字(DOM) 信息提取方法 基于DOM的方法 将HTML文档解析为DOM树,遍历所有的节点,利用DOM接口的方法获取相关信息。 优点 实现简单,有开放的DOM解析工具可用(HTMLTidy) 利用部分结构信息,提取信息准确度稍高 缺点 需要解析DOM,效率较低 信息提取方法(续) 基于流的方法 直接通过字符串查找来定位所要提取的信息 优点 只关注几个tag,不需要解析DOM,速度快 缺点 不太注重结构信息,准确性不如DOM方式高 信息提取方法(续) 基于wrapper的方法 利用
您可能关注的文档
最近下载
- 2024-2025学年广东省深圳中学九年级(上)开学数学试卷(含详解).pdf VIP
- 《肝功能衰竭》课件课件-2024鲜版.ppt VIP
- 通桥(2014)2132-Ⅳ(跨度31.5m) (附条文及目录 ).pdf VIP
- 儿科学麻疹病例分析,病例导入法.docx VIP
- 燃煤锅炉超低排放治理工程项目实施方案(参考).docx
- 24012NDS00 NDS试验测试标准.doc VIP
- 2025年抗日战争胜利80周年公基常识题目20道及答案.docx
- Unit 3 Amazing animals 大单元整体教学设计 新人教PEP三年级英语上册.docx
- 复兴路加装电梯施工组织设计.doc VIP
- CJ/T 120-2016 给水涂塑复合钢管.pdf
文档评论(0)