- 1、本文档共67页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硕士论文 基于文本的Web图片搜索引擎的研究
硕士研究生学位论文
题目:基于文本的Web图片搜索引擎的研究
摘 要
本文研究工作是针对Web图片搜索引擎的应用背景,以构建大型Web图片搜索引擎为目标,提出基于文本检索方式的Web图片搜索引擎设计方案。
文中介绍和研究了一系列与Web图片搜索引擎相关的技术,包括网页抓取、相关性排序(VSM和LSI)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。
本文重点地研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上,提出了若干关键技术,用于系统的设计,现归纳如下:
本文提出的方法通过细致地分析HTML文件的img标记、a标记、网页标题、网页的超链接文本、图片URL、meta标记、关联的a和img结构、table结构、图片周围文本等部分的结构特点,并利用真实数据进行实验验证,总结了9条提取模式,用于从这些结构中提取与图片相关的信息,以保证提取到的信息相关性程度较高。研究了三种具体的提取方法:基于DOM的方法、基于字符串的方法和基于Wrapper的方法。
提出了过滤无用图片的方法,提高了系统中图片的可用度。该方法将图片文件大小小于某一阈值,图片的长或宽小于某一阈值,图片的长宽比例超过某一阈值以及同一网页内通过img引用次数超过某一阈值的图片作为无用图片剔除。
通过统计分析总结出HTML文件中表现出的一些潜在规律,比如JPG和GIF的区别、a和img标记的不同意义以及图片引用次数的不同意义。得到如下结论:JPG重要性大于GIF;a标记来源图片的重要性大于img标记的图片;a引用次数越高的图片重要性越高,而img引用次数高的图片需要经过过滤才能保证重要性较高。
粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法,并通过简单实验进行了效果验证。
设计并实现了一个基于文本的Web图片搜索引擎,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。
关键词:Web图片搜索引擎 图像检索 基于文本 基于内容 信息提取
Abstract
In the thesis, we form a scheme to design a large-scale Web image search engine system using mainly text-based technology.
We introduce and research a series of techniques related to Web image search engine, such as crawling, relevance ranking (VSM and LSI), information extraction and indexing. Those techniques will be used in our system design.
We concentrate on how to extract information relevant to images from HTML documents more effectively and precisely. According to experiments and analysis on real data, we propose several key techniques as below for designing the system:
We analyze carefully the structure of HTML components including img tag, a tag, title of web page, anchor text of web page, URL of image, meta tag, table tag, surrounding text of img tag etc. And sum up nine extraction patterns to fetch information relevant to images. We also research three extracting methods: DOM based method, String based method and Wrapper based method.
We propose some methods to filter useless images according to file size, width and height of images an
文档评论(0)