040521基于文本的web图片搜索引擎的研究 - 北京大学网络与信息 .doc

040521基于文本的web图片搜索引擎的研究 - 北京大学网络与信息 .doc

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
040521基于文本的web图片搜索引擎的研究 - 北京大学网络与信息

硕士研究生学位论文 题目:基于文本的Web图片搜索引擎的研究 姓 名: 王鹏云 学 号: 系 别: 计算机科学技术系 专 业: 计算机应用 研究方向: 网络与通讯 导 师: 宋再生 教授 二零零四年五月 版 权 声 明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘 要 本文研究工作是针对Web图片搜索引擎应用背景,以构建Web图片搜索引擎为目标,地研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索在真实数据实验和分析的基础上提出了若干关键技术,, 本文提出的方法通过分析验证与图片相关的信息提高图片的通过统计总结HTML文件中表现出的一些潜在规律LSI算法应用于图片搜索引擎来整合文字和内容信息的方法,并通过简单实验进行了效果验证。设计了一个Web图片搜索引擎。 Abstract In the thesis, we form a scheme to design a large-scale Web image search engine system using mainly text-based technology. We introduce and research a series of techniques related to Web image search engine, such as crawling, relevance ranking (VSM and LSI), information extraction and indexing. Those techniques will be used in our system design. We concentrate on how to extract information relevant to images from HTML documents more effectively and precisely. According to experiments and analysis on real data, we propose several key techniques as below for designing the system: We analyze carefully the structure of HTML components including img tag, a tag, title of web page, anchor text of web page, URL of image, meta tag, table tag, surrounding text of img tag etc. And sum up nine extraction patterns to fetch information relevant to images. We also research three extracting methods: DOM based method, String based method and Wrapper based method. We propose some methods to filter useless images according to file size, width and height of images and referred count of images by img tags. Through statistics of mass of HTML documents, We conclude some latent rules, such as the difference between JPG and GIF, the difference between a tag and img tag, the difference between different referred count of images. We Simply research the application method of LSI to integrate high-level and low-level information of images. We design and implement a text-based Web

文档评论(0)

yanpizhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档