谷歌报纸搜索.docVIP

下载本文档

2
0
约3.34千字
约 6页
2017-05-11 发布于浙江
举报
版权申诉

谷歌报纸搜索.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

谷歌报纸搜索

谷歌报纸搜索- 图像处理和分析管道摘要该谷歌报纸搜索计划于2008年9月8日推出。在本文中，我们概述了这个大复杂的项目的技术基础。我们创建了一个输入报纸缩微胶卷输出个人新闻文章的并发生产管线。这些文章作为索引后增加到内容数据库，让他们对应谷歌搜索结果。因此，谷歌回应查询“希特勒死亡“，能够显示报纸文章在当天所有报道.. 微缩胶卷因为非均匀照明，存在显着噪音、泪水和划痕，造成这个项目的所有特殊挑战。版面显著变异跨越报纸和时代，发生在一个单页字体大小的变化（混淆了OCR引擎）增加困难。最初的推出后该项目还在进行（约1500万新闻文章）。 1.引言谷歌报业数字化，索引和搜索计划是一个雄心勃勃的尝试联机报道在其发生时间人类历史的重要部分。开始存档缩微胶片对应过去报纸版本，生成的HTML新闻文章是随后的搜索和检索的索引。在此背景下，值得注意的是，从报纸页面存档图像建立可搜寻的索引，它不能简单地做整个页面的OCR和转储在该指数所产生的词汇。报纸上发现纯粹的各种词和主题一会混淆任何系统的排名或集群。相反，部分页面进入独立新闻文章和治疗这些物品作为个别项目索引是可取的（如相对于整个页面）。因此，信息分割、从网页图片提取个人信息，是本论文的一个重要主题。另一个同样重要的议题是绑定，这是从一个同一天的所有报纸（版）收集网页的过程。绑定允许我们来标记每个新闻文章和它的出版日期。笔者想借此机会感谢Dan Bloomberg、 Adam Langley、 Ray Smith 和Luc Vincent的建议和支持。本文的其余部分组织如下：第2节讨论相关工作，第3节概述算法和系统，第4节演示结果。 2.相关工作 Baird开发一个白空间用矩形贪婪地覆盖到所有孤立文本块的系统。同他一样，我们也有格言“背景比前景更简单”，“白色空间布局分隔符“（我们还可以添加长垂直和水平线条的布局名单分隔符）。 Breuel[5]也提出方法为覆盖文件的背景中的空白条款的最大空矩形。我们的方法然而，这并不取决于矩形涵盖白色的空间。由于噪声和非均匀光照强度对报纸上的图片，白色空间检测通常是不完善和矩形覆盖基础的方法失败。2003年，2005年，2007年ICDAR举行的页面分割竞争[10]，[15]，[16]。显着根据参赛作品有段位制的分类[11]，连接系统和基于组件的奥西基于形态学三军情报局的系统[12]。Antonocopoulos开发的背景说明基于页面分割方法[17]。我们一直所有这些系统的启发。最后，Leptonica项目使用的是核心图像处理库。 3.算法和系统说明图1显示的是系统整体结构。输入系统的是微缩胶卷。通过扫描，我们通常得到一个月中按日期排序的报纸的一个广泛的图像。图1中显示图像在后端管道处理。图1 系统架构详细信息在下面的章节中显示。 3.1页面分割这个模块从对应于整个微缩胶卷的宽图中提取个别页面。宽图中报纸页面被暗带（亮背景下的暗前景）隔开。因此，我们的页面分割基本上识别宽图中背景颜色上的连接部件。然后消除那些太小的组件，其余的组件就组成了页面。一旦页面被提取后就只用管道协议处理页面。 3.2翻转矫正微缩摄影过程中报纸页面能够且确实得到翻转（横向反演，180度或90度旋转）。我们有一个自动系统来解决这一问题，事实上只有使用正确的方向才能从OCR中得到有效地字典。由于OCR比较昂贵，我们利用报纸快通常有统一的宽度（达到一定模糊因素）这一事实分割搜索空间。因此，我们做粗糙的快速的区块分割（标识前台文本块）并计算出宽度直方图。如果直方图缺乏尖锋，我们就将页面图像旋转90度。随后我们不需要探讨正交(横向)方向。即使在直立方向，OCR最高的直方图高峰也只有三个块，且最有可能是文本块。 3.3绑定绑定是指将报纸页面属于同一日期（又名同一版）收集起来的过程。现在，在一个典型缩影，从一个给定的版本连续和顺序出现的页。因此，如果我们确定缩微胶卷中的所有头版头条，有效地结合降低从每一个头版收集在一起，但在页面中不包括该的下一步。因此，在结合的核心任务是头版鉴定。为此，我们从每一个缩微胶卷的页面图像建立一个手动样本/模板。其他的头版和此模板匹配。匹配的是在混乱的环境通过技术为对象检测。在所有的给出的报纸的前页，报纸的标题（例如“华尔街日报”程式化的标题）和一些可能会出现独特的标志。这些都是我们试图在混乱的对象（一切在头版是杂波）中识别的对象。在每个缩微胶片，一个模板头版手动标识出来。其余的头版进行比对。对象识别的2个步骤： 1.特征检测及说明：特征用图像的Gabor小波卷积检测其中响应的振幅产量构成描述向量。 2.识别极大集的一致特征匹配：最大集的一致性匹配通过RANSAC（随机抽样共识）算法（如果用同一仿射转变的特征是一致的）。