中文图像文档高过滤中的关键技术研究.pdfVIP

中文图像文档高过滤中的关键技术研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文图像文档高过滤中的关键技术研究

中文图像文档高速过滤中的关键技术研究 摘要 图像文档(Document Image)是指以图像的方式保存的文本信息, 通常由扫描的方式或者通过软件把纯文本转换为图像获得。可包括各 文件CCITT 的激增,图像文档已经是无处不在,但互连网上众多图像文档却不能 直接利用现有的文本过滤技术。传统OCR方法首先把图像文档转换成 文本文件,再利用现有的文本过滤技术分析处理。由于目前OCR技术 存在处理时间长,误识率高等缺点面不适合对动态信息进行处理。图 像文档过滤已成为互连网信息安全的瓶颈和死角,也成为一些别有用 心之人躲避网络实时监控的方便之门。巨大的应用需求追切需要一套 适合中文图像文档过滤的理论和方法。 由于汉字较英文字母结构更加复杂,字符数量庞大,词与词之间 没有自然间隔,中文图像文档过滤有自己的特点,并不能完全照搬英 文图像文档过滤的方法。图像文档过滤系统有两个重要的特征:第一, 它需要实时的处理网络数据流,在高速网络环境下,对文档内容的分 析要求有非常高的实时要求。第二,它需要尽可能早地发现匹配的规 则,一旦发现满足任何一条规则,则可以立即终止内容分析,这与一 般信息过滤中需要对整个文档全部处理后再执行判断是不同的。目前 图像文档过滤广泛使用的方法是关键词搜索。本文的主要成果包括: (I)提出了一种多模板匹配结合可信度分析的中文图像文档过滤方 法,克服了传统OCR速度慢的缺点,同时改善了基于图像特征匹 配方法对字体和噪音敏感的特性。通过粗特征和细特征两阶段过 滤,在提高速度的同时,保证了识别的准确度。采用wM字符串匹 配方法,减少了特征抽取的次数,有效的减小了计算量,加快了 关键词识别速度。可信度分析提高了识别的正确率。处理速度的 提升,为过滤系统的实用化创造了条件。 (2)过滤系统的关键词提前设置,在一段时间内不会更改,关键词的 数量也比较大。充分利用这些已知信息,可以加快在线实时处理 速度。借鉴语音关键词识别,提出了图像文档关键词垃圾模型。 首先通过动态聚类方法将3755个常用汉字按特征相似度分成不 同的类,并抽取各类的平均特征作为类特征。含有关键字的类称 为关键字类,不含关键字的类称为垃圾类。当对待检字进行判定 时,通过粗特征计算待检字与各类的距离尺度,用以判别待检字 的归属类。若待检字属于关键字类,则进~步用细特征对关键字 及其相似字进行类内确认。否则待检字属于垃圾类,不再进行处 理。此方法解决了直接匹配判别条件及可信度分析所存在的问题, 提高了识别准确度。 (3)基于字符串相似匹配算法提出了一种新的词匹配的关键词过滤方 法。由于质量低下的图像文档可能造成切分错误,使以字为单位 的关键词搜索方法无法正确地识别出来。以词为单位可以减少切 分错误带来的影响,模糊字符匹配方法使这种设想成为可能。该 方法通过提取整词简单图像特征与模板相似匹配比较作为确认是 否为关键词的手段,可以解决字符切分可能带来的误差等棘手问 题。 (4)提出了一种基于隐性语义索引和线性判别分析的文档倾向性判别 方法。由于Fh-Vll练数据生成的词一文档矩阵维数很高,直接应用线 性判别分析计算量十分巨大。隐性语义索引是将多维特征映射成 低维特征的一种方法,能最低限度地减少信息的丢失。但是隐性 语义索引所提取的特征并不是最优分类特征。而在隐性语义索引 之后进行性判别分析既可以有效降维,又可提高分类精度。对图 像文档过滤关键词自动选择有重要意义。 关键词:图像文档模板匹配垃圾模型模糊字符串匹配潜语义索弓 线一fC--.N断分析 II RESEARCHoN KEYTECHNOLoGIESoFHIGH。SPEEDCHINESE DoCUMENTIⅣ【AGEFlLTERING ABSTRACT all text isthe A is wherecontentdomin

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档