- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文图像文档高过滤中的关键技术研究
中文图像文档高速过滤中的关键技术研究
摘要
图像文档(Document
Image)是指以图像的方式保存的文本信息,
通常由扫描的方式或者通过软件把纯文本转换为图像获得。可包括各
文件CCITT
的激增,图像文档已经是无处不在,但互连网上众多图像文档却不能
直接利用现有的文本过滤技术。传统OCR方法首先把图像文档转换成
文本文件,再利用现有的文本过滤技术分析处理。由于目前OCR技术
存在处理时间长,误识率高等缺点面不适合对动态信息进行处理。图
像文档过滤已成为互连网信息安全的瓶颈和死角,也成为一些别有用
心之人躲避网络实时监控的方便之门。巨大的应用需求追切需要一套
适合中文图像文档过滤的理论和方法。
由于汉字较英文字母结构更加复杂,字符数量庞大,词与词之间
没有自然间隔,中文图像文档过滤有自己的特点,并不能完全照搬英
文图像文档过滤的方法。图像文档过滤系统有两个重要的特征:第一,
它需要实时的处理网络数据流,在高速网络环境下,对文档内容的分
析要求有非常高的实时要求。第二,它需要尽可能早地发现匹配的规
则,一旦发现满足任何一条规则,则可以立即终止内容分析,这与一
般信息过滤中需要对整个文档全部处理后再执行判断是不同的。目前
图像文档过滤广泛使用的方法是关键词搜索。本文的主要成果包括:
(I)提出了一种多模板匹配结合可信度分析的中文图像文档过滤方
法,克服了传统OCR速度慢的缺点,同时改善了基于图像特征匹
配方法对字体和噪音敏感的特性。通过粗特征和细特征两阶段过
滤,在提高速度的同时,保证了识别的准确度。采用wM字符串匹
配方法,减少了特征抽取的次数,有效的减小了计算量,加快了
关键词识别速度。可信度分析提高了识别的正确率。处理速度的
提升,为过滤系统的实用化创造了条件。
(2)过滤系统的关键词提前设置,在一段时间内不会更改,关键词的
数量也比较大。充分利用这些已知信息,可以加快在线实时处理
速度。借鉴语音关键词识别,提出了图像文档关键词垃圾模型。
首先通过动态聚类方法将3755个常用汉字按特征相似度分成不
同的类,并抽取各类的平均特征作为类特征。含有关键字的类称
为关键字类,不含关键字的类称为垃圾类。当对待检字进行判定
时,通过粗特征计算待检字与各类的距离尺度,用以判别待检字
的归属类。若待检字属于关键字类,则进~步用细特征对关键字
及其相似字进行类内确认。否则待检字属于垃圾类,不再进行处
理。此方法解决了直接匹配判别条件及可信度分析所存在的问题,
提高了识别准确度。
(3)基于字符串相似匹配算法提出了一种新的词匹配的关键词过滤方
法。由于质量低下的图像文档可能造成切分错误,使以字为单位
的关键词搜索方法无法正确地识别出来。以词为单位可以减少切
分错误带来的影响,模糊字符匹配方法使这种设想成为可能。该
方法通过提取整词简单图像特征与模板相似匹配比较作为确认是
否为关键词的手段,可以解决字符切分可能带来的误差等棘手问
题。
(4)提出了一种基于隐性语义索引和线性判别分析的文档倾向性判别
方法。由于Fh-Vll练数据生成的词一文档矩阵维数很高,直接应用线
性判别分析计算量十分巨大。隐性语义索引是将多维特征映射成
低维特征的一种方法,能最低限度地减少信息的丢失。但是隐性
语义索引所提取的特征并不是最优分类特征。而在隐性语义索引
之后进行性判别分析既可以有效降维,又可提高分类精度。对图
像文档过滤关键词自动选择有重要意义。
关键词:图像文档模板匹配垃圾模型模糊字符串匹配潜语义索弓
线一fC--.N断分析
II
RESEARCHoN
KEYTECHNOLoGIESoFHIGH。SPEEDCHINESE
DoCUMENTIⅣ【AGEFlLTERING
ABSTRACT
all text isthe
A is wherecontentdomin
文档评论(0)