- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关键词提取技术在撒拉族文献数据库应用
关键词提取技术在撒拉族文献数据库应用
摘 要: 在文献管理和研究中经常会做关键词提取的工作,通过人工的方式进行提取过程繁杂,工程量极大,因此引入一种关键词欲提取的方式,其过程主要采用以下三个步骤:先通过OCR系统对图片进行识别、排错;再通过词频技术,来提取词频及关联性最高的关键词,将其作为备选关键词;然后通过人为阅读的方式,按照一定的关键词人工提取规则进行关键词的精确提取。结果表明,该方法取得了较好的效果。
关键词: 关键词提取; 撒拉; 词频; 引用度
中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2013)24?0005?03
Application of keyword extraction technology in Salar literature database
ZHAO Jian?fei, DUAN Xin?wen, AN Shou?chun
(Physics Department, Qinghai Normal University, Xinning 810008, China)
Abstract: The keyword extraction work is often done in the literature management. The artificial extraction may cause a complex process, and the work burden is heavy. A method of keyword pre?extraction is introduced, which is mainly divided into three steps: the image recognition and troubleshooting are conducted first by OCR system; the word frequency technology is used to extract the word frequency and highest relevance keywords as alternative keywords; and then through man?made reading manner, the accurate extraction of keywords is achieved in accordance with a certain keyword manual extraction rule.
Keywords: keyword extraction; Sarah; degree of word frequency; citation rate
0 引 言
随着我国信息化建设的全面开展,OCR文字识别技术诞生20余年来,经历从实验室技术到产品的转变,目前已经进入行业应用的成熟阶段。
文字这方面会涉及图形识别学——光学字符识别(Optical Character Recognition,OCR),目前像汉王、紫光、微软等都在这方面有专门的研究单位。OCR的步骤和过程算是集大成于一体,它会用到各种图形学中的方法来获得最高的正确率,OCR是不确定性科学,百分之百的识别正确率似乎只会存在于理论上。文字识别一般包括提前预处理、文字特征提取、数据库比对、后期处理等几个部分。
首先是提取前预处理,这个过程是将扫描仪、数码相机等工具将印刷品或手写品输入到电脑后,先采取一些通用的算法将这些得到的图像特征化,譬如先进行二值化或灰价化,图像的去噪和正规化及可能需要的影像矫正,还会有图文分析、字行间处理等,这个过程做的事可能最多最杂,但所用到的算法理论和技术方面都很成熟了。不过最后的文字的行间距处理就会有一些差异,有些软件可能只会简单的将文字一个个提取出来了事,完全不管之前的印刷格式,这就是一个简单的字行间距处理的实现。复杂的可能会得到印刷品的排版信息。
然后是文字特征提取,这是OCR的关键部分,用何种方法提取会直接影响到最终正确率。这方面的论文和学术报告也最多,但主要方法一般有两种:一是统计特征,如文字区域内的黑白点数比,当文字区分成好几个区域时,这一个个区域黑白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就可以应付了;另一类特征为结构的特征,如文字影像矢量化后,取得字的笔划端点、交点的数量及位置,或以笔划为特征,配合相应的比对方法比对,一般的手写输入软件的识别方法多为后者。
再就是数据库对比,不论采用上面的哪种方法进行的提取,都需要有一个对比数据库进行比对,比如常用的比对方法有松弛比对法、欧式空间比对法、
文档评论(0)