关键词提取技术在撒拉族文献数据库应用.docVIP

下载本文档

4
0
约3.98千字
约 9页
2018-06-23 发布于福建
举报
版权申诉

关键词提取技术在撒拉族文献数据库应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关键词提取技术在撒拉族文献数据库应用

关键词提取技术在撒拉族文献数据库应用　　摘要：在文献管理和研究中经常会做关键词提取的工作，通过人工的方式进行提取过程繁杂，工程量极大，因此引入一种关键词欲提取的方式，其过程主要采用以下三个步骤：先通过OCR系统对图片进行识别、排错；再通过词频技术，来提取词频及关联性最高的关键词，将其作为备选关键词；然后通过人为阅读的方式，按照一定的关键词人工提取规则进行关键词的精确提取。结果表明，该方法取得了较好的效果。　　关键词：关键词提取；撒拉；词频；引用度　　中图分类号： TN911?34 文献标识码： A 文章编号： 1004?373X（2013）24?0005?03 　　Application of keyword extraction technology in Salar literature database 　　ZHAO Jian?fei， DUAN Xin?wen， AN Shou?chun 　　（Physics Department， Qinghai Normal University， Xinning 810008， China）　　Abstract： The keyword extraction work is often done in the literature management. The artificial extraction may cause a complex process， and the work burden is heavy. A method of keyword pre?extraction is introduced， which is mainly divided into three steps： the image recognition and troubleshooting are conducted first by OCR system； the word frequency technology is used to extract the word frequency and highest relevance keywords as alternative keywords； and then through man?made reading manner， the accurate extraction of keywords is achieved in accordance with a certain keyword manual extraction rule. 　　Keywords： keyword extraction； Sarah； degree of word frequency； citation rate 　　0 引言　　随着我国信息化建设的全面开展，OCR文字识别技术诞生20余年来，经历从实验室技术到产品的转变，目前已经进入行业应用的成熟阶段。　　文字这方面会涉及图形识别学——光学字符识别（Optical Character Recognition，OCR），目前像汉王、紫光、微软等都在这方面有专门的研究单位。OCR的步骤和过程算是集大成于一体，它会用到各种图形学中的方法来获得最高的正确率，OCR是不确定性科学，百分之百的识别正确率似乎只会存在于理论上。文字识别一般包括提前预处理、文字特征提取、数据库比对、后期处理等几个部分。　　首先是提取前预处理，这个过程是将扫描仪、数码相机等工具将印刷品或手写品输入到电脑后，先采取一些通用的算法将这些得到的图像特征化，譬如先进行二值化或灰价化，图像的去噪和正规化及可能需要的影像矫正，还会有图文分析、字行间处理等，这个过程做的事可能最多最杂，但所用到的算法理论和技术方面都很成熟了。不过最后的文字的行间距处理就会有一些差异，有些软件可能只会简单的将文字一个个提取出来了事，完全不管之前的印刷格式，这就是一个简单的字行间距处理的实现。复杂的可能会得到印刷品的排版信息。　　然后是文字特征提取，这是OCR的关键部分，用何种方法提取会直接影响到最终正确率。这方面的论文和学术报告也最多，但主要方法一般有两种：一是统计特征，如文字区域内的黑白点数比，当文字区分成好几个区域时，这一个个区域黑白点数比之联合，就成了空间的一个数值向量，在比对时，基本的数学理论就可以应付了；另一类特征为结构的特征，如文字影像矢量化后，取得字的笔划端点、交点的数量及位置，或以笔划为特征，配合相应的比对方法比对，一般的手写输入软件的识别方法多为后者。　　再就是数据库对比，不论采用上面的哪种方法进行的提取，都需要有一个对比数据库进行比对，比如常用的比对方法有松弛比对法、欧式空间比对法、