- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文OCR文件检索测试集之制作与应用-辅仁大学.PDF
中文OCR文件檢索測試集之製作與應用
Construction and Application of a Chinese OCR Test Collection
for Information Retrieval
蔡孟竹,曾元顯
輔仁大學圖書資訊學系
Mung-Chu Tsai, Yuen-Hsien Tseng
「教育資料與圖書館學」, 第 40 卷, 第 3 期, 2003 年 3 月, 頁 325-344
摘要 :
本文描述一套中文OCR檢索測試集的建構過程及其實際的檢索應用。我們克
服回溯性資訊需求難以獲得的困難,擬定出 30 道模擬使用者需求的查詢主題。
為獲得真實的OCR文件,我們以OCR軟體將 8439 篇全文影像轉換成數位檔案,
並評估其辨識率約在七成上下。為了求得每一道查詢主題的相關文件,我們邀請
三位人員分別檢視並判斷每一篇文件是否跟查詢主題相關。經由Kendall 和諧係
數的統計驗證,這三位判斷者在 20 道查詢主題上,相關判斷的結果非常一致,
顯示標準答案(即相關文件)有足夠多的共識。最後我們以 12 種檢索策略,來
比較OCR文件的檢索成效,發現辨識率降低到七成的情況下,檢索成效差不多也
降低到七成左右。
Abstract :
This article describes the process of constructing a Chinese OCR test collection
and the application of this collection in an retrieval experiment. We have overcome
the difficulty of obtaining past information need for retrospective data and created 30
query topics that simulate real user needs. To obtain real OCR documents instead of
simulated ones, we have converted 8439 full-text images into 8439 OCR text files. An
evaluation of the OCR documents reveals an average of 70% of recognition accuracy.
To obtain the relevant documents for each query, we invited 3 judges to examine each
of 8439 images and give relevance score to each document for each topic. According
to Kendall ’s statistical coefficient, highly consistent judgments are obtained in 20
query topics. Finally in our experiment with 12 search strategies, our results show that
the retrieval effectiveness of OCR documents decrease to 70% when the recognition
accuracy is about 70%.
關鍵詞:光學文字辨識、資訊檢索、測試集、成效評估、中文檢索
Keywords: OCR, Information Retrieval, Test Collection, Effectiveness Evaluation,
Chinese Document Retrieval
壹、前言
目前資訊檢索系統所能檢索的文件,多是以文字符號為基礎的數位化文件。
相對而言,許多儲存於傳統媒體之紙本資料,並無法直接被現有之檢索系統處理
與利用 。而若欲以人工方式,將儲存於傳統媒體之文件轉化為數位化(Symbolic )
之檔
您可能关注的文档
- 中国医药大学附设医院(CMUH)-中国医药大学儿童医院.doc
- 中国工业水价结构性改革研究水资源费的视角.PDF
- 中国石油大学(北京)克拉玛依校区人员入校通知单.PDF
- 中国科协学术沙龙情况介绍20140729.ppt-中国科学院老科学技术工作.ppt
- 中国科学院博士生导师陈良富来我校做专题讲座.doc.doc
- 中国移动山东公司合作业务动态结算管理办法.PDF
- 中国高科技企业文化建设的哲学反思-JournalofNortheasternUniversity.PDF
- 中文Chinese翻译引起的延迟-HeidelbergUniversityHospital.PDF
- 中文阅读理解语料库构建技术研究-Read.PDF
- 中美两国环境空气质量标准比较-环境监测管理与技术.PDF
- 中美课程匹配表与课程性质表.doc-传播与动漫学院-青岛科技大学.doc
- 中英命名实体识别及对齐中的中文分词优化-登录.PDF
- 中英喀斯特地球关键带研究普定县知识交流报告-UK–ChinaCritical.PDF
- 中远航运与中远集团及下属公司签订框架性关联交易合同-中国远洋海运.doc
- 中部地区城镇化发展现状、困境及对策-安徽广播电视大学.PDF
- 中部地区统筹城乡发展的战略思路-科技进步与对策.PDF
- 临2018-044丹化科技八届十九次董事会决议公告.PDF
- 丹凤县棣花镇土地利用总体规划调整完善.PDF
最近下载
- 林黛玉论文开题报告范文.docx VIP
- 02.50.系统上线前安全评估服务技术白皮书v2.0.pdf VIP
- 北京市顺义牛栏山第一中学2024-2025学年高一上学期期中考试语文试卷.docx VIP
- 中美税收协定(中英文对照)及有关概要.doc VIP
- 河西煤矿一矿一策顶层设计方案8.25(最终).doc VIP
- 群文阅读 借事说理之狼三则.《狼》.ppt VIP
- 中考语文二轮专题复习:《分析人物形象篇》课件(共31张PPT).pptx VIP
- 2025海南省中考化学试题卷(含答案解析).docx
- 最新外墙保温系统及施工工艺介绍(精品课件).pptx VIP
- 第四单元人体生理与健康(一)第三~五章学情评估(含答案)2024-2025学年人教版七年级生物下册.pdf VIP
原创力文档


文档评论(0)