- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
福建:运用人工智能技术搭建开放审核模型
文/ 黄建峰 颜梓森 张枫旻 戴敏
目前,传统的档案开放审核模式已愈 90万条、文件级目录数据810万条,原文数 题,目前已有不少模型在该问题上取得较
来愈不能适应国家综合档案馆海量馆藏 据6108万画幅。在推进档案数字化扫描的 好的效果。但相对于互联网上海量的训练
档案开放审核工作要求,无法有效满足社 同时,对数字化副本进行了基础的OCR识 数据,当前档案部门能够用于进行训练的
会公众日益增长的档案信息利用需求。因 别,为档案实现智能化管理奠定了坚实的 较好的“数据化”档案文本数量相对不足,
此,提升档案开放审核的效率和质量,推 资源基础。 因此,采用规模适度的模型更加适用,也
进档案开放利用工作转型是时代和社会发 档案开放审核工作需按照有关工作要 方便进行调整和优化。
展的必然要求。 求和规定,对海量的文本信息进行整理鉴 (1)OCR识别算法的选择
近年来,福建省档案馆基于馆藏档案 别,确定是否面向社会进行开放。福建省 OCR 识别是开放审核工作的“预处理”
数字化成果,重构档案开放审核流程,探 档案馆在吸收多年开放审核工作经验的基 环节,其输出文本直接关系到下一步开放审
索运用人工智能技术搭建开放审核模型, 础上,对馆藏档案进行深入调查摸底,收 核人工智能学习的效果。当前通用的 OCR 算
研发建设了“基于数字档案的人工智能档 集整理了近600个敏感词,并联动省公安 法中,基于CRNN+CTC的文字识别算法既
案开放审核系统”。通过系统对档案开放 厅网安部门吸收了部分当前网络敏感、关 适用于规则文本,也适用于不规则文本,比
审核值进行智能推荐,并在工作实践中不 键字词,设计制定了开放审核档案关键词 较适合档案行业文本既有手写体,又有规范
断对模型进行训练优化,提升推荐的准确 表,建立了档案开放审核动态管理敏感词 印刷体的特点。它可以将 OCR 中的文本序列
率,有效提高了档案开放审核效率和档案 库,这为引入人工智能技术进行档案开放 进行识别和转换,以实现对数字档案的文
利用水平,为更好地服务党和国家工作大 审核奠定了规则基础。 本信息提取和识别。CRNN(Convolutional
局、服务人民群众提供了重要保障。 此外,随着现代信息技术的飞速发 Recurrent Neural Network)模型由CNN
展,特别是新一代人工智能技术的发展, 和RNN组成,CNN用于特征提取,RNN
基础条件 OCR识别、自然语言处理(NLP)等与人工 用于序列建模和输出。CTC(Connectionist
智能领域相关技术的应用,为新时代档 Temporal Classification)是一种损失函数,
《“十四五”全国档案事业发展规划》 案管理工作科学化、智能化提供了强有力 可以将 OCR 中的不定长文本序列映射到确
中对加快推进档案开放工作作出具体部 的技术支撑,也为构建“基于数字档案的 定长度的输出序列中。因此,基于CRNN+
署,并要求加强大数据、人工智能等新一 人工智能档案开放审核系统”提供了技 CTC的文字识别算法可在特征提取基础上
代信息技术在数字档案馆(室)建设中的 术保障。 处理不定长文本序列,同时还能够保持输出
应用。省档案馆高度重视档案信息化工 的准确性和完整性,这与档案行业的情况是
作,始终把现代化建设作为档案馆发展的 系统构建
您可能关注的文档
- 学习胜任力发展:人工智能时代的学习进化论.pdf
- ChatGPT_生成式人工智能重塑教育的底层逻辑和可能路径.pdf
- 人工智能在骨关节炎诊疗中的应用进展.pdf
- 中美人工智能国家科技战略决策模式比较研究——基于多元决策视角.pdf
- 生成式人工智能与哲学社会科学新范式的涌现.pdf
- 德国高校助推人工智能国家战略:目标使命与行动举措.pdf
- 人工智能应用于肺癌领域的文献可视化分析.pdf
- 重新思考人工智能给教育带来的冲击和影响——人工智能与未来教育国际前沿研究专栏导读.pdf
- 人工智能应用如何影响人力资本投资偏好.pdf
- 基于人工智能算法对非结构化数据使用率的研究与应用.pdf
- 2025年阿坝州特岗教师招聘考试真题汇编及答案解析(夺冠).docx
- 2025河北邢台新河县招聘社区工作者20人备考题库及答案详解(历年真题).docx
- 2025河北邢台新河县招聘社区工作者20人备考题库及答案详解(历年真题).docx
- 2025年阿里地区特岗教师招聘真题汇编附答案解析.docx
- 2025年阿坝州特岗教师招聘笔试真题汇编附答案解析(夺冠).docx
- 2025年阿坝州特岗教师招聘历年考题高频考点荟萃附答案解析.docx
- 2025年阿勒泰地区特岗教师招聘考试真题题库含答案解析(夺冠).docx
- 2025年阿坝州特岗教师招聘笔试真题题库附答案解析.docx
- 2025年阿勒泰地区特岗教师招聘考试真题汇编附答案解析(夺冠).docx
- 2025年阿勒泰地区特岗教师招聘考试真题汇编附答案解析.docx
- 乡村振兴、双碳、储能、绿色金融 + 关注
-
实名认证服务提供商
新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。
原创力文档


文档评论(0)