- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
江西省九江市名校2024-2025学年下学期入学考试高二语文试卷
一、现代文阅读(34分)
(一)现代文阅读Ⅰ(本题共5小题,18分)
阅读下面的文字,完成1—5题。
材料一:
①近年来,人工智能技术与人文历史研究碰撞出不少火花,那么,AI对于古代汉语的理解能力怎么样?
②日前,北京师范大学中文信息处理与古典文献学专业的研究者们尝试训练一个“饱读诗书”的语言模型,并让AI来参与古籍整理的工作。模型学习的对象包括《四库全书》与“殆知阁”语料库,而学习的方法则来自语言智能领域最新的深层语言模型。
③2018年,谷歌公司曾推出了深层语言模型BERT,它在阅读理解等11项语言理解任务中刷新记录。和之前的方法相比,深层语言模型一是可以吞吐超大量的数据,二是有很强的记忆和理解能力。现有的深层语言模型覆盖了英文和中文,但却不具备理解古汉语的能力。于是,研究者们希望通过上述海量的古汉语数据来让机器“感受”一下博大精深的诗书礼乐文化。在多块计算卡上并行训练了约一周时间后,古汉语BERT初出江湖,AI可以像人一样联系上下文理解字词含义,并将其以数学向量表示。
④为了检测其理解效果,研究者们引入了句读任务。因为在古典文史学习过程中,句读通常是必备的基本功。古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对古汉语知识有较高要求。宋代大儒朱熹读韩愈文章,便有“然不知此句当如何读”之惑。在句读的过程中,有三项重要的技能点:利用古汉语特有的节奏和韵律感,联系上下文语境信息推敲求解,调用文本之外的历史文化知识。
⑤虽然现在很多古代经典都出版了标点本,但其中常常包含错误,并且,在现有的古籍数据中,大部分文献仍未实现句读。据统计,“殆知阁”古代文献藏书2.0版语料库规模约33亿字,其中仅25%左右的数据包含标点。如果依靠人工继续整理这些古籍,则不知何年何月才能整理到头。如果依靠计算机,现有的技术方法却普遍只能达到60%~70%的准确率,还很难为人所用。
⑥为了让AI在理解文义的基础上具备句读功能,研究者们准备了大量带标点的数据,包括超过30万首古诗,2万余首词,800多万段古文,模型还引入了处理标签序列的机制来专门学习句读方法。由于诗词具有较为明显的格律特征,如大部分古诗为四五七言,而词牌名可以提示断句规则,为了帮助模型更好地学习语义和韵律信息,在预处理数据时保留了古诗题目,并去除词牌名。
⑦在多块计算卡上并行学习了数天句读后,模型终于“出山”。在测试环节,研究者们引入了两轮难度不同的实验。普通版测试对象为一批模型从来没见过的诗词古文数据(古诗5000首,词2000首,古文5000段),实验中,模型在诗、词、古文的句读准确率上分别超过了99%、95%和92%,较之已有的自动断句方法取得了巨大提升。升级版测试对象为已出版古籍中的句读疑难案例。根据司马朝军等学者的研究,从中华书局出版的《钦定四库全书总目》《周礼正义》中抽取出了60则句读误例(排除了模型训练时见过的数据)。这两本古籍均由该领域专家完成整理和句读标点,并经多次校对,其中的误例可谓句读任务的难点所在。研究人员从司马朝军的研究中找出了《总目》中11则与句读相关的错误,发现模型可以完全做对8则。又选择了王文锦等人点校的《周礼正义》一书,将颜春峰等人整理的49则断句误例送入模型测试。其中,模型能完全正确断句27则,断句存在问题的有22则。
⑧总的来说,模型在已出版古籍的断句疑难误例上取得了很好的效果,测试共计60例(均为专家标点错误,并经多次校对未查出),而模型竟能完全正确断句35例,可以说达到了较为实用的水平。
⑨从应用角度看,这里的句读方法既可以用于大规模古籍整理中预断句工作,大大减轻专家负担,也可用于校对环节,帮助检测人工断句或标点的错误。在后续工作中,除了提升已有的句读模型,还希望将基于深层语言模型的古汉语知识表示方法应用到古文翻译、古诗文创作等其他古汉语信息处理任务中。
(摘编自胡韧奋、李绅、诸雨辰《让AI一口气读完四库全书会怎样?》)
材料二:
2024年8月27日,北京师范大学古汉语大语言模型“AI太炎2.0”发布会暨数智时代应用语言学学科建设路径与方法座谈会在京举行。
“AI太炎”是国家语言文字工作委员会重大项目“古籍整理智能化关键技术研究”的核心成果,是专门适用于古汉语文本理解的大语言模型。该模型是针对古汉语信息处理任务的特点,从头构建的专门适用于古汉语文本理解的大语言模型。该模型具有较强的古典文献释读能力,支持词义注释、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务,且兼容繁简中文输入。此外,在辅助古籍整理、辞书编纂和语言研究等方面,该模型也表现出了很大的应用潜力。
据悉,“AI太炎1.0版”于2023年11月进入内测阶段,有学术科研
您可能关注的文档
- 广东省梅州市2025届高三下学期模拟测试(二)语文试题(含答案).docx
- 内蒙古自治区巴彦淖尔市临河区巴彦淖尔市第一中学2024-2025学年高三下学期开学考试语文试题(含答案).docx
- 山西省2025届高三下学期考前适应性测试(一模)语文试题(含答案).docx
- 安徽省六安市木厂中学2024-2025学年高一下学期开学考试语文试卷(含答案).docx
- 广东省东莞市石竹实验学校2024-2025学年高一下学期开学学情调研语文试卷(含答案).docx
- 河南省创新联盟大联考2024-2025学年高一下学期开学检测语文试卷(含答案).docx
- 新疆维吾尔自治区2024-2025学年高一下学期开学考试语文试卷(含答案).docx
- 广东省湛江市雷州市雷州市第八中学2024-2025学年九年级下学期开学语文试题(含解析).docx
- 2022-2023学年东营市河口区第二学期基础质量监测八年级语文试题 (含答案).docx
- 广东省广州市八区联考2024-2025学年高一上学期期末考试语文试题(含答案).docx
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
最近下载
- 2024年青岛职业技术学院高职单招语文历年参考题库含答案解析.docx
- 《多波段天气雷达协同观测规范》.docx VIP
- 2025年烟台汽车工程职业学院单招综合素质考试题库及答案解析.docx
- 主题3 人与自我—自我认识与提升课件+2025年中考英语人教版一轮专题复习.pptx VIP
- 学校种植园方案设计.ppt
- 拉完整版本.封丹寓言.pptx VIP
- 第三单元名著导读《经典常谈》课件++2023-2024学年统编版语文八年级下册.pptx VIP
- 人工智能与智能医学影像分析.pptx VIP
- 全过程造价咨询服务实施方案设计.docx
- 宁夏医科大学2023-2024学年第2学期《生物化学》期末考试试卷(A卷)附参考答案.docx
文档评论(0)