- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
THM@SimpleText2025-任务1.1:基于复杂术语的非专
家文本简化再探
NicoHofmann,JulianDauenhauer,NilsOleDietzler,IdehenDanielIdahorand1111
ChristinKatharinaKreutz1,2,∗
1THMittelhessen-UniversityofAppliedSciences,Gießen,Germany
2HerderInstitute,Marburg,Germany
Abstract
科学文本因其定义而包含专业术语,因此较为复杂。简化此类文本可以提高创新和信息的可访问性。这可以使政治家能够理
解他们在打算立法的主题上的新发现,或者让重病患者的家属阅读临床试验的相关内容。
简单文本CLEF实验室专注于简化科学文本这一问题。2025版的任务1.1特别处理复杂句子的简化,因此非常短且上下文
较少的文本。为了解决这个任务,我们研究了在句子中识别复杂术语的方法,并使用小型Gemini和OpenAI大型语言模型为
非专业读者进行重新表述。
Keywords
文本简化,复杂术语识别,大语言模型,提示工程,人物设定
本
译1.介绍
中科学文本是为领域专家和受过高度教育的学者撰写并理解的。此类文本充满了缩略词和技术术语,
1并且需要符合严格的页数或字数限制。
v多年来,SimpleText计划[1,2,3,4,5,6]已经展示了大量努力,以帮助加速开发使此类文本更易
4于公众理解的方法。在文本简化工作中,目标受众的重要性已被考虑过[7]。例如,为儿童简化的文
1本应包含短句子[8]但不应过度简化以免影响读者的兴趣[9]。
4
4虽然有针对不同领域和不同目标受众简化文本的方法[10,11],大多数方法都没有考虑到这些特
0定性[12]。过度简化文本,使其整体复杂度不再符合读者所需的复杂度水平,对于几乎所有目标受
7.众都是不利的,因为它会导致读者失去兴趣[9]。因此,文本的简洁程度应该拟合其预期读者。
0一般而言,在为非专家简化文本时,我们假设读者具有理解复杂短语和语法的适当的语言技能,
5但无法因缺少领域知识而理解一段文字。因此我们的想法是识别文中的复杂专业术语,试图仅替换
2这些复杂成分,同时保持整体结构和语言复杂性。
:
v本工作解决了今年的SimpleText实验室任务1.1~[5,6,13],即为非专家读者简化短科学文本。
i
x该任务具有挑战性的特点在于只提供非常少的上下文(句子本身)来简化内容。我们尝试通过基于
rIRGC@SimpleText’23~[14]之前提交的内容来解决此任务,该提交专注于复杂科学术语识别,并在
a
使用小型大型语言模型(LLMs)时研究不同的提示。
2.数据集
任务1.1由SimpleText实验室提供的数据集[5]包含从科学出版物中提取的9160个英文短文本。这
些文本主要是单句,例如,所有研究中的干预措施都包括针对卫生保健工作者的实施策略;三项研
究包括交付安排,没有研究使用财务安排或治理安排。(pair_id=CD012520,206字符)具有相当复
杂的句子结构。数据集中有9086个独特的文本,它们的平均长度为168.66个字符。Figure1表示数
据集内独特文本长度的直方图。
Figure1:数据集中唯一文本长度的概述。
3.方法
我们调查了三个可以在文本简化中选择性使用的步骤。首先,一个重新表述,例如通过一个大语言
模型(LLM),可以修改原始文本。然后对于原始或经过修改的文本,可以识别并特别标记出复杂的
科学术语。作为最后一步,在原始或修改后的文本上实际运行简化,这些文本要么有复杂的术语被
标记出来,要么没有,例如再次使用一个大语言模型(LLM)。
3.1.步骤1:重新表述
包
您可能关注的文档
- 多模态验证通过多代理深度研究多模态大型语言模型-计算机科学-多媒体验证-多模态大语言模型.pdf
- 电压模式胜者全得电路在神经形态系统中的应用-计算机科学-机器学习-神经形态电路.pdf
- 2023年陕西省榆林市靖边县小河乡招聘社区工作者真题带答案详解.docx
- 2023年陕西省汉中市佛坪县长角坝乡招聘社区工作者真题带答案详解.docx
- 2023年陕西省榆林市横山县艾好峁乡招聘社区工作者真题及答案详解1套.docx
- 2023年陕西省延安市洛川县朱牛乡招聘社区工作者真题及参考答案详解1套.docx
- 2023年陕西省延安市延川县延川镇招聘社区工作者真题及完整答案详解1套.docx
- 2023年陕西省延安市黄陵县桥山镇招聘社区工作者真题附答案详解.docx
- 2023年陕西省延安市宝塔区川口乡招聘社区工作者真题含答案详解.docx
- 2023年陕西省商洛市山阳县城关镇招聘社区工作者真题及答案详解1套.docx
- 2023年陕西省商洛市柞水县两河乡招聘社区工作者真题参考答案详解.docx
- 2023年陕西省延安市宝塔区青化砭镇招聘社区工作者真题参考答案详解.docx
- 2023年陕西省汉中市西乡县罗镇乡招聘社区工作者真题及参考答案详解.docx
- 2023年陕西省延安市洛川县永乡招聘社区工作者真题及答案详解1套.docx
- 2023年陕西省商洛市商州区三岔河乡招聘社区工作者真题及参考答案详解一套.docx
- 2023年陕西省宝鸡市陇县八渡镇招聘社区工作者真题及参考答案详解一套.docx
- 2023年陕西省延安市洛川县石泉乡招聘社区工作者真题及参考答案详解一套.docx
- 2023年陕西省商洛市商州区沙河子镇招聘社区工作者真题附答案详解.docx
- 2023年陕西省咸阳市礼泉县赵镇招聘社区工作者真题及参考答案详解1套.docx
- 2023年陕西省商洛市丹凤县留仙坪乡招聘社区工作者真题及参考答案详解一套.docx
文档评论(0)