ARCE: 增强的 ROBERTA 带上下文化阐释用于自动规则检查中的 NER.pdfVIP

ARCE: 增强的 ROBERTA 带上下文化阐释用于自动规则检查中的 NER.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

ARCE:增强的ROBERTA带上下文化阐释用于自动规则检查中的NER

JianChenJinbaoTianYankuiLiZhouLi

NingxiaJiaojianTransportationScienceandTechnologyResearchInstituteCo.,Yinchuan,China

NingxiaCommunicationsConstructionCo.,LTD.,Yinchuan,China

Correspondingauthor.E-mail:nxcc.lab@

ABSTRACT1.介绍

本建筑、工程和施工(AEC)行业作为全球经济的

译基石,面临着大量复杂的安全和监管要求,这些要求

中从专业文本中准确提取信息是一项关键挑战,特别是记录在庞大的非结构化文本中[1–3]。为了应对这一

对于建筑、工程和施工(AEC)领域中的命名实体识复杂性,自动化规则检查(ARC)作为一种确保合规

1

v别(NER),以支持自动规则检查(ARC)。标准预训练性的关键技术应运而生[4,5]。然而,在开发有效的

6ARC系统时的一个关键瓶颈在于“规则解释”阶段,

8模型的性能往往受限于领域差异,因为它们难以解释

2AEC文本中存在的专业化术语和复杂的关系背景。虽这需要从文本中准确提取语义信息——这项任务正式

7

0然可以通过在大型的人工整理领域的语料库上进一步称为命名实体识别(NER)[6]。

.

8预训练来缓解这一问题,如ARCBERT方法所示,但早期尝试解决这一命名实体识别挑战的方法涉及

0这种方法既耗时又成本高昂。因此,利用大语言模型对BERT[7]和RoBERTa[8]等预训练语言模型进行

5

2(LLMs)进行自动化知识生成作为一种有前景的替代微调,使用小规模的领域内标注数据集。然而,这些

:

v方案应运而生。然而,如何生成真正能够提升更小、更模型的表现往往受到其初始训练所用的一般用途语料

i

x高效模型的知识的最佳策略仍是一个开放性问题。为库与AEC领域的专业化词汇之间的显著领域差异的

r

a了解决这个问题,我们提出了ARCE(增强的带上下影响[9,10]。这种差距使得稳健和准确的信息提取成

文解释的RoBERTa),这是一种系统地探索和优化这为一个持续存在的挑战。

一生成过程的新方法。ARCE采用LLM首先生成一为了弥合这个领域差距,已经探索了两种主要范

组简单的直接解释语料库,我们将这称为Cote,然后式。第一种,以ARCBERT[2]为例,涉及在大型的人

使用这个语料库逐步预训练一个RoBERTa模型,在工整理的特定领域语料库上进行进一步预训练。虽然

进行下游任务微调之前。我们广泛的实验表明,ARCE有效,但这种方法极其劳动密集且成本高昂。一种更

在基准AEC数据集上建立了新的最先进的水平,实现近期的范式利用大型语言模型(LLMs)自动生成任务

了77.20%的Macro-F1分数。这一结果还揭示了一个导向的知识,从而增强较小、更高效的模型[11,12]。

关键发现:简单、基于解释的知识对于这项任务来说,我们的工作建立并显著扩展了这一后一方法。

出人意料地比复杂、基于角色的理由更有效。代码公我们提出了ARCE(增强的RoBERTa与上下文

开获取地址为:/nxcc-lab/ARCE。化阐释),一种利用大型语言模型(Qwen3-8B[13])

生成高质量、任务导向的知识语料库的新方法——

IndexTerms—自动化规则检查,大

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档