面向域的小型语言模型在结构化税法预测中的应用-计算机科学-机器学习-编码器-解码器-税法预测.pdf

面向域的小型语言模型在结构化税法预测中的应用-计算机科学-机器学习-编码器-解码器-税法预测.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

面向域的小型语言模型在结构化税法预测中的

应用

SouvikNathSumitWadhwaLuisPerez

DellTechnologies

souvik.nath1@,sumit_wadhwa@,luis.perez@

本摘要

中每天,跨国公司都会处理成千上万的交易,每笔交易都必须遵守因地区而异且往往

2

v复杂多样的税务法规。确定商品和服务税码(如HSN或SAC)是税务合规的一个

0主要用例。准确地确定这些代码对于避免任何税务处罚至关重要。本文提出了一种

8

8基于编码器-解码器架构的领域适应小型语言模型(SLM),用于增强对商品和服务

0

1税码的预测能力。在此方法中,我们解决了使用非结构化产品和服务数据来预测分

.

7层税收代码序列的问题。我们采用了基于编码器-解码器架构的SLM,因为这可以

0

5实现税务代码的顺序生成,以捕捉存在于这些代码中的层级依赖关系。我们的实验

2

:表明,编码器-解码器SLM可以成功应用于结构化税务代码的顺序预测任务,在当

v

i前自然语言处理研究领域中这一领域的探索相对较少。在本文中,我们展示了当应

x

r用到协调制度命名(HSN)时,领域适应性编码器-解码器SLM相较于扁平分类器

a

表现出优越性能,并且对于结构化序列生成任务相比仅解码器或仅编码器架构取得

了更好的结果。这种方法也可以扩展应用于其他政府规定的税务商品代码,如联合

国标准产品和服务代码(UNSPSC),或是巴西的南方共同市场通用名称(NCM)。

1介绍

产品和服务税码预测在国际贸易、税收立法和供应链管理中起着至关重要的作用。协调

制度(HS)[1,2]被广泛认为是在税收和海关背景下对产品和服务进行分类的黄金标准。

编码分配中的不准确会导致财务差异、合规问题和物流效率低下。

传统方法如基于规则的系统或扁平标签分类器至今仍广泛用于税收确定过程。这些方

法将税码视为整体实体,拒绝承认其中存在任何结构。这些代码的层次结构包含有意义

1

的信息,并在其确定中发挥着重要作用。在HS分类法中,有两种商品代码:HSN;萨

克。HSN代码用于实物商品,由8位数字组成。前两位数字定义了产品的广泛分类,随

后的两对进一步细化这一分类,最后一对决定关税。同样,SAC用于服务,并由6位数

字组成。通常,这些传统方法是非顺序的,无法捕捉和学习税码中固有的层次结构,从

而忽视关键信号,导致准确性降低和解释性差。为了解决这个问题,我们将任务定义为

一个有结构的序列预测问题,将税收代码分解为其层次组件如章节、标题、子标题和关

税,并逐一进行预测。

随着预训练语言模型的最新进展,我们可以在成本效益高的基础设施上针对特定领域

的数据微调SLMs[3]。这种SLMs的领域适应性使它们能够与HSN或SAC等分类法的

结构化特性保持高度一致,从而避免了复杂规则系统或大规模模型的需求。这符合最近

的研究发现[4],表明SLMs在成本和可扩展性方面提供了显著优势。在此基础上,我们

提出领域自适应的小型语言模型来预测税码的结构化序列。通过对与税收相关的特定

领域的数据微调一个预训练的编码器-解码器模型,该模型能够学习生成与HSN或SAC

分类法对齐的税码组件。这类似于在神经机器翻译系统[5]中实现对齐的方式。正如本

文所展示的,提出的方法显著提高了预测准确性,并通过将模型的生成过程与其代码的

基础分类法对齐,增强了模型的可解释性。

2方法论

自然语言处理解决方案围绕关键的顺序阶段构建,包括特征收集、数据清洗(标记化和

词干提取)、文本规范化、数

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档