- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
面向域的小型语言模型在结构化税法预测中的
应用
SouvikNathSumitWadhwaLuisPerez
DellTechnologies
souvik.nath1@,sumit_wadhwa@,luis.perez@
本摘要
译
中每天,跨国公司都会处理成千上万的交易,每笔交易都必须遵守因地区而异且往往
2
v复杂多样的税务法规。确定商品和服务税码(如HSN或SAC)是税务合规的一个
0主要用例。准确地确定这些代码对于避免任何税务处罚至关重要。本文提出了一种
8
8基于编码器-解码器架构的领域适应小型语言模型(SLM),用于增强对商品和服务
0
1税码的预测能力。在此方法中,我们解决了使用非结构化产品和服务数据来预测分
.
7层税收代码序列的问题。我们采用了基于编码器-解码器架构的SLM,因为这可以
0
5实现税务代码的顺序生成,以捕捉存在于这些代码中的层级依赖关系。我们的实验
2
:表明,编码器-解码器SLM可以成功应用于结构化税务代码的顺序预测任务,在当
v
i前自然语言处理研究领域中这一领域的探索相对较少。在本文中,我们展示了当应
x
r用到协调制度命名(HSN)时,领域适应性编码器-解码器SLM相较于扁平分类器
a
表现出优越性能,并且对于结构化序列生成任务相比仅解码器或仅编码器架构取得
了更好的结果。这种方法也可以扩展应用于其他政府规定的税务商品代码,如联合
国标准产品和服务代码(UNSPSC),或是巴西的南方共同市场通用名称(NCM)。
1介绍
产品和服务税码预测在国际贸易、税收立法和供应链管理中起着至关重要的作用。协调
制度(HS)[1,2]被广泛认为是在税收和海关背景下对产品和服务进行分类的黄金标准。
编码分配中的不准确会导致财务差异、合规问题和物流效率低下。
传统方法如基于规则的系统或扁平标签分类器至今仍广泛用于税收确定过程。这些方
法将税码视为整体实体,拒绝承认其中存在任何结构。这些代码的层次结构包含有意义
1
的信息,并在其确定中发挥着重要作用。在HS分类法中,有两种商品代码:HSN;萨
克。HSN代码用于实物商品,由8位数字组成。前两位数字定义了产品的广泛分类,随
后的两对进一步细化这一分类,最后一对决定关税。同样,SAC用于服务,并由6位数
字组成。通常,这些传统方法是非顺序的,无法捕捉和学习税码中固有的层次结构,从
而忽视关键信号,导致准确性降低和解释性差。为了解决这个问题,我们将任务定义为
一个有结构的序列预测问题,将税收代码分解为其层次组件如章节、标题、子标题和关
税,并逐一进行预测。
随着预训练语言模型的最新进展,我们可以在成本效益高的基础设施上针对特定领域
的数据微调SLMs[3]。这种SLMs的领域适应性使它们能够与HSN或SAC等分类法的
结构化特性保持高度一致,从而避免了复杂规则系统或大规模模型的需求。这符合最近
的研究发现[4],表明SLMs在成本和可扩展性方面提供了显著优势。在此基础上,我们
提出领域自适应的小型语言模型来预测税码的结构化序列。通过对与税收相关的特定
领域的数据微调一个预训练的编码器-解码器模型,该模型能够学习生成与HSN或SAC
分类法对齐的税码组件。这类似于在神经机器翻译系统[5]中实现对齐的方式。正如本
文所展示的,提出的方法显著提高了预测准确性,并通过将模型的生成过程与其代码的
基础分类法对齐,增强了模型的可解释性。
2方法论
自然语言处理解决方案围绕关键的顺序阶段构建,包括特征收集、数据清洗(标记化和
词干提取)、文本规范化、数
您可能关注的文档
- 统一听者评分标准:语音质量评估和连续语音情感识别的比较学习框架-计算机科学-语音识别-语音质量评估-听者建模.pdf
- 心理意象能否提升人工智能系统的思维能力?-计算机科学-大语言模型-机器思维-心理图像-推理.pdf
- MoViAD:一个用于视觉异常检测的模块化库-计算机科学-机器学习-深度学习-可视化异常检测.pdf
- Dr.Copilot:一个优化多智能体提示以改善罗马尼亚患者与医生沟通的助手-计算机科学-大语言模型-远程医疗.pdf
- 从衣橱到画布:衣橱多联画 LoRA 用于分部可控的人体图像生成-计算机科学-人工智能-扩散模型-图像生成.pdf
- GreenCrossingAI: 用于环境科学研究团体的相机陷阱/计算机视觉管道-计算机科学-人工智能-环境科学.pdf
- 可扩展的气候数据分析:平衡拍字节级精度和计算成本-计算机科学-机器学习-气候分析.pdf
- 2025辽宁省能源控股集团所属抚矿集团招聘76人笔试参考题库附带答案详解.pdf
- 2024陕西延长石油集团华特新材料股份有限公司社会招聘8人笔试参考题库附带答案详解.pdf
- 2023内蒙古大唐国际锡林浩特矿业有限公司采煤自营专项社会招聘32人笔试参考题库附带答案详解.pdf
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)