无语言数据被遗弃-Hugging Face 生态系统中 CJK 语言数据集的比较研究-计算机科学-大语言模型-自然语言处理.pdfVIP

无语言数据被遗弃-Hugging Face 生态系统中 CJK 语言数据集的比较研究-计算机科学-大语言模型-自然语言处理.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

无语言数据被遗弃:HuggingFace生态系统中CJK语言数据集的比较

研究

DasolChoiWoomyoungParkYoungsookSong

YonseiUniversityMODULABSSAIONICAILablupInc.

dasolchoi@yonsei.ac.krmax@sionic.aiyssong@

Abstract及定性标准(可靠性和代表性)。虽然英语资源

已经得到了广泛研究,但东亚语言——尤其是

近期的自然语言处理(NLP)进展凸显了高

中文、日语和韩语(CJK)的数据集景观仍然相

质量数据集在构建大型语言模型(LLMs)

对较少被探索(Joshietal.,2020;Bender,2019)。

中的关键作用。然而,尽管英语有大量的

资源和分析,东亚语言——特别是中文、考虑到这些语言共同服务于超过16亿的使用

本日语和韩语(CJK)——的数据集格局仍者,并发源于技术创新的主要中心,这一差距

然支离破碎且未被充分探索,尽管这些语尤其值得注意。

译言共同服务于超过16亿的使用者。为了近年来,HuggingFace等平台作为NLP数

中填补这一空白,我们从跨语言的角度调查据集的中央存储库和访问点崭露头角,使这些

1了HuggingFace生态系统,重点关注文化规

v资源广泛可获取的同时也带来了数据集发现、

9范、研究环境和机构实践如何影响数据集

2的可用性和质量。基于3300多个数据集,质量评估以及跨语言协作等新挑战(Hugging

3Face,2023;Lhoestetal.,2021)。这些挑战在CJK

4我们采用定量和定性方法来考察这些因素

0.如何驱动中文、日语和韩语NLP社区中不语言中尤为突出,因为它们具有独特的语言特

7同的创建和整理模式。我们的发现突出了征、不同的文化背景以及各异的数据共享和文

0

5中国数据集的大规模且往往由机构推动的档编制方法。

2

:特点,韩国NLP的基层社群主导发展,以虽然CJK语言在国际NLP研究中扮演着

v及日本收藏对娱乐和亚文化的侧重。通过

i越来越重要的角色,但仍需解决一些关键问题。

x揭示这些模式,我们提出了提高数据集文

r首先,对这些语言社区中的数据集创建模式差

a档化、许可清晰度和跨语言资源共享的实

异及其如何反映各自NLP生态系统的了解有

际策略——最终指导东亚更有效和文化敏

感的LLM开发。最后,我们讨论了未来数限。其次,尽管文化和制度因素显然会影响数

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档