破解提示:新的 p 值操纵?.pdfVIP

  • 0
  • 0
  • 约8.77千字
  • 约 5页
  • 2026-03-06 发布于北京
  • 举报

破解提示:新的p值操纵?

THOMASKOSCH,HUBerlin,Germany

SEBASTIANFEGER,THRosenheim,Germany

随着大型语言模型(LLMs)越来越多地嵌入到实证研究工作流程中,将其用作定量或定性数据分析的

分析工具引发了对科学诚信的重大关切。这篇观点文章将“prompt-hacking”(通过策略性调整提示以

从LLMs中获取所需输出的做法)与统计分析中的“p-hacking”(已有记录的做法)进行类比。我们主

张,由于LLMs固有的偏见、非确定性和不透明性,它们不适合用于需要严谨性、公正性和可重复性

的数据分析任务。我们强调研究人员可能无意或有意调整提示以验证假设,从而损害研究的有效性。

我们倡导对在研究中使用LLMs持批判态度,并要求透明的提示文档和明确的标准来界定何时适宜使

用LLMs。我们讨论了LLMs如何可以替代传统的分析方法,但建议仅应在谨慎、监督和有充分理由的

本情况下使用LLMs。

译CCSConcepts:•Human-centeredcomputing→Humancomputerinteraction(HCI).

AdditionalKeyWordsandPhrases:大型语言模型,可重复性,提示词操纵,p值操纵,数据分析

2

vACMReferenceFormat:

1

7ThomasKoschandSebastianFeger.2025.破解提示:新的p值操纵?.1,1(August2025),5pages.https:

5///10.1145/3744911

4

1

.1介绍

4

0

5大型语言模型(LLMs)是在帮助还是损害研究诚信?随着它们能力的扩展,其在研究中

2使用相关的风险变得越来越明显。研究人员不应将LLMs视为无偏或可靠的工具,而是

:

v必须批判性地评估是否适合使用这些模型。我们认为,固有的偏差、变化性和易被操控

i

x性使得LLMs不适合大多数数据分析任务。这一观点与“提示操纵”(prompt-hacking)

r

a对“P值操纵”(p-hacking)实践的类比类似。P值操纵是目前最严重且广受认可的损

害科学研究诚信的做法之一。这为强调怀疑性的LLM使用做法和所有计算学科及更广

泛领域中的提示操纵风险提供了有力参考和基础。这为进一步探讨我们是否应该信任

LLMs作为无偏数据分析者奠定了基础。我们的回答是不,并敦促在基于LLM的数据分

析中采用更为严格的使用标准。

Authors’ContactInformation:ThomasKosch,HUBerlin,Berlin,Germany,thomas.kosch@hu-berlin.de;SebastianFeger,TH

Rosenheim,Rosenheim,Germany,sebastian.feger@th-rosenheim.de.

Permissiontomakedigitalorhardcopiesofallorpartofthisworkforpersonalorclassroomuseisgrantedwithoutfeeprovided

thatcopiesarenotmadeordistributedforprofitorcommercialadvantageandthatcopiesbearthisnoticeandthefullcitationon

thefirstpage.Copyrightsforthird-partycomponentsofthisworkmustbehonored.Forallotheruses,contacttheowner/author(s).

©2025Copyrightheldbytheowner/author(s).

ACMXXXX-XXXX/2025/8-ART

/10.1145/3744911

,Vol.1,No.1,Article.Publicationdate:August2025.

2

文档评论(0)

1亿VIP精品文档

相关文档