破解提示：新的 p 值操纵？.pdfVIP

下载本文档

0
0
约8.77千字
约 5页
2026-03-06 发布于北京
举报

破解提示：新的 p 值操纵？.pdf

破解提示：新的p值操纵？

THOMASKOSCH,HUBerlin,Germany

SEBASTIANFEGER,THRosenheim,Germany

随着大型语言模型（LLMs）越来越多地嵌入到实证研究工作流程中，将其用作定量或定性数据分析的

分析工具引发了对科学诚信的重大关切。这篇观点文章将“prompt-hacking”（通过策略性调整提示以

从LLMs中获取所需输出的做法）与统计分析中的“p-hacking”（已有记录的做法）进行类比。我们主

张，由于LLMs固有的偏见、非确定性和不透明性，它们不适合用于需要严谨性、公正性和可重复性

的数据分析任务。我们强调研究人员可能无意或有意调整提示以验证假设，从而损害研究的有效性。

我们倡导对在研究中使用LLMs持批判态度，并要求透明的提示文档和明确的标准来界定何时适宜使

用LLMs。我们讨论了LLMs如何可以替代传统的分析方法，但建议仅应在谨慎、监督和有充分理由的

本情况下使用LLMs。

译CCSConcepts:•Human-centeredcomputing→Humancomputerinteraction(HCI).

中

AdditionalKeyWordsandPhrases:大型语言模型，可重复性，提示词操纵，p值操纵，数据分析

vACMReferenceFormat:

7ThomasKoschandSebastianFeger.2025.破解提示：新的p值操纵？.1,1(August2025),5pages.https:

5///10.1145/3744911

.1介绍

5大型语言模型（LLMs）是在帮助还是损害研究诚信？随着它们能力的扩展，其在研究中

2使用相关的风险变得越来越明显。研究人员不应将LLMs视为无偏或可靠的工具，而是

v必须批判性地评估是否适合使用这些模型。我们认为，固有的偏差、变化性和易被操控

x性使得LLMs不适合大多数数据分析任务。这一观点与“提示操纵”（prompt-hacking）

a对“P值操纵”（p-hacking）实践的类比类似。P值操纵是目前最严重且广受认可的损

害科学研究诚信的做法之一。这为强调怀疑性的LLM使用做法和所有计算学科及更广

泛领域中的提示操纵风险提供了有力参考和基础。这为进一步探讨我们是否应该信任

LLMs作为无偏数据分析者奠定了基础。我们的回答是不，并敦促在基于LLM的数据分

析中采用更为严格的使用标准。

Authors’ContactInformation:ThomasKosch,HUBerlin,Berlin,Germany,thomas.kosch@hu-berlin.de;SebastianFeger,TH

Rosenheim,Rosenheim,Germany,sebastian.feger@th-rosenheim.de.

Permissiontomakedigitalorhardcopiesofallorpartofthisworkforpersonalorclassroomuseisgrantedwithoutfeeprovided

thatcopiesarenotmadeordistributedforprofitorcommercialadvantageandthatcopiesbearthisnoticeandthefullcitationon

thefirstpage.Copyrightsforthird-partycomponentsofthisworkmustbehonored.Forallotheruses,contacttheowner/author(s).

ACMXXXX-XXXX/2025/8-ART

/10.1145/3744911

,Vol.1,No.1,Article.Publicationdate:August2025.

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

破解提示：新的 p 值操纵？.pdfVIP