- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大语言模型中的事实性幻象
1
背景
人工智能历史上最为强悍的“信息助手”2
背景
“解决”了很多传统方法的痛点问题3
背景
•ChatGPT等大模型的问题
•KnowledgeRecency:大模型内部知识存在时间滞后性
•ReasoningInconsistency:大模型的推理过程和结论存在不一致
•NumericalComputation:大模型的数值计算能力有限
•Hallucination:大模型容易编造事实、生成幻象文本
•
...
4
大模型幻象
•“幻象”的出现
•影响大模型输出的真实性和准确性
•幻象文本可被扩散为互联网语料,干扰大模型的训练
/research/gpt-4
5
大模型幻象
•具体表现
•违背已有事实
6
大模型幻象
•具体表现
•前后说法不一致
7
大模型幻象
•具体表现
•编造事实
不存在存在但作者错误
存在但作者错误
请提供有关社会认知理论的书籍列表
不存在
8
幻象类型
•传统自然语言生成任务中的幻象类型
•IntrinsicHallucinations:生成文本与source矛盾
•e.g.,在摘要任务中,摘要与文档内容矛盾
•ExtrinsicHallucinations:生成文本无法被source验证(可能为真或假)
•e.g.,在摘要任务中,摘要内容在文档中不存在
•在open-ended生成任务中,这类幻象可能会丰富文本信息
•GPT-4的幻象分类
•Open-domainhallucinations
•不依赖参考资源,e.g.,ChatGPT用户的真实查询
•Closed-domainhallucinations
•依赖特定参考资源,e.g.,摘要
9
幻象类型
•大模型中的事实性幻象
•实体错误
•关系错误
•事实不完整
•时效错误
•过度表达
•无法验证
TheDawnAftertheDark:AnEmpiricalStudyonFactualityHallucinationinLargeLanguageModels
10
幻象出现的可能原因(beforeLLMs)
•幻象原因
•数据集合原因
•启发式的数据收集方法可能导致source与target无法对应
infobox中没有的信息(无法验证的信息)
•某些任务的source与target天然地不一致,例如开放式对话,这类任务数据的target可能包含许多用于增加内容多样性的额外信息
•任务本身“鼓励”幻象
•无法避免的extrinsichallucination
•e.g.,WIKIBIO将Wikipedia第一句话作为描述infobox的文本,但是有研究发现62%的句子包含
11
幻象出现的可能原因(beforeLLMs)
•幻象原因
•模型原因
•曝光偏差(exposurebias):训练采用teacher-forcing基于ground-truth,测试基于模型生成的文本可能会累积生成误差
•参数化知识偏差(parametricknowledgebias):LLM更倾向于使用训练时存储在参数中的知识(可能出错),而非输入中包含的内容
12
幻象出现的可能原因(beforeLLMs)
•幻象原因
•模型原因
•不充分的表示学习:encoder的语义理解能力会影响幻象的出现,当错误地学习数据表示会导致生成的错误
•不恰当的解码方式:decoder采用某些解码策略,例如top-k采样,在增加多样性的同时也会提高幻象出现的概率
13
大模型时代
•训练数据
•规模更大、领域更广
•训练方式
•预训练-指令微调-人类对齐
•推理方式
•提示、上下文学习、思维链
14
大模型幻象
•“幻象”的出现原因
15
1.基于语句补全模式,受限于最大似然优化
•难于表达知识的受限或者不确定
•“Idon’tknow”,“I’mnotsure”
•难于拒绝错误前提
•Caughtinalie
2.概率生成的本质
•Guesswrongonfuzzyoruncertainfacts
大模型幻象
•“幻象”的出现原因
16
大模型幻象
•“幻象”的出现原因
•SFT阶段的影响
17
大模型幻象
•“幻象”
您可能关注的文档
- 电动车25Q2财报总结:盈利触底回升,龙头强者恒强.pdf
- 医药生物行业2025年中报业绩综述:多数细分板块业绩承压,关注业绩改善方向.pdf
- 医疗服务行业跟踪报告:2025H1:外包服务行业利润增速亮眼,板块迎估值修复.pdf
- 近期风电招中标情况更新9月.pdf
- 中国非学科类教育整体市场分析.pdf
- 宏观观察2025年第30期(总第602期):“小谷子拉动大消费”:谷子经济发展特征、趋势与相关建议.pdf
- 预测报告 :重“质”稳“量”,经济下行压力阶段性增加.pdf
- 基于系统动力学模型的牛市正反馈切换点识别与当前市场研判.pdf
- 业绩之锚3:定价困境反转的中报季.pdf
- 银行研究框架及25H1业绩综述:营收及利润增速双双转正.pdf
- 银行研究框架及25H1业绩综述:营收及利润增速双双转正.docx
- 基于系统动力学模型的牛市正反馈切换点识别与当前市场研判.docx
- 业绩之锚3:定价困境反转的中报季.docx
- 医药生物行业2025年中报业绩综述:多数细分板块业绩承压,关注业绩改善方向.docx
- 预测报告 :重“质”稳“量”,经济下行压力阶段性增加.docx
- 宏观观察2025年第30期(总第602期):“小谷子拉动大消费”:谷子经济发展特征、趋势与相关建议.docx
- 医疗服务行业跟踪报告:2025H1:外包服务行业利润增速亮眼,板块迎估值修复.docx
- 近期风电招中标情况更新9月.docx
- 中国非学科类教育整体市场分析.docx
文档评论(0)