Hypothesis

【令人震惊】即便明确警告 LLM「接下来的信息是错误的」，模型仍然会相信并依据这些虚假信息作答。这是一个对 AI 可信度的根本性挑战：RAG 系统和 Agent 工具调用返回的错误信息，会被模型「消化」并影响其输出，即使系统设计者已经在 Prompt 中声明了信息来源的可靠性问题。这意味着「在系统提示里写免责声明」并不能防止模型被错误信息污染。

LLM-false-beliefs prompt-injection reliability RAG-risk shocking

Tags

Annotators

URL