Hypothesis

A healthcare LLM might be highly accurate for queries in English, but perform abominably when those same questions are presented in Spanish.

这个例子揭示了AI系统性能的文化和语言敏感性，这是一个令人惊讶但重要的观察。它表明AI系统的'准确性'可能高度依赖于特定语境，这挑战了我们对AI普遍适用性的假设。这种差异可能强化现有的数字鸿沟，并要求开发更具文化敏感性的AI评估框架。