关键字:
TruthX模型 中科院团队 始智AI-wisemodel社区 大型语言模型(LLM) 幻觉控制 真实性方向 真实空间编辑 真实性评估 TruthfulQA基准 真实回复 幻觉回复 技术进步 信息可靠性 人工智能发展
中科院团队在始智AI-wisemodel中国AI开源创新社区开源的TruthX模型,是一项旨在控制大型语言模型(LLM)幻觉现象的创新技术。
该模型通过编辑LLM的内部表征,激活模型的真实性,从而减轻其产生幻觉的倾向。
具体来说,TruthX能够在LLM的内部表示中识别出一个真实性方向,通过仅编辑真实空间中的一个向量,就可以控制LLM生成真实或幻觉的响应。
TruthX模型的核心在于它能够沿着真实性方向激活LLM产生真实的回复,而如果沿着相反方向操作,同样只需一个向量即可破坏LLM的真实性,
导致模型产生充满幻觉的回复。这种方法在真实性评估的TruthfulQA基准上显示出显著的效果,能够显著提高LLM的真实性。
实际上,TruthX模型在测试中将13个最先进的LLMs的真实性平均提高了20%。
这项技术的出现对于提升大型语言模型的可靠性和安全性具有重要意义。
随着LLM在各个领域的广泛应用,如何确保它们提供的信息是真实和可靠的,成为了一个亟待解决的问题。
TruthX模型提供了一种可能的解决方案,有助于推动人工智能技术更加健康和可持续的发展。