Nature最新研究: 贝叶斯行为框架——重塑认知科学与智能体决策
来源: | 作者:DE.Tech | 发布时间: 2024-06-08 | 548 次浏览 | 分享到:

Nature最新研究:贝叶斯行为框架——重塑认知科学与智能体决策

    



关键字:认知科学 人工智能 习惯性行为 目标导向行为 贝叶斯方法 变分贝叶斯 意图变量 智能体决策 模拟实验 零样本规划 内部模型 主动推理 强化学习


    随着人工智能的不断进步,其与认知科学的交叉研究正在开辟新的科学前沿。在这一领域,习惯性行为与目标导向行为的相互作用尤为引人关注。微软亚洲研究院的研究员们通过引入贝叶斯“意图”变量,提出了一种新颖的理论框架,这一框架不仅挑战了传统的认知模型,还为设计更高效、适应性强的智能系统提供了新方向。

图1:习惯性行为(专注工作时吃零食)和目标导向行为(计划一顿减肥餐)的不同特征

在最新的研究中,微软亚洲研究院的团队通过引入贝叶斯“意图”变量,成功地将习惯性行为与目标导向行为结合在一起,提出了一种全新的计算框架。这一框架利用变分贝叶斯方法,不仅提高了智能体在复杂环境中的决策能力,还为认知科学领域带来了新的视角。

习惯性行为通常是快速且自动化的,而目标导向行为则需要更多的思考和灵活性。通过贝叶斯行为框架,研究者们展示了如何通过一个统一的模型来处理这两种行为模式,使得智能体能够根据环境变化和内在目标灵活调整其行为。习惯性行为由感官输入计算的意图先验分布驱动,无需具体目标。目标导向行为则由一个通过最小化变分自由能推断(active inference)的目标条件意图后验分布的引导。

图2:(a) 贝叶斯行为框架概述;(b)和(c) 学习过程中和行为过程中的框架图

在模拟实验中,智能体在T形迷宫任务中表现出了从目标导向到习惯性行为的自然过渡,以及在奖励贬值后的行为调整能力。更重要的是,该框架支持零样本目标导向规划,即智能体能够利用已有的习惯性行为来规划和执行新任务,而无需额外的训练。

图3:经过训练的智能体 (a-c) 可以针对未见过的目标 (d, e) 执行目标导向的规划(例如看见更多的蓝色)

关键技术元素:

  1. 习惯性行为与目标导向行为:研究的核心是理解这两种行为模式的交互作用。习惯性行为是快速且自动化的,而目标导向行为则是缓慢且灵活的。

  2. 变分贝叶斯方法:通过这种方法,研究者提出了一个整合习惯性行为和目标导向行为的理论框架。

  3. 贝叶斯“意图”变量:这是框架的核心创新点,用于将习惯性行为与目标导向行为有效衔接。

  4. 感知运动任务建模:使用变分贝叶斯方法对行为进行建模,特别是在T形迷宫环境中的视觉引导任务。

  5. 模拟实验:在T形迷宫环境中进行的模拟实验,展示了智能体行为模式的转变、调整和零样本规划能力。

  6. 内部预测模型(world model):智能体利用这一模型进行目标导向的规划和行为预测。

  7. 主动推理与强化学习的结合:通过结合这两种方法,增强智能体在复杂环境中的决策能力。


    这项研究的成果不仅在理论上具有重要意义,而且在实际应用中也具有巨大的潜力。通过结合主动推理和强化学习,智能体能够在没有明确模型的情况下进行有效的决策和规划,这对于设计能够适应快速变化环境的智能系统至关重要。


论文链接:https://www.nature.com/articles/s41467-024-48577-7

    

返回
深度元素科技,您的信赖之选