自主智能体住宅能源管理系统:基于大语言模型的居民负荷调度框架
论文原始标题:Agentic AI Home Energy Management System: A Large Language Model Framework for Residential Load Scheduling
论文作者:Authors: Reda El Makroum, Sebastian Zwickl-Bernhard, Lukas Kranzl
原始摘要:The electricity sector transition requires substantial increases in residential demand response capacity, yet Home Energy Management Systems (HEMS) adoption remains limited by user interaction barriers requiring translation of everyday preferences into technical parameters. While large language models have been applied to energy systems as code generators and parameter extractors, no existing implementation deploys LLMs as autonomous coordinators managing the complete workflow from natural language input to multi-appliance scheduling. This paper presents an agentic AI HEMS where LLMs autonomously coordinate multi-appliance scheduling from natural language requests to device control, achieving optimal scheduling without example demonstrations. A hierarchical architecture combining one orchestrator with three specialist agents uses the ReAct pattern for iterative reasoning, enabling dynamic coordination without hardcoded workflows while integrating Google Calendar for context-aware deadline extraction. Evaluation across three open-source models using real Austrian day-ahead electricity prices reveals substantial capability differences. Llama-3.3-70B successfully coordinates all appliances across all scenarios to match cost-optimal benchmarks computed via mixed-integer linear programming, while other models achieve perfect single-appliance performance but struggle to coordinate all appliances simultaneously. Progressive prompt engineering experiments demonstrate that analytical query handling without explicit guidance remains unreliable despite models' general reasoning capabilities. We open-source the complete system including orchestration logic, agent prompts, tools, and web interfaces to enable reproducibility, extension, and future research.
翻译标题:自主智能体住宅能源管理系统:基于大语言模型的居民负荷调度框架
翻译摘要:电力系统转型需要大幅增加住宅需求响应容量,但家庭能源管理系统(HEMS)的普及受到用户交互障碍的限制,这些障碍需要将日常偏好转化为技术参数。尽管大型语言模型已被应用于能源系统作为代码生成器和参数提取器,但目前尚无实现 LLM 作为自主协调器的系统,该系统能够从自然语言输入到多设备调度,实现最优调度而无需示例演示。本文提出了一种自主智能体 HEMS,其中 LLM 从自然语言请求到设备控制自主协调多设备调度,实现成本最优,而无需示例演示。一种结合一个编排器和三个专用智能体的分层架构使用 ReAct 模式进行迭代推理,实现无需硬编码流程的动态协调,同时整合 Google 日历以实现上下文感知的截止时间提取。通过使用真实的奥地利日前电价对三种开源模型进行评估,揭示了显著的能力差异。Llama-3.3-70B 在所有场景中成功协调所有设备以匹配通过混合整数线性规划计算的成本最优基准,而其他模型在单设备任务中表现完美,但在同时协调所有设备时遇到困难。渐进式提示工程实验表明,尽管模型具有通用推理能力,但在没有显式指导的情况下,分析型查询处理仍不可靠。我们开源了完整的系统,包括编排逻辑、智能体提示、工具和网络界面,以实现可重复性、扩展性和未来研究。

论文导览:

智能问答:
Q1: 这篇论文试图解决什么问题?
论文旨在破解“家庭能源管理系统(HEMS)普及受阻”这一核心障碍。具体而言,现有 HEMS 要求用户把日常偏好翻译成大量技术参数,交互门槛高,导致住宅需求响应潜力无法释放。作者提出用**自主智能体(agentic AI)**取代传统优化器,让大模型直接从自然语言请求到多设备调度,无需示例或微调即可实现成本最优,从而把“会说”变成“会管”,降低 HEMS 使用门槛并提升住宅侧灵活性。
Q2: 有哪些相关研究?
概念框架
Sapkota 等提出“agentic AI”定义:以 LLM 为自主推理引擎,动态分解目标、协调多智能体,无需预定义工作流。
Hosseini & Seilani 强调层级推理与适应性学习是 agentic 系统区别于传统自动化的关键。
LLM 在能源系统的预处理式应用
Majumder 等综述:LLM 需领域适配(微调、RAG、工具嵌入)才能用于电网运行。
Zhang 等:用 RAG 生成 EV 充电优化代码,LLM 仅负责代码生成,实际调度仍由传统求解器完成。
Shu & Zhao:LLM 给出住宅节能改造建议,准确率 92.8%,但推理深度不足。
Chen 等:定制 LLM 做楼宇故障诊断,准确率 96.3%,仅输出诊断建议,不控制设备。
Sawada 等:Office-in-the-Loop 系统用 agentic AI 控制 HVAC,实现 47.9 % 节能,但只针对单系统且非住宅场景。
Giudici 等:GPT 把自然语言转为 HomeAssistant 的 JSON 规则,无多设备协调与成本优化。
Li 等:数字孪生+AI Agent 实现 47.77 % 住宅节能,侧重通用节能动作而非自然语言调度。
Michelon 等:最接近本工作的 LLM-HEMS 接口,用 ReAct 提取用户参数后交给 MILP 求解器——LLM 仅做“翻译”,不做“决策”。
综上,现有研究把 LLM 当作接口、代码生成器或推荐器;本文首次让 LLM 成为自主决策与多设备协调的核心,完成从自然语言到最优调度执行的端到端闭环。
Q3: 论文如何解决这个问题?
论文采用“自主智能体架构 + 无需示例的推理”双轨策略,把交互复杂性从用户侧转移到系统侧,具体实现如下:
分层多智能体架构
1 个编排器(orchestrator):负责解析自然语言、获取电价与日历、协调全局。
3 个专用智能体(WM、DW、EV):各自在单轮内完成固定时长负荷的“穷举窗口搜索”,返回成本最小起止方案。
所有智能体共用同一大模型(Llama-3.3-70B 等),但角色提示不同,保证模块化与可扩展性。
ReAct 循环编排
编排器以“Thought → Action → Observation”迭代驱动:
Thought:判断下一步所需信息或动作。
Action:调用 6 个工具之一(取电价、读日历、窗口求和、委派专用智能体、下发调度、结束)。
Observation:接收结果并更新状态,直至所有设备排程完成。
无硬编码流程,顺序与次数由大模型依请求动态决定。
统一工具框架
分析层:calculate_window_sums 对 96 时段电价做滑动窗口累加,供专用智能体寻优或直接回答分析型提问。
接口层:ENTSO-E 日前电价 API、Google Calendar OAuth,实现实时价格与上下文感知截止时刻提取。
执行层:生成 96 位 0/1 数组(15 min 粒度)JSON 文件,可直接写入智能家居或充电桩。
零示例提示设计
系统提示仅含工具描述、任务指令与格式要求,不提供任何调度示例或最优解演示,完全依赖模型预训练知识与工具使用描述完成协调。
开源可复现
全部提示词、编排逻辑、评估脚本与 Web 界面公开,确保结果可验证并支持后续改进。
通过上述设计,用户只需一句自然语言(如“明天把所有电器安排到最便宜时段”),系统即可自动完成电价获取、多设备协同寻优、冲突校验与最终控制序列输出,实现“零参数”式 HEMS 交互。
Q4: 论文做了哪些实验?
实验围绕“能否在零示例条件下,用纯大模型推理实现最优且可扩展的住宅多设备调度”展开,分三大场景、共 75 次独立运行,全部基于真实奥地利日前电价与实时 API 调用:
单设备基准(15 运行)
场景:仅调度洗衣机,目标“最便宜时段”。
目的:验证编排器能否完成“取电价→委派→写入”最小闭环。
指标:与 MILP 最优解对比、迭代次数、token、耗时。
三设备协同(15 运行)
场景:同时调度洗衣机、洗碗机、EV 充电桩,目标“整体最便宜”。
目的:测试多智能体动态委派与冲突-free 排班能力。
指标:成功率、各设备最优率、总成本、迭代/token/耗时。
分析型查询渐进实验(45 运行)
任务:识别次日最贵 3 h 窗口(12 时段)。
三阶段提示工程:
– Baseline:无额外指导。
– Minimal:仅提示“用 calculate_window_sums 而非估算”。
– Explicit:给出工具参数、结果解读、示例。
目的:量化“无需示例”边界,测最低提示强度。
指标:工具调用准确率、答案正确率、资源消耗。
对照基准
对每组设备组合,用附录 C 的 MILP 穷举搜索生成“地面真值”最优起止时间与成本,用于判定 agent 调度是否 100 % 最优。
模型横向对比
在相同提示与 API 下,重复上述实验于 Llama-3.3-70B、Qwen-3-32B、GPT-OSS-120B,评估规模对协调能力的非线性影响。
安全性与鲁棒性测试(开发阶段)
50+ 条合成恶意输入(提示注入、角色扮演、凭证窃取)验证三层预过滤有效性,确保实验数据不受污染。
所有实验均于 2025-10-14 当日实时运行,避免缓存偏差;温度设为 0.0,每场景 5 次重复以捕捉浮点/实现差异。
Q5: 有什么可以进一步探索的点?
真实部署与用户长期接受度
开展 6–12 个月家庭试点,收集电费节省、满意度、语言习惯演变数据,量化“自然语言调度”对需求响应参与率的提升。
复杂约束场景
引入热泵、储能、光伏、V2G 等多能耦合设备,测试智能体在“供热舒适度 vs 电价 vs 日历冲突”三维权衡下的表现。
研究部分可中断负荷(如 HVAC)与不可中断负荷混合时,ReAct 循环能否自主生成“分段+连续”混合策略。
学习式个性化
在保持可解释前提下,加入在线强化学习或人类反馈(RLHF),让编排器从历史调度与用户修正中提炼“隐式偏好权重”。
混合架构与边缘推理
将 MILP/启发式算法封装为“快速工具”,由 LLM 判断何时调用确定性求解,实现“毫秒级”实时控制 + “秒级”重优化。
探索 7B–14B 量化模型本地部署,降低数据中心能耗与隐私风险,评估在树莓派级硬件上的 token 速度与精度折中。
跨市场泛化与标准化
替换 ENTSO-E 为实时零售电价、阶梯电价、碳强度信号,验证工具链即插即用能力;推动基于 Model Context Protocol (MCP) 的统一能源数据接口。
安全红队与合规
系统级对抗测试(物理越限、隐私泄露、拒绝服务),结合 IEC 62351、ISO/IEC 27001 要求,形成 agentic-HEMS 安全认证框架。
规模化可持续性评估
建立“百万户同时调度”的宏观能耗模型,量化 LLM 推理带来的额外数据中心负荷与全网峰谷差改善之间的净碳收益。
公平性与包容性
研究低数字素养、老年群体及多语言环境下的提示理解差异,设计语音/视觉辅助交互,避免技术红利分配不均。
Q6: 总结一下论文的主要内容
论文核心概述
提出并验证首个“纯大模型自主决策”住宅能源管理系统:用户用自然语言说需求,系统即生成成本最优、可执行的多设备调度方案,无需任何示例或传统优化器介入。
1 研究动机
全球需 2030 年需求响应容量增至 500 GW,住宅贡献 60%,但 HEMS 普及受“参数配置复杂”阻碍。
现有 LLM 研究仅充当代码生成器或参数提取器,未让大模型直接做调度决策。
2 方法框架
分层多智能体
– 1 编排器:解析请求、取电价/日历、协调全局。
– 3 专用智能体:WM、DW、EV,各在单轮内完成滑动窗口穷举寻优。
ReAct 循环
Thought→Action→Observation 迭代,无硬编码顺序,动态决定“取数据-委派-执行”步骤。
统一工具集
电价 API、日历 API、窗口求和、委派调用、设备写入、结束 6 工具,输出 96 位 15-min 二进制计划 JSON。
零示例提示
仅给工具描述与任务指令,不提供任何调度案例,全靠模型预训练能力。
3 实验设计
单设备:洗衣机 vs MILP 最优 → 三模型均 100 % 最优。
三设备协同:同时排 WM+DW+EV → 仅 Llama-3.3-70B 100 % 成功,Qwen-3-32B 20 %,GPT-OSS-120B 0 %。
分析查询:渐进提示工程识别最贵 3 h 窗口 → 无指导时全失败,显式 workflow 后均 100 % 正确。
安全测试:三层预过滤成功拦截 50+ 提示注入,零额外 token 消耗。
4 关键发现
多设备协调对模型规模非线性敏感;32 B 级模型单设备完美,多设备即崩溃。
分析任务需显式 workflow 指导,纯推理不足以自主选工具。
Llama-3.3-70B 在 2 500 tokens/s 推理下 15 s 完成三设备最优排程,交互体验可接受。
系统 100 % 匹配 MILP 最优,证明“自然语言交互”不损失数学最优性。
5 开放资源 & 未来方向
全链路开源(提示、编排、UI、评估脚本)
待扩展:热泵/储能/V2G、边缘量化部署、在线学习、跨市场电价、安全红队、百万户级能耗与公平性研究。
阅读全文 →
来源:Arxiv2025-10-30 15:33:52 UTC