改变游戏规则,TF模型作者颠覆性LLM微调技术,一句话生成任务专属LoRA
来源: | 作者:DE.Tech | 发布时间: 2025-06-20 | 48 次浏览 | 分享到:
一句话定制模型”的时代正在开启,非技术用户不再需要学习复杂的微调知识,直接用通俗易懂的自然语言就可以完成相应工作,这就像为LLM配置了一位高效的私人教练,将彻底改变游戏规则。

改变游戏规则,TF模型作者颠覆性LLM微调技术



前沿


一句话生成任务专属LoRA

不用再为如何高效"炼丹"烦恼?通过最新的T2L技术一句话就能生成你专属任务的LoRA,彻底告别微调困扰。
Transformer作者之一Llion Jones联合创立的明星AI公司SakanaAI,近期推出了Text-to-LoRA (T2L),彻底简化了模型适配任务的流程:

动图

背景


基础模型(如LLMs)在多种任务上表现出色,但通常需要针对特定任务进行微调。传统微调方法(如LoRA)虽然有效,但需要大量计算资源和对超参数的精细调整。LoRA是一种参数高效的微调方法,通过学习低秩权重矩阵来适应特定任务。这些低秩矩阵作为适配器,可以显著减少需要训练的参数数量。超网络是一种神经网络,能够生成其他网络的参数。T2L技术正是利用了这种超网络的能力,来根据任务描述生成LoRAs适配器。

技术实现


它是如何做到呢?先看一下效果!

跟传统的方法相比,T2L在多个基准任务上表现优于多任务LoRA适配器,并且在某些任务上超过了任务特定的LoRAs适配器。

T2L架构设计


T2L设计上包括以下几个关键部分:

  • 任务嵌入器(Task Encoder):将自然语言任务描述转换为固定维度的嵌入向量。

  • 模块嵌入(Module Embedding):为不同的模块类型(如查询投影和值投影)提供嵌入。

  • 层嵌入(Layer Embedding):为不同的层索引提供嵌入。

  • 多层感知机MLP:将任务嵌入、模块嵌入和层嵌入组合起来,生成LoRAs适配器的低秩矩阵A和B。

一共包含3种架构变体,它们在输出空间和参数规模上各有不同,具体为:


T2L-L:


为每个目标模块(如注意力层、MLP 层)和网络层生成完整的 LoRA 权重矩阵。

该架构的参数规模最大,但能灵活适配不同层的特性,适用于需要精细控制每层适配的场景。


T2L-M:


按模块类型(而非具体层)共享输出空间。对于同一类型的模块,超网络仅生成一组共享的LoRA矩阵,并应用于该类型下的所有层。

该架构通过参数共享减少了模型规模,同时保留了模块类型级别的适配能力,在参数效率和性能之间取得平衡。


T2L-S:


为整个模型生成统一的LoRA适配器,不区分模块类型和层索引。

该架构参数规模最小,适用于计算资源有限或任务需求较通用的场景,通过全局适配实现快速部署。


训练方法

为了训练T2L模型,采用两种训练模式,分别是基于LoRA的重建和跨多个任务的监督微调 (SFT)。


LoRA重建训练(Reconstruction Training):在这种训练方式中,T2L的目标是重建预训练的LoRAs适配器。这允许T2L利用现有的LoRAs库进行训练,并且可以通过自然语言任务描述来生成LoRAs适配器,从而实现对未见任务的零样本适应。


LoRA重建的核心思想是让T2L从任务的文本描述中,生成与真实LoRA适配器效果相近的参数,从而最大限度地减少生成适配器和目标适配器之间的重建损失。
这种方法避免了传统方法中对大量任务数据的依赖,转而利用已有的LoRA适配器和文本描述构建监督信号,压缩了现有的LoRAs,但难以进行零镜头的泛化。


监督微调训练(Supervised Fine-Tuning, SFT):在这种训练方式中,T2L直接在微调数据集上进行优化,而不需要预训练的LoRAs适配器。这种方式允许T2L端到端地学习任务描述与LoRAs适配器之间的映射关系,从而更好地适应新任务。


监督微调本质是使用任务描述,在任务数据集上直接端到端训练T2L。这改进了对未知任务的泛化,并能够根据文本描述生成具有可引导行为的适配器,更适合进行零镜头训练。


为了验证T2L模型技术效果,针对上述两项训练,团队分别进行实验验证。


实验


重建LoRA参数实验

通过设置9个不同的NLP任务,将一一对应的LoRA适配器参数压缩为文本描述的嵌入向量,并通过3种T2L变体分别重建LoRA参数。实验发现,重建LoRA与原始LoRA相比,参数规模从15.8M下降为3.2M,压缩率达80%,但在任务的平均准确率上仅下降了1.2%,证明了压缩过程中的知识保留能力。
其中,T2L-L在压缩后性能最接近原始LoRA,而T2L-S压缩率最高。T2L能够实现高效的参数压缩,可以极大地减少存储需求,帮助LLM在资源受限环境中进行部署。


零样本实验

团队还进一步验证了T2L在零样本场景下生成LoRA适配器的能力。
构建了12个全新的NLP任务并各自提供自然语言描述,使用T2L生成的对应LoRA适配器直接应用于基础模型,测试其在标注数据集上的性能。
结果表明,T2L的平均准确率达到了78.3%,显著高于多任务LoRA的65.1%,和目前最先进的零样本LoRA路由方法Arrow Routing的72.4%。其中T2L-L因为能够为不同层定制参数,在复杂任务中表现最佳,而T2L-S在简单任务上效率更高,参数规模仅为T2L-L的五分之一,但性能仅下降3.2%。


比较实验

      比较重建训练和监督微调训练的性能差异。
训练T2L的不同架构变体(L、M、S)分别使用重建训练和监督微调训练。
在10个基准任务上进行零样本评估。
结果显示,监督微调训练的T2L在零样本适应上表现显著优于重建训练的T2L,监督微调训练的T2L平均性能为67.7%,而重建训练的T2L平均性能为61.8%。


可视化分析

  使用t-SNE投影将T2L生成的LoRAs适配器投影到二维空间。
  对10个基准任务进行可视化分析。


最终,T2L生成的LoRAs适配器在不同任务上形成了清晰的聚类。相似任务(如MBPP和HumanEval)的LoRAs适配器在投影图中靠近,表明T2L能够根据任务描述生成特定任务的适配器。


探索


更高效的LoRA生成

  • 直接生成全秩适配器:目前T2L生成的是低秩矩阵A和B,但理论上可以探索直接生成全秩适配器的可能性。这可能需要更复杂的网络结构或训练方法,但有望进一步提升性能。

  • 动态秩调整:研究如何动态调整LoRA的秩,以适应不同任务的复杂性。例如,对于简单任务可以使用较低的秩,而对于复杂任务可以使用较高的秩。


训练方法的改进

  • 混合训练方法:结合重建训练和监督微调训练的优点,设计一种混合训练方法。例如,先进行重建训练,然后在少量任务上进行监督微调,以进一步提升性能。

  • 元学习方法:探索元学习方法,使T2L能够更快地适应新任务。例如,通过学习任务描述与LoRAs适配器之间的映射关系,T2L可以更高效地生成适配器。


模型架构的优化

  • 更轻量级的超网络:设计更轻量级的超网络架构,以减少计算开销和参数数量,同时保持性能。

  • 模块化超网络:研究如何将超网络模块化,使其能够更好地处理不同类型的任务。例如,为不同类型的任务设计不同的模块,然后通过任务描述动态选择合适的模块。


计算优化

  • 稀疏性和量化:研究如何通过稀疏性和量化技术进一步优化T2L的计算效率,使其更适合在资源受限的环境中使用。

  • 分布式训练:探索分布式训练方法,以加速T2L的训练过程,特别是在处理大规模任务数据集时。


后话

Sakana.AI公司专注利用自然启发的方法(如进化计算和集体智能)来开发基础模型,例如在今年5月他们根据达尔文进化论提出了达尔文哥德尔机 (DGM),可以让AI通过读取和修改自身代码来提升编码性能。




Robert T. Lange是Sakana AI的研究科学家和创始成员之一,致力于用基础模型来增强和自动化科学发现过程。他还主导参与了首个独立生成学术论文的“AI科学家”项目,还曾在社区引起广泛热议。

论文则由Rujikorn Charakorn、Edoardo Cetin、Yujin Tang、Robert T. Lange共同完成。


论文链接https://arxiv.org/abs/2506.06105

代码链接https://github.com/SakanaAI/Text-to-Lora

参考链接

[1]https://x.com/RobertTLange/status/1933074366603919638

[2]https://huggingface.co/SakanaAI/text-to-lora/tree/main

[3]https://x.com/tan51616/status/1932987022907670591

[4]https://x.com/SakanaAILabs/stat


—END—


注:数据公开发布,版权出版方所有,不构成任何投资建议
返回