MolChord：基于结构的药物设计中的结构-序列对齐

🔥🔥🔥🔥🔥AI药物设计

MolChord：基于结构的药物设计中的结构-序列对齐

#AI药物设计#结构-序列对齐#蛋白-配体匹配#NatureLM#DPO优化

论文原始标题：MolChord: Structure-Sequence Alignment for Protein-Guided Drug Design

论文作者：Authors: Wei Zhang, Zekun Guo, Yingce Xia, Peiran Jin, Shufang Xie, Tao Qin, Xiang-Yang Li

原始摘要：Structure-based drug design (SBDD), which maps target proteins to candidate molecular ligands, is a fundamental task in drug discovery. Effectively aligning protein structural representations with molecular representations, and ensuring alignment between generated drugs and their pharmacological properties, remains a critical challenge. To address these challenges, we propose MolChord, which integrates two key techniques: (1) to align protein and molecule structures with their textual descriptions and sequential representations (e.g., FASTA for proteins and SMILES for molecules), we leverage NatureLM, an autoregressive model unifying text, small molecules, and proteins, as the molecule generator, alongside a diffusion-based structure encoder; and (2) to guide molecules toward desired properties, we curate a property-aware dataset by integrating preference data and refine the alignment process using Direct Preference Optimization (DPO). Experimental results on CrossDocked2020 demonstrate that our approach achieves state-of-the-art performance on key evaluation metrics, highlighting its potential as a practical tool for SBDD.

翻译标题：MolChord：基于结构的药物设计中的结构-序列对齐

翻译摘要：基于结构的药物设计（SBDD）将目标蛋白映射到候选分子配体，是药物发现中的基本任务。有效地将蛋白质结构表示与分子表示对齐，并确保生成的药物与其药理特性之间的对齐，仍然是一个关键挑战。为了解决这些问题，我们提出了 MolChord，它集成了两个关键技术：(1) 为了将蛋白质和分子结构与其文本描述和序列表示（如蛋白质的 FASTA 和分子的 SMILES）对齐，我们利用 NatureLM，这是一种统一文本、小分子和蛋白质的自回归模型，作为分子生成器，并结合基于扩散的结构编码器；(2) 为了引导分子向所需特性发展，我们通过整合偏好数据并使用直接偏好优化（DPO）来优化对齐过程。在 CrossDocked2020 上的实验结果表明，我们的方法在关键评估指标上达到了最先进的性能，表明其作为 SBDD 实用工具的潜力。

智能问答：

Q1: 这篇论文试图解决什么问题？

论文旨在解决**基于结构的药物设计（SBDD）**中两个核心难题：

蛋白结构表征与分子表征之间的对齐不足

现有方法受限于高质量蛋白-配体对的稀缺，难以将三维蛋白口袋的结构信息有效映射到化学空间，导致生成的分子与靶点结构匹配度低。

生成分子的药理性质与结合亲和力难以兼顾

传统强化学习或偏好优化往往以牺牲类药性（QED）、可合成性（SA）或多样性为代价换取亲和力提升，缺乏在多目标间平衡的能力。

为此，作者提出 MolChord，通过以下手段一次性解决上述问题：

利用统一科学语言模型 NatureLM 把蛋白 FASTA、分子 SMILES 与文本描述纳入同一表征空间，实现结构-序列-文本三模态对齐；

引入扩散结构编码器捕获残基/原子级几何信息，再经轻量 Adapter 与自回归生成器衔接，实现结构到化学序列的直接映射；

构建属性感知偏好数据集，采用 Direct Preference Optimization（DPO）在保持多样性、QED、SA 的同时显著提升结合亲和力。

最终，在 CrossDocked2020 基准上达到 SOTA 亲和力，同时保持高 QED、SA 和多样性，验证了框架在有限配对数据下仍可稳健对齐并生成可开发候选分子的能力。

Q2: 有哪些相关研究？

论文第2节“Related Works”将相关研究划分为两大主线，并进一步细分为若干子类。以下按该结构归纳：

1. Structure-based Drug Design（SBDD）

1.1 早期代表

liGAN（Ragoza et al., 2022）

条件 VAE + 体素化蛋白-配体密度网格。

GraphBP（Liu et al., 2022）

图神经网络在 3D 口袋中逐原子放置生成。

1.2 扩散（Diffusion）方法

DiffSBDD（Schneuing et al., 2024）

SE(3)-等变扩散，直接建模连续 3D 坐标。

TargetDiff（Guan et al., 2023a）

同上，但引入等变去噪。

DecompDiff（Guan et al., 2023b）

将口袋分解为功能区域再扩散，提高合理性与可合成性。

1.3 流匹配（Flow-based）方法

FlowSBDD（Zhang et al., 2024）

矫正流匹配，连续潜在空间生成。

MolForm（Huang & Zhang, 2025）

多模态流匹配，后续同样采用 DPO 做偏好对齐。

1.4 自回归（Autoregressive）方法

AR（Luo et al., 2021）

最早将配体生成视为口袋条件序列生成。

Pocket2Mol（Peng et al., 2022）

原子级自回归，逐原子生成分子图。

ResGen（Zhang et al., 2023）

残基级编码，并行多尺度建模。

XYZ-Transformer（Flam-Shepherd & Aspuru-Guzik, 2023）

把 3D 坐标直接 token 化再做自回归。

BindGPT（Zholus et al., 2025）

3D 坐标 token 化 + RL 微调，提升亲和力但牺牲多样性。

1.5 显式结构编码 + 语言模型

TamGen（Wu et al., 2024）

蛋白编码器 + 化学语言模型，跨模态注意力。

3D-SMILES-GPT（Wang et al., 2025）

口袋 3D 信息注入 GPT，生成 SMILES。

Lingo3DMol（Feng et al., 2024）

结构编码器与语言模型拼接，类似本文思路但参数量与对齐策略不同。

2. Reinforcement Learning / Preference Optimization for SBDD

2.1 传统 RL 方法

BindGPT、3DMolFormer（Hu et al., 2025）

用策略梯度直接优化 docking score，多样性下降明显。

DecompDPO（Cheng et al., 2024）

将口袋分解为子区域后做 DPO，亲和力提升但仍存在 QED/SA 下降。

2.2 偏好优化（DPO 及其变体）

MolForm（Huang & Zhang, 2025）

首次把 DPO 引入 SBDD，仅依赖 docking score 构造偏好对。

AliDiff（Gu et al., 2024）

提出 Exact Energy Preference Optimization（E2PO），增加能量正则项。

这些研究共同指出：单纯以 docking 分数为奖励会损害分子多样性及类药性，因此需要更高质量的偏好数据与更平衡的目标函数——这正是 MOLCHORD 通过多模态预对齐 + 精心筛选的偏好数据集 + 融合环惩罚所要克服的局限。

Q3: 论文如何解决这个问题？

论文提出 MOLCHORD，通过“三阶段训练 + 双编码器架构 + 偏好优化”的协同设计，一次性解决蛋白-分子对齐不足与亲和力-性质难兼顾两大痛点。具体做法如下：

1. 架构设计：把“结构”转成“语言

模块t功能t关键技术

结构编码器t把 3D 蛋白/小分子/复合物编码成统一几何表征t基于 FlexRibbon 的扩散 Transformer，预训练 78 M 蛋白结构

序列生成器t自回归生成 SMILES、FASTA、文本t4 B 参数 NatureLM，支持蛋白、分子、文本混合序列

轻量 Adaptert把几何表征映射到生成器的词嵌入空间t门控 MLP，仅 0.1 B 参数，可插拔

VAE 辅助t向蛋白口袋特征注入可控噪声t提升多样性 + 鲁棒性

核心公式

结构到序列的统一嵌入：

Iemb=[e1,…,em

text,u1,…,uN

3D→Adapter,em+1,…,en

text]

2. 三阶段训练：先对齐、再监督、后偏好

阶段t数据t训练目标t关键技巧

A. 跨模态对齐t1.1 M 无配对结构-序列样本（蛋白-FASTA/文本、分子-SMILES/文本、复合物-FASTA+SMILES）t只训 Adapter，最大化下一 token 似然t冻结双骨干，避免灾难性遗忘

B. 监督微调tCrossDocked2020 口袋-配体对（DB 子集）t生成符合条件分布的 SMILEStVAE 注入高斯噪声，提升化学空间覆盖

C. 偏好优化t自采样的 979 个高多样性口袋（DDPO 子集）tDPO 直接优化“好-坏”分子对t奖励函数兼顾 Vina 分数与融合环惩罚，防止过拟合 docking

DPO 目标

令 πθ 为当前策略，πref 为 Stage-B 冻结模型：

LDPO=−logσ[βDPO(log

πθ(M+|P)

πref(M+|P)

−log

πθ(M−|P)

πref(M−|P)

)]

奖励定义：

R(M,P)=−[SVina(M,P)

dock+λ⋅max(0,#fused_ring(M)

化学复杂度−2)]

3. 数据策略：把“偏好”做精不做多

分层采样：

训练 SFT 与 DPO 使用不相交蛋白集合，避免泄漏。

仅保留“>2 个配体”的蛋白用于 SFT（保证多样性），其余用于 DPO。

多样性过滤：

对每个口袋先采样 100 个分子，指纹相似度<0.2 才保留，最终 1 K 口袋进入 DPO，防止模型只记住单一路径。

4. 推理效率：4 秒生成 100 个分子

单 A100 上，MOLCHORD 以 temperature=1.5、top-p=0.95 自回归采样，平均 4 s/口袋，比扩散类方法快 1–2 个数量级。

结果验证

指标tMOLCHORDtMOLCHORD-RLt最佳基线

Vina Dock ↓t−7.62t−8.59t−8.50 (FlowSBDD)

High Affinity ↑t55.1 %t74.6 %t64.4 % (DecompDiff)

Success Rate ↑t33.2 %t53.4 %t32.4 % (TamGen)

QED ↑t0.56t0.56t0.56 (Pocket2Mol)

SA ↑t0.77t0.78t0.77 (TamGen)

Diversity ↑t0.76t0.71t0.75 (GraphBP)

Out-of-distribution：非同源蛋白上亲和力反而提升 +0.17，验证结构编码器泛化性。

融合环：均值 1.75，与 FDA 批准药物 1.78 几乎一致，显著低于基线 2.5–3.5。

总结

MOLCHORD 通过“大规模结构-序列预对齐 → 轻量适配 → 属性感知 DPO”的流水线，把蛋白三维信息无缝注入自回归语言模型，在仅 100 K 配对数据条件下即实现亲和力、类药性、可合成性与多样性的同步提升，为 SBDD 提供了一条可扩展、可解释、高效的新路径。

Q4: 论文做了哪些实验？

论文在 CrossDocked2020 基准上开展了系统性实验，覆盖主实验、消融、可视化、分布外泛化、效率与案例研究六大维度，具体如下：

1. 主实验：与 9 个代表性方法全面对比

方法类别t基线

早期结构方法tliGAN, GraphBP

自回归tAR, Pocket2Mol, TamGen

扩散tTargetDiff, DecompDiff

流匹配tFlowSBDD

BFNtMolCRAFT

评估指标（每口袋生成 100 分子）

亲和力：Vina Dock ↓、High Affinity ↑（≤ 参考配体分数的比例）

类药性：QED ↑

可合成性：SA ↑

多样性：平均 Tanimoto 距离 ↑

综合成功率：QED>0.25 & SA>0.59 & Vina<−8.18 的比例 ↑

结果

MOLCHORD-RL 在 Vina、High Affinity、Success Rate 三项核心指标首次突破 70 % 亲和力门槛，并维持最高 SA（0.78）。

MOLCHORD（无 RL）已在 QED、SA、Diversity 上达到或超过最佳自回归基线，验证对齐策略本身已足够强。

2. 消融实验：验证每一组件必要性

2.1 结构-序列对齐方式（仅 Stage-A 不同）

设定tVina ↓tHigh AffinitytSuccess Rate

Naïve Alignment（直接用下游数据）t−7.38t49.8 %t28.6 %

Protein-FASTA Onlyt−7.44t50.7 %t31.2 %

Full Alignment（蛋白+分子+复合物+文本）t−7.62t54.7 %t33.2 %

→ 多模态对齐显著减轻过拟合，提升亲和力与多样性。

2.2 数据划分策略

设定tVina ↓tSuccess Rate

SFT(Dfull)+DPO(random)t−8.22t42.1 %

SFT(DB)+DPO(random)t−8.44t47.1 %

SFT(DB)+DPO(DDPO) diversity过滤t−8.59t53.4 %

→ 分层数据与多样性过滤单独贡献 +11.3 % 成功率。

2.3 VAE 噪声注入

设定tVina ↓tSuccess Rate

w/o VAEt−7.44t29.5 %

with VAEt−7.62t33.2 %

→ 随机潜变量** consistently 提升所有指标**。

3. 化学合理性分析：融合环统计

采样 100 靶 × 10 个最高分分子

MOLCHORD-RL 平均融合环 = 1.75，与 FDA 药物 1.78 几乎一致；显著低于 Pocket2Mol(3.46)、TargetDiff(3.55)。

4. 分布外（OOD）泛化

按 30 % 序列同源性切分：40 同源 vs 60 非同源口袋

其他方法在非同源靶点掉性能 0.2–0.3 kcal/mol

MOLCHORD-RL 反而提升 +0.17 kcal/mol，体现结构预训练带来的可迁移特征。

5. 效率对比

单 A100 生成 100 分子所需时间：

方法t时间

Pocket2Mol / TargetDiff / DecompDifft数十秒–数分钟

MOLCHORDt≈ 4 s

→ 自回归+轻量 Adapter 实现数量级加速，适合大规模虚拟筛选。

6. 案例与可视化

1gg5 口袋：

Reference: Vina = −8.54, SA = 0.84

MOLCHORD: −10.59, 0.78

MOLCHORD-RL: −12.49, 0.86

MOLCHORD-RLdock: −13.48, 0.73 （亲和力最高，但 QED 略降）

图示展示 RL 如何在保持合理 SA 前提下逐步降低结合能。

Median Vina 能量曲线（100 测试靶）：

MOLCHORD 在 50 % 靶点上取得最低中位数能量，优于 TargetDiff、Pocket2Mol、TamGen。

7. 附加分析

多样性-亲和力 trade-off 曲线：确认 RL 仅轻微降低多样性（0.76 → 0.71），仍高于扩散方法。

** fused-ring 分布直方图**：MOLCHORD 分布与 FDA 药物高度重叠，基线普遍右偏。

数据分布：CrossDocked2020 96 % 靶点配体数 >2，解释为何分层采样有效。

总结

实验从定量指标、化学合理性、泛化能力、运行效率到可视化案例多维度验证：

每一设计选择（多模态对齐、VAE、分层数据、DPO）均带来可度量增益；

在亲和力、类药性、可合成性、多样性四者间取得当前最佳平衡；

4 秒级生成速度与非同源靶点提升展示实际药物发现落地潜力。

Q5: 有什么可以进一步探索的点？

以下方向可在此基础上继续深入，分为数据、模型、评价、应用四个层面，均与 MOLCHORD 的设计留有接口，可直接继承其“结构-序列-语言”统一框架。

1. 数据层面

探索点t简述t可能收益

1.1 动态偏好数据集t随实验或文献持续收集新活性/毒性标签，用在线 DPO 滚动更新模型t解决“偏好数据一次性”问题，让模型伴随真实项目迭代

1.2 多目标偏好扩展t把 hERG、CYP450、溶解度、LogP 等ADMET 指标一起做成多属性偏好对t一步生成“可开发”分子，减少后期失败率

1.3 蛋白构象集成t用分子动力学或 AlphaFold3 生成口袋系综，对同一靶标多次采样t缓解“单构象过拟合”，提高诱导契合场景下的成功率

2. 模型层面

探索点t简述t可能收益

2.1 三维坐标直接输出t在 SMILES 生成后再接坐标精调扩散头，实现“序列→3D”端到端t省去后对接步骤，梯度反向传播可直达 3D 坐标

2.2 逆折叠联合优化t把蛋白口袋侧链重排也做成条件生成，蛋白-配体双向共设计t探索全新结合位点或克服耐药突变

2.3 多模态链式思考（CoT）t让模型先输出口袋描述、再输出药效团假设、最后生成分子t提升可解释性，便于药化专家干预

2.4 参数高效扩展t采用 MoE 或 LoRA 把参数量扩到 10 B+，仅激活少量专家t在保持推理速度前提下扩大化学空间容量

3. 评价与理论层面

探索点t简述t可能收益

3.1 能量-偏好一致性t用 MM/GBSA、FEP 等自由能计算重新标定偏好对，检验 DPO 奖励是否与真实结合能线性相关t降低** docking 分数误导**风险

3.2 多样性度量细化t引入药效团相似度、合成步数、Scaffold Tree 多样性，替代单纯指纹t防止“假多样性”——指纹不同但合成路径相同

3.3 可解释性评测t用注意力 rollout 或探测任务查看 Adapter 把哪些残基/原子映射到分子子结构t验证模型是否正确捕捉关键相互作用，而非记忆配体

4. 应用与系统层面

探索点t简述t可能收益

4.1 主动学习闭环t生成→合成→活性测试→结果回流，用不确定性采样挑选下一轮口袋t打造自动驾驶式药物发现流水线

4.2 多靶标-多模态条件t同时输入蛋白家族树、疾病描述、专利规避结构作为负提示t直接生成选择性高、专利自由的分子

4.3 实时网页服务t把 4 B 模型蒸馏至 0.5 B，配合量化/张量并行部署为 Web APIt让药化专家秒级交互式生成候选结构

4.4 生物药扩展t把抗体 CDR 序列、肽链、核酸适配体纳入 NatureLM 词表t统一框架覆盖小分子+大分子双赛道

5. 风险与伦理探索

探索点t简述

5.1 毒性逆向生成t研究模型在何种提示下会输出有毒或管制化合物，并加入对齐护栏

5.2 数据授权链t对 78 M AlphaFold 结构与 PDB 复合物的商业授权进行梳理，避免下游专利纠纷

快速落地建议（3 个月可验证）

选 2–3 个已进入临床的同源靶标，用构象系综+多目标 DPO 重训模型；

同步收集真实活性与 ADMET，构建在线反馈回路；

以 FEP 自由能作为新偏好标签，观察是否比 Vina 奖励减少假阳性 30 %；

把生成分子送自动化合成平台，统计合成成功率与路线复杂度，验证 fused-ring 惩罚是否足够。

通过以上探索，可逐步把 MOLCHORD 从“高性能生成器”升级为可解释、可迭代、可落地的端到端药物发现系统。

Q6: 总结一下论文的主要内容

MOLCHORD：面向基于结构药物设计的结构-序列对齐统一框架

（一句话）

用扩散编码器把蛋白口袋变成“语言”，再用40 亿参数自回归模型生成 SMILES，通过三阶段对齐 + 偏好优化在4 秒内产出高亲和力、高类药性、易合成的候选分子。

1. 痛点

蛋白-分子三维表征对齐数据稀缺

生成结果常牺牲 QED/SA/多样性换取亲和力

2. 方法总览

双骨干 + 轻量 Adapter + 三阶段训练

阶段t数据t训练内容t目标

A. 跨模态对齐t1.1 M 无配对结构-序列-文本t只训 Adapter，下一 token 预测t建立共享“结构-语言”空间

B. 监督微调tCrossDocked2020（DB 子集）tVAE 噪声 + 口袋→SMILES 生成t锚定真实口袋-配体分布

C. 偏好优化t979 高多样性口袋（DDPO）tDPO（好-坏分子对）t提升亲和力且保持 QED/SA/多样性

奖励函数

R=−[SVina+λ⋅max(0,#fused_ring−2]

3. 结果（CrossDocked2020）

指标tMOLCHORDtMOLCHORD-RLt最佳基线

Vina Dock ↓t−7.62t−8.59t−8.50

High Affinity ↑t55 %t75 %t64 % (DecompDiff)

Success Rate ↑t33 %t53 %t32 % (TamGen)

QED/SA/多样性t0.56 / 0.78 / 0.71t维持高水平t基线难兼顾

Out-of-distribution：非同源蛋白亲和力反升 +0.17

融合环：1.75 ≈ FDA 药物 1.78，显著低于基线 2.5–3.5

速度：单 A100 生成 100 分子 ≈ 4 s，比扩散方法快 1–2 数量级

4. 消融验证

多模态对齐 vs 纯下游数据：+5 % Success Rate

VAE 噪声注入：+3.7 % Success Rate

分层数据 + 多样性过滤：+11 % Success Rate

5. 贡献

首次将扩散结构编码器与40 B 自回归语言模型通过轻量 Adapter 无缝衔接，实现结构→SMILES端到端生成。

提出属性感知偏好数据集 + 融合环惩罚，用 DPO 在亲和力与 QED/SA/多样性间取得最佳平衡。

在 CrossDocked2020 五项核心指标同时达到 SOTA，且4 秒级推理、OOD 泛化强，为实际 SBDD 提供即用工具。

阅读全文 →

🌟 今日前沿论文 · 2025年10月31日

MolChord：基于结构的药物设计中的结构-序列对齐