面向多语言多模态电商应用的大语言模型可靠评估
论文原始标题:Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications
论文作者:Authors: Shuyi Xie, Ziqin Liew, Hailing Zhang, Haibo Zhang, Ling Hu, Zhiqiang Zhou, Shuman Liu, Anxiang Zeng
原始摘要:Large Language Models (LLMs) excel on general-purpose NLP benchmarks, yet their capabilities in specialized domains remain underexplored. In e-commerce, existing evaluations-such as EcomInstruct, ChineseEcomQA, eCeLLM, and Shopping MMLU-suffer from limited task diversity (e.g., lacking product guidance and after-sales issues), limited task modalities (e.g., absence of multimodal data), synthetic or curated data, and a narrow focus on English and Chinese, leaving practitioners without reliable tools to assess models on complex, real-world shopping scenarios. We introduce EcomEval, a comprehensive multilingual and multimodal benchmark for evaluating LLMs in e-commerce. EcomEval covers six categories and 37 tasks (including 8 multimodal tasks), sourced primarily from authentic customer queries and transaction logs, reflecting the noisy and heterogeneous nature of real business interactions. To ensure both quality and scalability of reference answers, we adopt a semi-automatic pipeline in which large models draft candidate responses subsequently reviewed and modified by over 50 expert annotators with strong e-commerce and multilingual expertise. We define difficulty levels for each question and task category by averaging evaluation scores across models with different sizes and capabilities, enabling challenge-oriented and fine-grained assessment. EcomEval also spans seven languages-including five low-resource Southeast Asian languages-offering a multilingual perspective absent from prior work.
翻译标题:面向多语言多模态电商应用的大语言模型可靠评估
翻译摘要:大型语言模型(LLMs)在通用自然语言处理基准上表现出色,但在专业领域的能力仍研究不足。在电商领域,现有的评估(如 EcomInstruct、ChineseEcomQA、eCeLLM 和 Shopping MMLU)存在任务多样性不足(如缺乏产品指导和售后问题)、任务模态有限(如缺乏多模态数据)、合成或整理数据、仅关注英语和中文等问题,导致从业者缺乏可靠的工具来评估模型在复杂现实电商场景中的能力。我们引入了 EcomEval,这是一个全面的多语言多模态电商评估基准。EcomEval 覆盖六个类别和 37 项任务(包括 8 项多模态任务),数据主要来源于真实客户查询和交易日志,反映了真实商业交互的噪声和异构性。为了确保参考答案的质量和可扩展性,我们采用半自动流程,由大型模型生成候选答案,随后由 50 多位具有电商和多语言专业知识的专家进行审核和修改。我们通过不同规模和能力模型的评估分数平均值来定义每道题和任务类别的难度等级,实现面向挑战和细粒度的评估。EcomEval 还涵盖七种语言,包括五种低资源东南亚语言,填补了之前工作缺乏多语言视角的空白。
智能问答:
Q1: 这篇论文试图解决什么问题?
EcomEval 旨在解决现有电商领域大模型评测基准存在的四大核心缺陷,从而提供一个可信赖、可复现、能真正反映电商复杂场景的多语言多模态评测工具。具体而言,论文针对以下问题展开:
任务多样性不足
既有基准(EcomInstruct、ChineseEcomQA、eCeLLM、Shopping MMLU 等)普遍缺失售前导购、售后客服、跨模态理解等关键业务环节,无法覆盖真实电商链路。
数据真实性与复杂性缺失
现有数据集大量依赖合成或人工精修指令,过滤了真实用户查询中的噪声、歧义与多轮上下文,导致评测结果与线上表现脱节。
语言与模态覆盖狭窄
几乎所有基准聚焦英文与中文,对东南亚低资源语言(印尼、越南、泰、马来)及图像-文本混合场景支持有限,难以衡量全球电商所需的多语言多模态能力。
缺乏细粒度难度校准
以往基准未对任务或题目进行难度分层,无法精确定位模型在不同复杂度场景下的能力边界,也难以为后续模型迭代提供可操作的改进方向。
EcomEval 通过构建「37 项任务、6 大类别、7 种语言、8 项多模态」且全部带有难度标签的真实业务数据集,并采用「大模型初稿 + 50+ 电商专家多语言复审」的半自动流水线,首次实现了对通用大模型在电商领域细粒度、可解释、多语言多模态的可靠评估,填补了上述空白。
Q2: 有哪些相关研究?
与 EcomEval 直接相关的研究可分为两条主线:
(1) 面向电商场景的 LLM 应用与指令数据构造;
(2) 电商领域评测基准的提出与演进。
以下按时间轴梳理代表性工作,并指出其与 EcomEval 的差异。
1. 电商 LLM 应用与指令数据
工作 核心贡献 与 EcomEval 的关系
EcomInstruct (Li et al., 2023) 首个大规模电商指令数据集,覆盖 12 类任务(属性抽取、描述生成等),基于公开语料合成指令。 仅提供英文指令数据,无多语言、无多模态、无真实用户噪声,评测集为静态单轮。
ECInstruct / eCeLLM (Peng et al., 2024) 引入 10+ 电商任务,全部来源于真实客服日志,强调“真实输入-输出”对。 仍局限英文单语,无图像模态,且未对任务进行难度分层;评测集规模小,未公开多语言版本。
MMECInstruct (Ling et al., 2024) 在 eCeLLM 基础上加入 7 项多模态任务(图像+文本),覆盖产品识别、图像描述等。 仅英文,任务类别远少于 EcomEval,且未引入低资源语言及难度标签。
ChineseEcomQA (Chen et al., 2025) 针对中文电商概念理解构建 10 类 QA,题目形式为选择题,聚焦商品知识问答。 单语言、单模态、题型单一,无售前售后及多轮对话场景,难度无校准。
2. 电商评测基准
工作 核心贡献 与 EcomEval 的关系
Shopping MMLU (Jin et al., 2024) 57 项选择题任务,覆盖购物概念、知识推理与用户行为对齐,支持 6 语言。 题型仅限单选,无开放生成、无多模态,部分题为人工合成;未提供题目级难度,亦未包含导购/售后对话。
EcomInstruct-test EcomInstruct 的留出评测集,12 任务英文生成评测。 语言、模态、任务多样性均不足,无难度标签。
eCeLLM-test eCeLLM 的留出评测集,10 任务英文生成评测。 真实数据但无多模态、无多语言、无难度分层。
MMECInstruct-test 在 eCeLLM-test 上增加 7 项多模态任务,英文评测。 语言单一,任务数与难度标签均缺失。
3. 其他相关技术组件
多语言电商检索
CatalogRAG (Zhang et al., 2025) 提出检索增强的多语言属性抽取框架,但仅聚焦属性值抽取,未提供评测基准。
电商搜索相关性
LREF (Tang et al., 2025) 用 LLM 对搜索 query-商品对进行相关性打分,其数据构造流程与 EcomEval 的“真实日志→任务分类→人工校验”思路类似,但任务单一且未公开多语言评测集。
多模态商品理解
CASLIE (Ling et al., 2024) 强调“图像+文本”指令数据对电商视觉-语言模型的增益,然而仅给出数据构造方法,无系统评测基准。
4. 小结
现有工作要么聚焦指令数据构造而忽视系统评测,要么提供静态单语/单模态评测而缺失真实复杂场景。EcomEval 首次将“真实用户日志、37 项细分任务、7 语言、8 多模态、难度校准”整合为统一基准,填补了电商领域多语言多模态可靠评测的空白。
Q3: 论文如何解决这个问题?
EcomEval 的解决方案可概括为“一条流水线、两层难度、三维覆盖、四方验证”,具体对应以下四个技术模块:
1. 真实日志驱动的任务体系构建
目标:让任务分布≈线上真实分布,且覆盖售前-售中-售后全链路。
Step 1 日志采集
收集两类原始信号:
API 调用日志(同一业务场景多轮请求,指令前缀高度一致);
网页端自由对话(噪声大、意图随机)。
Step 2 任务析出
API 数据:采用前缀聚类 → 自动提取候选任务名 → 人工校验,得到 37 项高频电商任务。
网页数据:用 Qwen3-8B+LoRA 微调分类器映射到同一 37 类标签,并引入“Others”吸收长尾意图。
Step 3 质量过滤
制定 3 条硬规则:
必须电商相关;
输入+指令逻辑自洽;
信息足够给出无歧义答案。
不符合即丢弃,确保题目真实可用。
2. 半自动参考答案生产流水线
目标:在“规模”与“精度”之间取得平衡。
大模型草稿:GPT-4o 按任务模板批量生成候选答案。
外部知识核验:对涉及品牌、参数、售后政策等事实类问题,调用搜索引擎+主流电商平台 API 进行二次验证。
专家复审:50+ 具备多语言背景的电商运营/客服专家,按 0–3 评分细则逐条修订,最终形成带参考答案的 3 100 题核心集。
3. 难度感知机制
目标:实现“题目-任务”双粒度难度标签,支持细粒度诊断。
计算方式
先用 7B→数百 B 共 19 款模型在每题上跑分(0–3),线性映射到 0–100;
再按题目均分划定三级:
≥80 Easy
70–80 Medium
<70 Hard
用途
任务级难度直接写入 benchmark,便于后续模型按能力选型;
题目级难度随数据集开源,支持研究者做课程学习或错误分析。
4. 多语言+多模态覆盖
目标:反映全球化电商场景,补齐低资源语言与视觉信号缺失。
语言
中英之外,新增印尼、越南、泰、马来、葡五种东南亚低资源语言;全部题目与答案均由母语者审核,避免机翻偏差。
模态
8 项多模态任务(商品图选款、品牌识别、违规图检测、图像-评论摘要等),覆盖商品生命周期的视觉理解需求。
5. 评估协议与可复现性
LLM-as-Judge:采用 GPT-4.1 做自动评分,人工抽检校准 κ>0.85;
指标统一:0–3 分线性转百分比,闭源/开源模型同标准对比;
全量开源:数据集、难度标签、评分脚本、评测代码一体发布,支持社区直接复现与增量扩展。
通过上述设计,EcomEval 将“真实业务日志 → 高质量标注 → 难度校准 → 多语言多模态评测”完整闭环,首次为电商领域提供了可信赖、可扩展、可诊断的大模型评测基准。
Q4: 论文做了哪些实验?
实验围绕「能否用 EcomEval 可靠地区分模型能力」这一核心问题展开,共设计 5 组对比与分析。所有实验均采用 GPT-4.1-as-Judge 0–3 评分,人工抽检 κ>0.85,分数线性映射到 0–100%。
1. 主实验:19 款 SOTA 模型全任务评测
目的:验证 benchmark 对闭源与开源模型的区分度。
模型分组 代表模型 平均得分 最佳单项
闭源 GPT-5 73.69 Shopping Concept / Shopping Reasoning
GPT-4.1 73.52 Ecom QA / Ecom Generative Ability
Gemini-2.5-pro 71.41 —
开源 Qwen3-32B 67.29 领先所有开源系
Llama-4-scout 62.93 —
结论
闭源整体 > 开源,但差距并非均匀:在「电商生成」与「用户理解」两类,最强开源模型仅落后 4–6 pp,而在「多模态理解」落后可达 15 pp。
通用榜单排名≠电商排名:Qwen3-32B 在通用基准显著优于 GPT-4o-mini,但在 EcomEval 仅高 0.95 pp,说明领域转移明显。
2. 多语言性能实验
目的:检验低资源语言带来的额外挑战。
语言 最佳模型 最差模型 差距
英语 GPT-4.1 (75.20) Llama3-8B (62.80) 12.4 pp
印尼语 GPT-5 (73.19) Llama3-8B (52.76) 20.4 pp
马来语 GPT-5 (72.23) Llama3-8B (48.16) 24.1 pp
结论
模型在英语上差异最小(<1 pp 头名差距),随资源降低差距显著拉大,说明多语言评估是必要的。
同一模型在不同语言表现波动最大可达 15 pp,暴露多语言一致性短板。
3. 电商专项深度分析
目的:定位模型在真实业务场景的“死角”。
电商生成
产品标题/标签生成平均仅 52–58 pp;主流错误:卖点遗漏、格式违规、重复关键词。
用户理解
query-商品匹配任务中,模型忽略「品类+目标人群」约束,导致相关度误判率 >30%。
售前导购 & 售后服务
19 模型区间 62–78 pp;典型失败:退换货政策推理、跨境物流时效计算。
4. 多模态任务对比
目的:评估 MLLM 对“图像+文本”电商场景的理解。
模型 平均 短板任务 说明
GPT-5 77.04 MPS 62.23 在「多模态商品相似度」仍显著落后文本类任务
Gemini-2.5-flash 73.27 MSR 68.07 把“相似”过度委托给标题,忽略图片细节
Llama-4-scout 59.92 — 意外在「品牌识别」夺魁,体现数据配方差异
结论
即使最强闭源模型,在需细粒度视觉比对任务上与纯文本任务仍有 10–15 pp 差距。
所有模型倾向“标题 heuristic”,反映视觉-语言对齐尚未成熟。
5. 难度标签有效性验证
目的:说明「难度」与「模型表现」呈单调相关。
Easy 任务(avg 86.9)头尾模型差 ≈ 8 pp
Medium 任务(avg 75.1)差 ≈ 12 pp
Hard 任务(avg 58.3)差 ≈ 22 pp
结论
难度越高,模型间方差越大,证明 EcomEval 的难度分层能有效拉开模型档次,可用于后续课程学习或渐进式训练。
可复现性附件
完整 3 100 题得分、每题难度、错误案例已随仓库开源。
提供 GPT-4.1-as-Judge 的 prompt 与评分脚本,社区可直接复现或增量扩充新模型。
Q5: 有什么可以进一步探索的点?
以下方向可在大模型与电商评测两条线上继续深入,均直接基于 EcomEval 已开源数据与实验发现延伸而来。
1. 任务维度扩展
多轮对话评测
当前仅单轮问答。可将售前导购、售后客服扩展为 3–5 轮上下文,引入「用户犹豫→模型说服→最终下单」完整轨迹,检验模型持续推荐与异议处理能力。
工具调用 & Agent 场景
在真实平台中,模型需调用库存查询、优惠券、物流追踪等 API。可构建「对话+工具」混合任务,评估模型在电商工具链上的规划与纠错能力。
多模态链式推理
现有 8 项多模态任务多为单步。可设计「图像→属性→对比→推荐」链式任务,例如先读图识别材质,再基于材质给出洗护建议,考察跨模态逻辑一致性。
2. 语言与地域深化
低资源语言继续下探
越南语、泰语在 EcomEval 仅 1 k 题左右。可联合本地平台扩充至 5 k–10 k,并引入方言或罗马化拼写(Vietnamese Telex、Thai Karaoke),测试模型对非规范文本的鲁棒性。
跨语言商品对齐
构建同一商品在 7 种语言下的描述对,评估模型 zero-shot 跨语言检索与对齐能力,为跨境电商搜索提供评测依据。
地域文化合规性
新增「宗教敏感」「本地法规」检测任务,如印尼清真认证、泰国佛教元素禁忌,检验模型是否具备地域文化合规意识。
3. 难度与评价机制细化
动态难度调度
利用 EcomEval 已标注的题目级难度,实现自适应测试(CAT):根据模型实时能力估计,动态抽取下一题,缩短评测时间并提升区分精度。
细粒度错误分类
当前仅 0–3 总分。可引入多维度错误标签(事实错、格式错、安全违规、文化不当等),形成错误矩阵,指导模型针对性微调。
人类-模型混合评审
对开放生成任务,同时收集 3 组评分:专家、众包、LLM-as-Judge,研究「成本-一致性-可靠性」帕累托前沿,为工业级评测提供经济可行的评审配方。
4. 模型优化与数据增强
难度感知课程学习
按 Easy→Medium→Hard 课程顺序微调,对比随机顺序,验证课程学习在电商领域是否仍然有效,并记录样本效率提升比例。
多模态对比学习
利用 EcomEval 图像-文本对,构建商品图像与标题的对比预训练任务,检验是否能提升下游 MPS、MVCD 等任务,弥补「标题 heuristic」问题。
领域继续预训练
将 EcomEval 3 k 题与平台海量无标注日志混合,做继续预训练(Continue PT)→指令微调(SFT)→DPO 对齐,观察能否在 Hard 任务上逼近 GPT-5 表现。
5. 伦理、安全与可解释性
价格操纵与促销滥用
设计「隐藏优惠券」「虚假折扣」等对抗场景,测试模型是否会被恶意 prompt 诱导给出误导性价格信息。
可解释商品推荐
要求模型在推荐后给出「多模态理由热图」:文本引用+图像遮罩,评估解释忠实度与用户信任度。
数据偏差审计
分析 EcomEval 商品类别、品牌、价格带分布,检测对高客单价或国际品牌的偏向,进而构建再平衡子集,研究偏差对模型公平性的影响。
6. 系统级在线评测
离线→在线对齐研究
将 EcomEval 评测得分与同一模型在真实搜索/推荐场景中的 A/B 指标(CTR、GMV、退货率)做皮尔逊相关分析,验证「离线高⇨线上优」是否成立,为基准的工业价值提供直接证据。
实时用户满意度
在真实客服链路嵌入 EcomEval 同款任务,收集用户 1–5 星满意度,建立「模型得分-用户主观」映射函数,指导在线部署阈值设定。
以上方向均可直接基于已开源的 EcomEval 数据与代码延伸,无需重新造轮;同时每条都对应真实业务痛点,具备学术与工业双重价值。
Q6: 总结一下论文的主要内容
EcomEval 论文核心内容速览
问题
现有电商 LLM 评测存在四大缺口:任务单一、数据非真实、语言/模态覆盖窄、无难度分层,导致无法衡量模型在真实全球电商场景中的能力。
方案
提出 EcomEval——首个多语言+多模态+难度感知电商基准:
37 任务 6 大类(含 8 项多模态),覆盖售前-售中-售后全链路。
数据源自真实用户查询与交易日志,3 100 题经 50+ 电商专家多语言复审。
题目-任务双层难度标签(Easy/Medium/Hard),由 19 款模型跑分自动校准。
7 种语言:英、中、印尼、越南、泰、马来、葡,补齐低资源空白。
实验
评测 19 款 SOTA(含 GPT-5、GPT-4.1、Gemini-2.5、Qwen3-32B 等):
闭源整体领先,但「电商生成」「用户理解」仍 ≤ 60 pp;最强开源与 GPT-4o-mini 差距 < 1 pp,显示通用榜单无法迁移到电商。
低资源语言模型差异最大可达 24 pp,多模态相似度任务落后文本 10-15 pp。
难度越高,模型间方差越大,验证难度标签有效性。
贡献
① 真实、多语言、多模态、难度分层的电商任务体系;
② 3 100 题高质量评测集与在线复现代码全部开源;
③ 揭示主流模型在电商复杂场景的显著短板,为后续研究与落地提供可操作的改进坐标。
阅读全文 →
来源:Arxiv2025-10-23 15:04:32 UTC