Yuan3.0 Flash 多模态基础大模型

  • [2025-12-30] 发布源3.0-40B多模态大模型,面向企业级应用场景的高性能模型:Yuan3.0 Flash

1. 简介

Yuan 3.0 Flash 由 YuanLab.ai 团队开发,是一款 40B 参数规模的多模态基础大模型,采用稀疏混合专家(MoE)架构,单次推理仅激活约 3.7B 参数。通过创新的强化学习训练方法(RAPO),在提升推理准确性的同时显著降低推理 token 消耗,探索 “更少算力、更高智能” 的大模型创新路径。同时,我们发布了Yuan3.0模型的技术报告,可以通过论文查看更详细的技术细节与测评结果。

Yuan3.0-architecture

Fig.1: Yuan3.0多模态大模型架构图

核心特性

 

  • 🚀 高效推理:推理 token 消耗降低高达 75%,显著节省成本
  • 🎯 企业级优化:针对 RAG、文档理解、表格分析等企业场景深度优化
  • 🎨 多模态支持:支持文本、图像、表格、文档等多模态输入
  • 📚 长上下文:支持 128K 上下文,在 “大海捞针” 测试中实现 100% 准确率
  • ⚡ 即用即智能:默认推理模式即可满足绝大多数企业场景需求

2. 性能表现

 

Yuan 3.0 Flash 在企业级 RAG、多模态检索、表格理解、摘要生成等任务上优于 GPT-5.1,同时以 40B 参数量达到 235B/671B 模型的推理精度,Token 消耗降低 50%-75%,为企业提供高性能、低成本的大模型解决方案。

Yuan3.0-benchmarks

Fig.2: Yuan3.0 Flash评测结果

3. 核心技术

 

RAPO 强化学习算法

 

创新的 Reflection-aware Adaptive Policy Optimization (RAPO) 算法,通过反思抑制奖励机制(RIRM):

  • ✅ 识别首次得到正确答案的关键节点
  • 🎯 抑制后续冗余推理行为
  • 📉 准确率提升的同时,推理 token 数量减少约 75%
训练方法 AIME 2024 准确率 平均输出长度 MATH-500 准确率 平均输出长度
Yuan3.0 Flash (40B) SFT 31.45% 13,656 tokens 83.20% 3,362 tokens
RL+DAPO length-penalty 46.35% 13,781 tokens 89.06% 3,974 tokens
RL+RIRM 47.92% 7,505 tokens 89.47% 1,777 tokens

4. 模型下载

 

我们提供多种模型格式的下载链接:

模型 参数量 精度 序列长度 模型格式 下载链接
Yuan3.0 Flash 400亿 16bit 128K HuggingFace ModelScope | HuggingFace | 始智AI
Yuan3.0 Flash 4bit 400亿 4bit 128K HuggingFace ModelScope | HuggingFace | 始智AI

5. 测评结果

 

5.1 文本类RAG评测:ChatRAG🏆

源3.0 Flash在业界权威RAG评测ChatRAG的10个评测任务上,平均精度领先DeepSeek-V3、DeepSeek-R1等大模型。

模型平均精度对比

Models Avg All D2D QuAC QReCC CoQA DoQA CFQA SQA TCQA HDial INSCIT
DeepSeek-V3 50.47 31.59 28.86 49.31 76.98 26.11 83.49 82.13 46.69 47.43 32.08
DeepSeek-V3.23 49.67 34.30 28.09 49.97 77.29 29.46 72.85 79.48 44.64 47.99 32.64
OpenAI GPT-4o 50.54 32.76 26.56 49.30 76.11 28.78 81.85 81.14 49.75 41.29 26.69
OpenAI GPT-o3 44.06 23.05 20.82 40.42 69.42 18.56 67.75 86.71 45.85 41.29 26.69
DeepSeek-R1 39.42 21.46 22.23 42.41 62.53 24.68 81.48 82.06 30.74 37.97 28.68
OpenAI GPT-5.1 46.10 28.24 23.16 45.43 68.84 20.88 73.05 81.32 44.70 45.39 29.95
Yuan3.0 Flash 64.47 49.82 53.79 57.08 90.93 59.99 74.40 87.52 66.31 68.45 36.40

• 长上下文测试 (D2D、QuAC、QReCC)
• 维基百科检索测试 (TCQA、INSCIT)
• 短文、结构化上下文测试 (CoQA、DoQA、CFQA、SQA、HDial)


5.2 多模态RAG评测:Docmatix🏆

Yuan3.0 Flash 在多模态RAG评测Docmatix中领先Claude3.5、OpenAI GPT-4o 、o3等模型,精度表现仅次于GPT-5.1。

模型平均精度对比

Models Avg.
Qwen2.5-VL-72B-Instruct 59.75
InternVL3-78B 42.99
Claude3.5-Sonnet 42.55
OpenAI GPT-4o 56.79
OpenAI GPT-o3 45.57
OpenAI GPT-4V 60.10
OpenAI GPT-5.1 48.52
Yuan3.0 Flash 65.07

Docmatix – 评测模型在多页复杂文档中跨文本、表格、图像等多模态内容进行信息检索、关联与准确问答的能力。


5.3 多模态复杂表格内容分析评测:MMTab🏆

多模态表格理解是企业办公重要应用场景,源3.0-1T在业界权威多模态复杂表格理解评测MMTab的15个评测任务上,实现平均精度领先OpenAI的GPT-5.1。

模型平均精度对比

Models Avg. TABMWP WTQ WTQ HiTab TAT-QA FeTaQAU TabFact InfoTabs HiTab_T2T Rotowire WikiBIO TSD_Row TSD_Col TCE TCL MCD RCE
Zhipu GLM-4.5V 52.00 88.21 77.42 51.52 62.69 5.25 89.44 79.48 5.17 4.48 2.69 47.40 89.70 52.74 50.84 43.47 50.77 82.79
OpenAI GPT-4V 29.90 60.50 48.00 27.50 32.50 11.04 45.50 65.60 2.98 4.23 1.94 19.00 38.00 14.36 27.91 3.50 48.52 57.14
OpenAI GPT-5.1 55.15 64.95 60.77 77.77 61.37 8.70 52.81 64.30 44.16 17.81 11.95 96.60 62.10 86.43 44.66 72.46 53.58 57.20
Yuan3.0 Flash 58.29 95.09 68.23 69.80 69.17 28.42 87.32 83.50 13.30 14.74 17.26 46.60 82.80 56.77 56.98 65.20 62.07 73.67

5.4 文本摘要生成评测:SummEval🏆

摘要生成是智能体应用中用户历史信息压缩的核心需求,源3.0在业界权威摘要生成评测SummEval的词汇重叠、语义相似度、事实一致性3大类能力上,实现平均精度领先DeepSeek-V3大模型。

模型平均精度对比

Models Avg. 词汇重叠
ROUGE-1
词汇重叠
ROUGE-2
语义相似度
BERTScore
事实一致性
SummaC
DeepSeek-V3 59.28 25.50 9.20 86.30 68.20
DeepSeek-V3.2 51.36 33.30 11.92 85.61 41.76
Gemini-2.0-Flash 45.35 24.80 8.70 85.70 29.50
Claude-3.5-Sonnet 45.43 24.10 8.30 85.20 30.70
OpenAI GPT-4o 46.53 25.00 8.90 85.90 32.50
OpenAI GPT-5.1 49.44 27.48 10.16 84.63 40.50
Yuan3.0 Flash 59.31 51.32 28.32 89.99 45.34

原创文章,作者:云东方,如若转载,请注明出处:https://www.yundongfang.com/283229.html

(0)
上一篇 2025年12月29日 下午9:33
下一篇 2020年6月23日 上午8:14

相关推荐