9月12日,阿里巴巴通义千问推出下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。相比此前的Qwen3 MoE模型,新架构在多个方面进行了改进,包括引入混合注意力机制、高稀疏度MoE结构、多项训练优化技术,以及通过多token预测机制提升推理效率。此次更新旨在提升模型训练的稳定性与推理性能,推动人工智能模型的发展与应用。
发表评论 取消回复