#DeepSeek团队再推新模型#【春节档AI唱主角!国产大模型密集更新 机器人跳秧歌抢夺眼球】《科创板日报》1月29日讯,过年放大招!在春节期间中国的大模型技术迎来了一阵密集更新。
今日凌晨,阿里云通义千问超大规模的MoE模型Qwen2.5-Max 正式上线,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新成果,预训练数据超过20万亿tokens。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基准测试中,Qwen2.5-Max整体表现优于DeepSeek V3、Llama-3.1-405B以及闭源模型GPT-4o。
在新模型发布后,阿里巴巴美股大涨6.76%。而在前一日,通义千问还开源了全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。新的Qwen2.5-VL能够更准确地解析图像内容,支持超1小时的视频理解,实现给指定朋友送祝福、电脑修图、手机订票等操作。
刚刚暴击美股的#DeepSeek#团队也在1月28日抛出了新模型,两款多模态框架—— Janus-Pro 和 JanusFlow。其中,Janus-Pro 是一款统一多模态理解与生成的创新框架,是Janus的升级版本,它在图像生成基准测试中的表现超越了 OpenAI 的 " 文生图 " 模型 DALL·E 3。并与之前的 Janus 系列一样选择了开源。(记者 黄心怡) http://t.cn/A63lDyIg
