#小米影像算法取得技术突破#
高效超分辨率赛道:冠军(SPAN V2)
团队:小米玄戒多媒体算法团队。
技术亮点:在上一代冠军方案基础上,团队进行了两大核心优化。首先,算法不再采用固定策略处理全图,而是能根据画面内容自适应分区优化,对人脸、文字等细节重点精修,对天空等简单区域简化处理;其次,将GPU注意力计算中原本需要三次读写显存的步骤合并为一次。
成效:在画质近乎无损的前提下,大幅降低了数据搬运开销,显著提升了模型的推理速度,最终以4.43的综合得分登顶。
人像修复赛道:冠军(双阶段级联框架)
团队:小米大模型应用团队。
技术亮点:针对老照片、模糊、压缩损伤等“复合退化”难题,团队采用了更稳健的“两步走”策略。第一阶段基于OSDFace进行粗修复,稳住五官布局与人脸整体结构;第二阶段引入Z-Image单步扩散模型,细化皮肤纹理、发丝等高频细节。
成效:该方案彻底解决了传统算法直接一步生成易导致的人脸失真与身份变化问题,在无参考图像质量与身份一致性综合评测中全面领先。
反光消除赛道:亚军(RDNet-XL架构)
团队:小米大模型应用团队。
技术亮点:将骨干网络从FocalNet-L升级为更大规模的XL版本,大幅提升多尺度表征能力。针对强反射等困难样本,创新性地引入扩散模型知识蒸馏策略,并配合三阶段渐进式多分辨率训练,从局部反射模式逐步扩展至全局结构理解。
成效:不仅高效去除了玻璃、橱窗、水面的反光,还完整保留了原生场景的底层细节,在主观评分中位列第二,多项客观指标拿下第一。
发布于 河北
