我组博士生三年级袁境阳在DeepSeek实习领衔的工作Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention,组里博士四年级罗钧宇和校友肖之屏参与。感谢DeepSeek卓越的科研环境和算力支持!
作者:袁境阳 高华佐 代达劢 罗钧宇 赵亮 张正彦 解振达 Y. X. Wei(作者希望先这么写) 王乐安 肖之屏 王雨晴 阮翀 张铭 梁文峰 曾旺丁
新智元报道“DeepSeek革命性NSA注意力机制问世!梁文锋上阵,长文本推理能力飙升”http://t.cn/A61VlChG http://t.cn/A61VlChG
发布于 北京
