【Mamba提出者再次挑战Transformer,打造首个无分词器语言模型H-Net,或成为通用基础模型核心架构】
作为美国#卡内基梅隆大学# 的助理教授和美国 AI 初创公司 #Cartesia# 的联合创始人,Albert Gu 曾凭借联合提出 Mamba 这一新型序列建模架构而入选 TIME 100 AI,还曾入选 2025 #谷歌# 研究学者计划名单。
最近,他和自己的韩裔学生黄锡俊(Sukjun Hwang)以及 Cartesia 技术团队的华裔成员 Brandon Wang 提出了一种端到端的分层网络(H-Net,hierarchical network)。
值得注意的是,作为一名华裔,本次相关论文的共同作者 Brandon Wang 高中毕业于美国加利福尼亚州的萨拉托加(Saratoga)高中,后于 2019 年获得国际数学奥林匹克竞赛(IMO,International Mathematics Olympiad)金牌,2024 年其本科毕业于美国麻省理工学院,之后便加入了 Albert Gu 的上述创业公司。
研究团队表示,H-Net 通过递归的、数据依赖的动态分块(DC,dynamic chunking)过程对原始数据进行压缩,代表了首个真正端到端无分词器的语言模型。该模型通过单阶段动态分块,当字节级的 H-Net 在参数规模超过 10 亿时,其困惑度和下游任务性能可与基于字节对编码(BPE,Byte Pair Encoding)分词的 Transformer 模型相媲美。
戳链接查看详情:http://t.cn/A6kc0txM
