AIGCLINK
AIGCLINK
AIGCLINK
aigc探路者,微软MVP,《LLAMA大模型实践指南》作者之一
AI博主 北京 2013.11 加入
139关注
22.1万粉丝
2505微博
AIGCLINK
2026-07-02 08:06来自 微博网页版
Claude Fable 5恢复了!但只能用周额度的50%、限时7天、比其他模型消耗得更快 也就是说Fable 5占用你正常订阅额度,最多可以用你每周总额度的50%,超过50%后,要么切回其他模型,要么开 usage credits额外付费继续用 但是这个使用时间也只能到7月7日23点59分(太平洋时间),之后Fable 5不再走订阅额 ​
0
0
2
AIGCLINK
2026-07-01 12:06来自 微博网页版
Claude Sonnet 5出来了,核心是具备Agent属性,说是Opus 4.8级的agentic能力,价格为其一半 可以自己制定计划、使用浏览器/终端等工具、自主运行完成任务,在拒绝恶意请求、抵御提示注入、幻觉率和谄媚行为上优于Sonnet 4.6 首发优惠价,输入2美元/百万token,输出10美元/百万token,到2026年8月31日 ​
3
1
3
AIGCLINK
2026-07-01 08:50来自 微博网页版
刚刚Anthropic消息:美国商务部解除了原来对Claude Fable 5和Mythos 5的出口管制 #Claude Fable 5##Mythos 5# ​
0
3
3
AIGCLINK
2026-06-27 08:16来自 微博网页版
OpenAI刚刚一口气放出了GPT-5.6三款模型,超Claude Mythos 5,当前只能限量预览 核心增加了max reasoning effort和ultra模式,给模型充足时间深度思考和调用多子智能体并行处理复杂任务的能力 编程能力,5.6 Sol Ultra在Terminal-Bench 2.1上得分91.9%,超Claude Mythos 5的88%与Fable 5的84.3% 生 ​
2
0
7
AIGCLINK
2026-06-25 22:02来自 微博网页版
刚刚试了下Doubao-Seed-2.1-Pro,如其所说,Coding能力有提升,上桌了! 给它丟了一个“写一个博客网站,具备完整的前后端功能,有前端有后台,前端界面符合当下审美并要有交互,全程独立完成,不询问用户,遇到错误自行调试解决”的任务 生成结果质量与任务要求的匹配度还可以 实现了“一句需求、5 ​
3
0
6
AIGCLINK
2026-06-25 19:56来自 微博网页版
清华大学又出新东西了:AgentSociety²,他们给之前的“人工社会”模拟系统配上了一个AI自动化科研团队,社会科学研究实现端到端自动化 AgentSociety² 等于说把面向社会科学研究的假设生成、模拟实验、机制干预、结果分析、论文写作等全套活儿都包了 可以用来辅助做比如,现实世界中的公共政策制定、 ​
6
1
8
AIGCLINK
2026-06-24 11:50来自 微博网页版
Anthropic大更新,刚刚上线了“数字员工”:Claude Tag,其内部65%的产品代码由Claude Tag参与完成 大家都在搞数字员工,Claude Tag或标志着AI数字员工时代的到来 Claude Tag相当于团队无缝加入了一个新同事,它坐在Slack频道里,团队上下文共享,你跟真人一样跟它交互,它就会处理各类工作 可以让 ​
21
6
18
AIGCLINK
2026-06-23 11:15来自 微博网页版
京东最新开源的实时视频视觉语言交互模型:JoyAI-VL-Interaction,让大模型从“一问一答”走向“边看边说” 也就是说它会像人一样“在场”,持续观察视频流,自主判断什么时候说话、什么时候沉默,并实时响应关键事件 在58个真人盲评的实时流式场景中,对豆包胜率77.6%、对Gemini胜率 87.9%,监控预 ​
9
1
9
AIGCLINK
2026-06-22 17:47来自 微博网页版
Loop模板大全库:loop-library,目前覆盖工程、运维、评估、设计、内容等50个具体场景 每个Loop设置了反馈、判断、迭代的完整闭环,并配备了查找、审计、适配、设计四种能力的Skill 告诉AI要干什么,它帮你从目录里匹配最合适的,模板不完全匹配的话,它给你改一个现成的或者重新设计一个 Loop和Ski ​
46
3
40
AIGCLINK
2026-06-22 12:42来自 微博网页版
一套完整的面向营销/销售场景的AI外挂:ai-marketing-skills,它让一个人就能完成增长、内容、销售、SEO过去一个营销团队干的活儿 它内置了获客增长、内容生产、销售转化、运营效率、竞品情报等方面的15个营销/销售模块 还有短视频工作流、视频字幕、视频切片工作流等辅助功能 这应该是目前比较完整 ​
32
1
31
AIGCLINK
2026-06-18 18:19来自 微博网页版
网易有道的最新TTS:Confucius4-TTS,核心零样本跨语言声音克隆能力 也就是说给一段参考音,它能让同一个人开口说14种语言,并保持音色稳定、情感还原度较高,从效果听跨语言没有明显口音残留感 覆盖中文、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语14种语言 对于新闻播报、客服 ​
16
2
33
AIGCLINK
2026-06-18 11:47来自 微博网页版
阿里和人大刚刚开源了首个统一科学大模型:LOGOS,让科学像自然语言一样被同一个模型统一理解和生成 它用了一套“科学语法”,把蛋白质、分子、材料等异构科学对象统一编码为LLM可理解的Token序列 结果是,一个1B的小模型在多个任务上匹敌甚至超越参数量数十倍的领域专用方法 当前AI4S现状是一题一 ​
5
0
12
AIGCLINK
2026-06-17 17:35来自 微博网页版
智谱GLM-5.2这次的核心是长程代码任务,1M无损上下文,下一步他要搞 Autonomous Agent System 完全自治的智能体 1M无损上下文,是专门针对Coding Agent长时间干活这个场景喂了大量训练数据,覆盖自动化研究、性能优化等,使得模型一次性处理88万token的完整工程,上下文不丢失不混乱 多个长程任务基 ​
2
1
8
AIGCLINK
2026-06-17 10:00来自 微博网页版
牛津和斯坦福大学搞的一个让AI当端到端的数据记者,从原始数据一路干到可交互成品报道的工具:Data2Story 找数据、跑统计、选角度、做图表、拟稿排版这些脏活儿累活儿给AI,人工负责定选题、把关创意 把一篇高质量数据新闻从新闻编辑部几周时间压缩到小时级,搞新闻的可以看看 目的不是让AI代替写稿 ​
9
0
6
AIGCLINK
2026-06-16 17:33来自 微博网页版
阿里刚刚放出了其首个千问具身智能体通用模型:Qwen-Robot ,也开始搞具身智能了! Qwen-Robot由三个模型组成机器人的手+脚+大脑,三个模型可以独立用,也可以组合用 比如,用它可以组成一个既能动手端盘子,又能走路送餐,还能预判端着热汤拐弯儿会不会洒的服务机器人 Qwen-RobotManip: 其采用80 ​
7
3
7
AIGCLINK
2026-06-15 22:03来自 微博网页版
帮你把书变成可执行方案库的一套skill:book-to-skill,把书当成工作流里的一个插件,按需加载 book-to-skill相当于一个知识编译器,把松散的文档转化为供Agent推理而非检索的结构化Skill,一次编译,后续按需调用 它先提取书籍文本,再让AI分析提取后的合并文本识别章节结构和思维框架,编译成结构 ​
80
1
59
AIGCLINK
2026-06-15 07:38来自 微博网页版
给Agent的外挂大脑,解决Agent上线后运维与自主优化的一个工具:Adaline 2.0 这是一个面向生产环境的Agent运维与自动优化平台,核心解决Agent上线后的行为监控、问题暴露、自动生成测试与数据、以及自动迭代的问题 当Agent大规模进入生产环境时,这个需求就比较精准 首先链路追踪,Agent每一步推理/ ​
22
1
28
AIGCLINK
2026-06-13 17:49来自 微博网页版
用自然语言描述即能生成drawio图表的一套实用skill:drawio-skill,还能把现有代码库自动生成结构图 自带生成-检查-修正闭环工作流,可以导出PNG、SVG、PDF、JPG等 生成后会自己检查有没有重叠、截断等问题,发现问题自动修正 支持5轮迭代反馈循环定向优化,无需每次重新生成 ER图、UML类图、序列 ​
21
2
22
AIGCLINK
2026-06-12 11:31来自 微博网页版
给定PDF自动拆解成个性化互动课程的工具:PDF to Lesson,文档转引导式学习体验,适合个性学习/备考党 可以上传讲义、教材、论文等等,系统会自动拆解主题模块、每个模块自带讲练测、追踪进度 课程多个模块并发生成,节省时间 其用Jaccard相似度检测重复或相似的题目,发现问题后自动重新生成或隐藏 ​
15
1
11
AIGCLINK
2026-06-11 08:54来自 微博网页版
谷歌新开源了一款用于本地实时交互场景的模型:DiffusionGemma,256token并行生成,速度快4倍 单张H100 1000+token/秒,RTX 5090 700+ token/秒 总参数26B,推理时激活3.8B 量化后可在18GB显存运行,支持双向注意力和智能自纠错 DiffusionGemma优先考虑的是速度和并行布局生成,整体生成质量上低于G ​
15
3
23
AIGCLINK
2026-05-29 08:43来自 微博网页版
Anthropic突然放出了:Claude Opus 4.8,4.7的全面升级版,价格不变 4.8主在行为质量的精细调优,体现在编程上更准、判断上更稳、不自欺,比如更善于标记不确定性,对代码缺陷的未察觉率比前代降低了4倍 不当行为(欺骗、配合滥用)低于4.7,接近Claude Mythos Preview 常规价格不变 Fast mode速度 ​
1
0
5
AIGCLINK
2026-05-20 15:06来自 微博网页版
速递:谷歌I/O大会发布一览,省流版 一句话:模型+Agent平台+全线产品Agent化,谷歌正在用自己庞大的产品矩阵作为Agent的手脚和场景,把模型能力转化为用户离不开的日常自动化 两个新模型Gemini Omni和Gemini 3.5,产品侧:搜索、Gemini Spark+Daily Brief个人助理、智能购物车Universal Cart、眼镜 ​
4
0
12
AIGCLINK
2026-05-20 09:45来自 微博网页版
Anthropic对于AI安全边界的最新探索,让AI“向善”不局限于技术对齐 如果AI要影响大量人群,那它应该成为什么样的人?他们提出了一个新的研究方向:AI的道德形成 AI模型在大量人类文本上进行训练,从这些文本中它们习得了说话方式、推理模式和决策习惯,开发者随之通过训练进一步塑造这些特质 选择 ​
1
0
9
AIGCLINK
2026-05-19 14:05来自 微博网页版
面向Agent的一个代码搜索工具:Semble,用自然语言查代码库返回精准代码片段,比grep+read节省98% token消耗 方法是让Agent用自然语言直接定位到最相关的几行代码,不用瞎猜关键词,不用读整文件 速度上,索引一个普通仓库大约需要250毫秒,回答查询大约需要 1.5毫秒,NDCG@10=0.854 Semble用2k Tok ​
27
2
28
AIGCLINK
2026-05-19 09:44来自 微博网页版
阿里淘宝搞了一个实时AI试衣视频生成定制框架:FashionChameleon,生成过程中交互式换衣服,单卡23.8 FPS 也就是说在视频生成过程中实时换衣,你可以实时更换衣服款式,同时动作连贯性保持的非常好 还能做长视频外推,整个过程在单卡H200上做到23.8 FPS实时播放,没有明显等待感,比现有基线快30-180 ​
16
1
9
AIGCLINK
2026-05-18 17:39来自 微博网页版
这两天超火的一套Claude Code学术研究技能包,覆盖从研究到发表的完整学术流程,说话间已10K Star 它的定位不是代写论文,而是帮你处理脏活累活,帮你找文献、排版、查引用、验数据等,你负责需要动脑子的部分,比如定义问题、选方法、解读数据、写论证等 从选题调研到论文发表,覆盖研究、写作、审 ​
56
1
58
AIGCLINK
2026-05-18 11:42来自 微博网页版
西安交大最新发了一篇关于“多智能体协作、故障归因与自我演化”的全面综述,让AI超越个体智能 当前基于LLM的自主智能体在推理、规划和工具使用方面越来越强,但当遇到跨角色、跨工具、跨环境的持续协调任务时,单个智能体能力不足 单个智能体很容易在长时间交互中失去连贯性,难以稳定协调多步行动 ​
15
0
4
AIGCLINK
2026-05-16 21:37来自 微博网页版
微软最新开源了一个面向电力系统的AI基础模型:GridSFM,用来加速电力行业里交流最优潮流计算的研究 GridSFM用图神经网络近似AC-OPF求解,把电网当作一张图,直接预测近似最优运行点,再作为传统精确求解器的热启动初值,加速收敛 一个模型覆盖多种电网,跨拓扑通用 以前的做法是每个电网拓扑训练一 ​
15
0
9
AIGCLINK
2026-05-15 18:04来自 微博网页版
一个开源的端到端视频翻译+视频问答Skill:violin,亮点是不只是直译,而是内容再创作的设想 它把ASR、LLM翻译和TTS整合成了一条无缝管道视频Skill,这三个环节自动衔接,输入视频即得到翻译后的配音视频 翻译风格可调,比如说把学术演讲改写成儿童能听懂的语言不只是翻译,根据受众调整表达难度和风 ​
39
1
45
AIGCLINK
2026-05-15 09:39来自 微博网页版
开源软件著作权申请Skill:SoftwareCopyright-Skill,自动生成申请材料,让你一个软著怒省几百块代办费 它会让AI读取本地项目,从项目分析、业务理解、申请表信息、操作手册到代码材料,自动生成全套软著申请材料 包括操作手册DOCX、代码材料DOCX、申请表信息TXT等 在理解代码结构和业务功能基础上 ​
56
4
48
AIGCLINK
2026-05-13 17:55来自 微博网页版
溜儿,有人复刻并开源了谷歌最新的AI鼠标指针功能,这个指针能看屏幕、自由涂鸦交互、能执行点击/打字/编辑等操作 语音+涂鸦双模态交互,语音指令,按住热键说话,它能执行点击、打字、打开应用、编辑文本等操作 自由涂鸦,按住Control+Shift拖动鼠标画圈标记区域,即可下“改这个词”、“把这个移到 ​
10
1
11
AIGCLINK
2026-05-13 11:00来自 微博网页版
谷歌最新研究:要把鼠标指针AI化,让鼠标指针从单纯的坐标指示升级为能理解意图并跨应用可用的AI入口 当前AI的交互模式必须复制粘贴文本或上传图片等等把上下文搬到AI窗口里,这就会造成工作流中断 比如,你想对一份PDF生成摘要然后粘贴到邮件里,或者把表格统计变成饼图,传统做法得把内容搬进AI窗 ​
9
1
9
AIGCLINK
2026-05-12 10:42来自 微博网页版
Claude Code刚刚上新新功能:Agent view,一个列表即可查看所有会话 Agent视图功能等于给Claude Code加了一个任务监控面板,一个统一界面管理所有会话,查看、回复、切换一气呵成 并行运行多agent会话,告别多终端分屏和脑力记账,从串行交互变成并行管理,给个列表视图来掌控全局 就像多窗口会话管 ​
5
0
9
AIGCLINK
2026-05-11 17:12来自 微博网页版
专门为符合nature学术写作和绘图规范搞的一套Skill:nature-skills,帮你把论文写成Nature认可的标准格式 等于一个Nature论文生产的规范规则引擎,把隐性写作和绘图规范,拆解成AI能逐条执行的具体规则 从论文图表、语言润色、引用管理、数据声明、审稿回复、论文转PPT等全流程 直接生成符合Nature ​
15
1
12
AIGCLINK
2026-05-09 09:34来自 微博网页版
一个非常不错的基于OpenAI最新实时语音模型的用例,实时语音转现场演示,你说话,白板实时做语音可视化展示 只动嘴免动手,语音直接驱动AI实时编辑白板。场景比如说,头脑风暴会议,白板实时跟着生成结构图、流程图,想法现场即可视化 老师讲课时,板书自动跟着语音实时生成,讲到哪个知识点,白板上 ​
21
2
21
AIGCLINK
2026-05-08 11:45来自 微博网页版
OpenAI刚刚限量推出了网络安全专用模型:GPT-5.5-Cyber GPT-5.5-Cyber,配合GPT-5.5+TAC,加GPT-5.5,形成三层访问体系,等于是一个分层的安全解决方案,不同防御人员给不同权限 GPT-5.5:一般问答,涉及攻击代码会被拒绝 GPT-5.5+TAC:可以分析漏洞、写检测规则、验证补丁 GPT-5.5-Cyber:可以在授 ​
9
0
2
AIGCLINK
2026-05-08 09:35来自 微博网页版
面向AI智能体的一款统一虚拟文件系统:Mirage,让AI Agent用bash一招打天下,不用学N个API Mirage等于给AI搞了一个万能硬盘,各种分散的数据都被映射成同一个文件系统,AI可以用Unix命令直接操作 S3、Google套件、Slack、Gmail、GitHub、Linear、Notion、MongoDB、Redis、SSH等等全部挂载到同一个文 ​
29
2
40
AIGCLINK
2026-05-08 07:57来自 微博网页版
OpenAI刚刚放出来了三款实时语音模型,让语音助手变成了能听能想、能同传、能记录、能干活的全能选手 $0.034/分钟的实时翻译,比人工同传便宜太多了 或许会促使交互范式发生转变,当语音足够好用,很多场景无需再用App界面了,说话可能就变成了默认功能 GPT-Realtime-2:带推理能力的实时语音对话, ​
6
2
9
AIGCLINK
2026-05-07 17:37来自 微博网页版
专为Mac搞的一款本地AI推理引擎:Rapid-MLX,比Ollama快最高4.2倍,4B模型能到160 tok/s 基于Apple的MLX框架,原生Metal GPU计算,直接利用统一内存架构 同样跑Qwen3.5-9B,Rapid-MLX 108 tok/s,Ollama 41 tok/s,相差2.6倍 4bit量化模型的工具调用输出会在多轮后退化,Rapid-MLX内置17种工具解析 ​
32
5
31
AIGCLINK
2026-05-06 14:32来自 微博网页版
谷歌刚刚给Gemma 4新上了:Multi-Token Prediction草稿器,使模型推理速度提升最高达3倍,且不损失输出质量 相当于给Gemma 4配了一个草稿助手,让AI写东西时不用逐字逐句慢慢想,先快速打草稿再一次性确认,速度提升了答案质量完全不变 响应速度大幅提升,近实时聊天、语音应用,Agent 工作流响应更 ​
10
2
10
AIGCLINK
2026-05-05 20:15来自 微博网页版
这两天的一个超火项目,基于DeepSeek V4的一个终端原生Coding Agent:DeepSeek TUI 这是一个用Rust编写的TUI编程工具,像Claude Code一样在终端里运行,专门针对DeepSeek做了优化适配 DeepSeek可以直接访问你的工作区,读写文件、运行 shell 命令、搜索浏览网页、管理 git、调度子智能体 原生支持10 ​
53
11
73
AIGCLINK
2026-04-24 12:58来自 微博网页版
等待了几个月的DeepSeek V4它来了,刚刚已正式上线并同步开源,性能比肩顶级闭源模型! 两个版本:V4-Pro和 V4-Flash 100万token上下文,全新注意力机制:token维度压缩+DSA稀疏注意力,比传统方法大幅降低了对计算和显存需求,现在百万上下文是DeepSeek官方标配 V4-Pro的Agent能力相比前代显著增强 ​
5
2
2
AIGCLINK
2026-04-24 08:43来自 微博网页版
OpenAI深夜炸弹放出了:GPT-5.5,超Claude Opus 4.7 GPT-5.5被定义为面向实际工作的新一代智能,强调的是agentic,注重真实工作场景中的自主执行能力 也就是说从理解复杂目标、自主规划、使用工具、检查工作、处理模糊性,并将任务推进至完成 在自己最强的领域Terminal-Bench、GDPval、特定长上下文 ​
2
0
2
AIGCLINK
2026-04-22 08:12来自 微博网页版
ChatGPT Images 2.0即日起已开放,核心是思考能力,具备推理能力的视觉认知系统,非简单的图像渲染器 在ChatGPT里选thinking/pro,Images 2.0会自我完成: 理解任务 联网搜索实时信息 规划结构生成(一次最多8张,角色和物体前后保持连续性) 自我检查输出质量 来确保图像的准确性、信息时效性、一致 ​
10
0
15
AIGCLINK
2026-04-21 07:12来自 微博网页版
月之暗面昨晚开源新模型:Kimi K2.6,主打编程、长程执行及智能体集群能力,部分编码benchmark上追平或领先GPT 5.4、Opus 4.6 长程编程能力上,单次任务可执行4000+次工具调用,持续运行超过12小时 跨语言(Rust、Go、Python)及跨任务类型(前端开发、DevOps、性能优化)泛化 编程驱动设计,单提示 ​
4
2
17
AIGCLINK
2026-04-20 16:53来自 微博网页版
阿里通义实验室最新发布了款ASR:Fun-ASR 1.5,核心能力:方言工业级可用 单模型即可无缝覆盖30种语言、汉语七大方言体系及20+ 地方口音,古诗词吟诵也能精准转写 典型方言场景CER相对上代下降56.2%,有5种方言准确率破 90%,15种超过 80% 从效果看,模型能还原方言特色词汇,比如上海话的"侬"、苏 ​
12
3
14
AIGCLINK
2026-04-20 11:36来自 微博网页版
酷,browser use刚出的一个仅592行代码的极简自愈式浏览器自动化框架:Browser Harness,让AI能完成任意浏览器任务 592行Python代码,直接通过WebSocket连接Chrome浏览器,没有中间框架、预设流程 AI可以在任务执行过程中自己决定如何完成任务,可以实时编写缺失的功能 当发现缺少功能时, ​
55
4
49
AIGCLINK
2026-04-18 08:33来自 微博网页版
Anthropic Labs刚放出的【Claude Design】工具把设计工作击穿了,通过对话即可生成产品原型、营销页等,并且还能保持品牌一致性 把设计工作的整个工作流打通了,模型用的Opus 4.7,从理解品牌、输入需求、生成初版、精细调整、团队协作、到导出交付,全链路覆盖 它有一个品牌自动构建系统,用来保持 ​
6
0
15
AIGCLINK
2026-04-16 23:30来自 微博网页版
溜儿,Anthropic刚刚把Claude Opus 4.7放出来了,核心主打一个复杂任务处理可放心托付的能力 几个关键词:编程能力更强、指令遵循更严格、视觉分辨率更高、网络安全防护 软件工程能力上,之前做复杂的编程任务时,得盯着随时纠偏,Opus 4.7用户反馈是可以放心交出去 核心在于Opus 4.7以更高严谨性处 ​
4
0
3
AIGCLINK
2026-04-16 22:33来自 微博网页版
阿里最新开源,刚刚放出了智能体编程模型:Qwen3.6-35B-A3B,主打小激活参数高性能 MoE,总参数35B,激活参数3B,智能体编程和推理能力大幅超前代Qwen3.5-35B-A3B,Claw-Eval上优于Qwen3.5-27B 原生多模态,在大多数视觉语言基准上表现与Claude Sonnet 4.5持平,空间智能 RefCOCO 92.0、ODInW13 50.8 ​
22
2
19
AIGCLINK
2026-04-16 13:04来自 微博网页版
腾讯刚刚把其最新3D世界模型也放出来了:HY-World 2.0,同时支持世界生成和世界重建 多模态,支持文本、单视图图像、多视图图像和视频多种输入模态,生成3D世界表示(网格 / 3D高斯点云) 与Genie 3、Cosmos、HY-World 1.5不同的是,它直接生成可编辑可持久化的3D资产,可以直接导入到Blender、Unity ​
14
1
15
AIGCLINK
2026-04-16 11:27来自 微博网页版
溜儿,丢给Claude Code一个URL或截图即可让它输出保持品牌视觉一致性的技能:Hue 它会把URL或截图中的品牌风格(颜色、字体、阴影等等)捕获为一套完整的设计系统 之后Claude生成任何UI都会自动引用这套系统,来保持品牌一致性 这套设计系统包含颜色、字体、圆角、阴影等,以及30+个组件(按钮、输 ​
19
1
18
AIGCLINK
2026-04-16 10:27来自 微博网页版
时隔半年,英伟达发布了最新世界生成模型:Lyra 2.0,让AI能边走边生成3D世界,解决了场景持久一致问题 它把视频生成和3D重建结合,用视频生成保证视觉质量,用逐帧3D几何做信息路由来缓解空间遗忘,再通过自增强训练解决长程漂移问题 单图启动,一张图片生成完整3D世界 渐进式生成+交互探索,在场 ​
2
1
6
AIGCLINK
2026-04-16 09:36来自 微博网页版
零配置纯浏览器运行的代码架构可视化工具:CodeFlow,一键展示出代码数据、健康评分、依赖关系图等 粘贴GitHub地址几秒钟生成交互式的代码架构地图,可以可视化文件之间的连接关系,支持拖拽、缩放 有价值的是它的影响范围分析功能,可以辅助决策“如果改了这个文件,会波及多少其他文件?" 提供活 ​
8
2
16
AIGCLINK
2026-04-16 07:00来自 微博网页版
谷歌刚刚放出了款最新TTS:Gemini 3.1 Flash TTS,亮点是场景指导功能,原生支持说话人级别控制、70+种语言 场景指导,可以设置对话发生的场景,给具体的表演指示,使角色在多轮对话中保持入戏状态 另外支持说话人级特异性、自然语言音频标签、行内调整、配置好的参数一键导出为Gemini API代码等等 ​
4
1
7
AIGCLINK
2026-04-15 17:04来自 微博网页版
阿里AMAP DreamX团队最新开源:SkillClaw,一个让AI agent的Skill自动进化、自动共享的框架 它把原来的“经验、skill、共享”整个流程自动化、基础设施化了,也就是说skill从提炼、同步、调用、进化都不用人再操心了 跟平常一样即可,skill的进化在后台静默完成,调用的话AI会自动判断该用哪个,且会 ​
62
8
46
AIGCLINK
2026-04-15 09:36来自 微博网页版
Agent与Agent之间建群聊天的工具:AgentChat,就是说你的OpenClaw有自己的聊天群了,里面全是claws们 AgentChat是一个协议skill,支持建群、发消息、邀请朋友、读消息 然后,你的agent就能和你朋友们的agent建聊天群,相互交流bug、prompt、开发反馈等等,知识在agent层面流动起来无需靠人转发了 gi ​
10
1
14
AIGCLINK
2026-04-15 07:20来自 微博网页版
OpenAI刚刚发布了新模型:GPT-5.4-Cyber​​,专门为网络安全防御微调的GPT-5.4变体,为将发布的更强模型做准备 GPT-5.4-Cyber,针对防御性网络安全用例进行了微调,降低了安全相关任务的拒绝边界,新增了二进制逆向工程能力,无需源代码即可分析编译软件 这个面向TAC计划的网络安全防御者用的,需要 ​
12
2
6
AIGCLINK
2026-04-14 17:55来自 微博网页版
字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型:OmniShow,妥妥的电商广告专用模型 全模态,一个模型通吃图+音+姿势+文本输入 任务可以覆盖R2V、RA2V、RP2V、RAP2V四种生成模式,目前应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的 人脸保持、物理合理性、表现力以及口 ​
20
1
23
AIGCLINK
2026-04-14 16:20来自 微博网页版
Meta和KAUST团队提出了一种全新的计算范式:神经计算机,它把计算、内存、I/O统一到了一个运行时状态中 一句话,让模型自己成为计算机,而不是帮人用计算机 现在程序栈、工具链、控制层的职责分散在传统计算机、Agent、世界模型中,研究人员认为这些职责应该逐步迁移到模型自身的运行时中,形成一种 ​
9
0
8
AIGCLINK
2026-04-14 08:17来自 微博网页版
溜儿,把从真实网站提取的设计规范做成了现成的 DESIGN.md集合,直接丢一个DESIGN.md+描述,AI即能生成对应精美UI 就是用纯Markdown描述设计系统,AI读取它来生成对应的UI界面,直接放到根目录里,AI即能理解并生成 这个库叫awesome-design-md,目前收录了50+知名网站设计,涵盖AI&LLM、开发工具、后 ​
31
3
29
AIGCLINK
2026-04-13 15:08来自 微博网页版
Karpathy的那套个人知识库的想法,有人做了落地,变成了一个原生macOS应用:Wikiwise 普通人也能用上Andrej Karpathy那套由AI主动维护的复利式知识库,无需自己写代码、配环境、折腾部署 内置SwiftTerm终端,直接在应用里跑Claude Code、Codex,文件管理+预览+终端三合一,不用切换 基于FSEvents文 ​
88
6
95
AIGCLINK
2026-04-13 11:25来自 微博网页版
推荐【响马xicilion】大佬的skill,让AI能直接在Markdown中生成各种专业图表 涵盖UML、云架构、网络拓扑、安全架构、企业架构、业务流程、数据分析、物联网、数据图表、信息图、思维导图等13个专业领域 生成架构图、流程图、工作流图、状态图、部署图、网络拓扑图等,技术文档里需要的图基本都覆盖了 ​
79
4
41
AIGCLINK
2026-04-13 09:19来自 微博网页版
点下鼠标就可以同时在一个软件内管理多个Vibe Coding任务的工具:哪吒Nezha,搞定1人+N个AI编程+M个任务 它把分散的终端会话、代码浏览、Git操作包成了一个顺手的GUI,相当于Vibe Coding时代的任务管理器+轻量IDE Claude Code+Codex同时跑,每个实例独立管理自己的任务,终端后台持续运行,切项目不 ​
21
2
20
AIGCLINK
2026-04-11 14:23来自 微博网页版
YC CEO Garry Tan刚刚最新开源了一个专门配合 OpenClaw/Hermes Agent的个人知识大脑系统:GBrain Garry自己用它管理10000+Markdown,涵盖3000+人脉资源、13年日历数据、会议记录、媒体内容等等 GBrain相当于个人知识库+AI检索引擎,它把你的Markdown笔记(比如人、公司、会议、想法、文章等等)变成 ​
24
3
35
AIGCLINK
2026-04-11 09:47来自 微博网页版
Claude刚发的新功能:Claude for Word,直接搞进Word里了,直接在Word中用Claude无需切换独立窗口 可以直接在Word中选择文本,然后描述修改需求,Claude会以修订模式显示修改建议 主打一个无缝集成办公流,可以把常用的工作流,比如合同审查流程等保存为Skill,同事直接复用,跑同一个Skill就能得到 ​
16
1
18
AIGCLINK
2026-04-10 16:20来自 微博网页版
腾讯刚刚放出了一款具身智能基础模型:HY-Embodied-0.5,擅长时空视觉感知和复杂具身推理,预测、交互、规划 采用MoT架构,基于2000亿token的具身/空间专项数据预训练,模型原生就理解物理世界 其中2B已开源,适合边缘部署 还有一个32B版, 适用于复杂推理,性能与Gemini 3.0 Pro相当 github: ​
10
0
11
AIGCLINK
2026-04-10 11:04来自 微博网页版
Claude Code今天新上了一个:Monitor工具,这是一个后台监控功能,能实时监听外部进程输出 Claude会生成一个后台进程,每条stdout输出都会实时流式传入对话中,不会阻塞主线程 从轮询询问变实时推送,进程有输出立刻送进对话,Claude即时响应,不用等不用反复问 比如后台跑测试脚本,实时看到报错立 ​
10
2
19
AIGCLINK
2026-04-10 07:39来自 微博网页版
Anthropic新功能Advisor Strategy,一句话:Opus顾问+Sonnet/Haiku执行,以Sonnet的成本获得Opus的智能 Opus,只在执行者遇到搞不定的决策时提供指导,返回计划/修正/停止信号,不调用工具、不直接输出 Sonnet/Haiku,全程跑任务,调用工具、读取结果并迭代求解 配备Opus作为顾问的Sonnet在SWE-benc ​
7
0
10
AIGCLINK
2026-04-09 11:33来自 微博网页版
多人/Agent协作平台:multica,Agent即队友,不是简单的AI工具调用,而是全生命周期管理 可以像指派同事一样将Issue分配给Agent,它们会自主接手工作、编写代码、报告阻塞问题、更新状态,Agent有自己的员工档案,像同事一样显示在任务看板,被指派被追踪,参与对话/协作 技能能复利,AI每次完成特定 ​
19
0
17
AIGCLINK
2026-04-09 08:43来自 微博网页版
Meta刚刚发布了个人超级智能模型:Muse Spark,原生多模态+推理+工具调用+视觉思维链+多Agent协调 他们现在新搞了一个Muse系列,Muse Spark是Muse系列模型中的首款产品,主打个人超级智能 Muse Spark的Contemplating模式,多智能体并行推理在Humanity's Last Exam达到58%,FrontierScience Research ​
7
0
13
AIGCLINK
2026-04-09 07:10来自 微博网页版
Anthropic最新发布了:Claude Managed Agents,规模化构建和部署Agent的一站式解决方案,基础设施全托管 也就是说构建Agent,你只需要定义任务、工具和防护规则,剩下的安全沙箱、状态管理、权限控制等等Managed Agents搞定 支持目标导向模式,给定结果和成功标准,Claude自我评估并迭代直到达成(目 ​
10
2
19
AIGCLINK
2026-04-08 16:53来自 微博网页版
小米最新开源的能覆盖600+语种的语音克隆TTS:OmniVoice,在中英文和多语言benchmark上关键指标达到SOTA 在Seed-TTS中文测试集上的WER为0.84%;在多语言benchmark上,SIM-o和WER超过ElevenLabs v2和MiniMax RTF低至0.025,合成效率比实时快40倍 其核心在于采用了扩散语言模型风格的离散非自回归架构 ​
13
0
30
AIGCLINK
2026-04-08 11:41来自 微博网页版
一个开源Agent长期记忆系统:Hindsight,使Agent不只是记住对话历史,而是能真正学习和积累经验 在LongMemEval上拿了SOTA,两行代码即能接入 Hindsight核心创新是其仿生记忆架构,让AI不仅能记住刚才说了什么,还能像人一样积累经验,学习成长 对需要记住用户长期偏好做复杂决策支持场景的,比如搞A ​
30
4
49
AIGCLINK
2026-04-08 07:25来自 微博网页版
智谱刚刚开源了其智能体模型:GLM-5.1,核心长周期Agent工程能力,SWE-Bench Pro 58.4,超GPT-5.4、Opus 4.6 5.1主要解决了Agent跑久了变笨的问题,在600轮/1000轮、8小时的长周期任务中仍然能保持策略创新和持续优化 之前的模型用完熟悉的招数后就会迅速停滞,给再多时间也没用,GLM-5.1能自主分析 ​
17
2
27
AIGCLINK
2026-04-07 17:18来自 微博网页版
AI智能视频剪辑师:CutClaw,丢进去几小时的长视频和一段音乐,给文字指令,它能自动出踩点音乐的电影短片 搞旅拍的可以看看,比如拍了5-6小时素材,按BGM节奏,一键剪成一段1分钟抖音、小红书视频 Vlogger们可以快速从全天素材出片、搞营销的批量生成不同风格的宣传片等 剪出来视频的叙事性、节奏 ​
33
3
36
AIGCLINK
2026-04-07 11:47来自 微博网页版
能把代码、文档、论文、图片变成可查询知识图谱的工具:graphify,一次性构建知识图谱直接查图谱,Token消耗降71.5倍 输入/graphify,它就能读取文件(多模态),构建知识图谱,帮助你快速理解代码库结构 Karpathy最近发的那个知识库,会把论文、推文、截图和笔记都丢进去一个/raw文件夹,graphify解 ​
49
2
41
AIGCLINK
2026-04-06 09:48来自 微博网页版
视频版的Google搜索工具:sentrysearch,给定文字描述,即能自动从视频素材中找到匹配片段并剪出来 特别适合视频需要快速回放的场景,比如说交通事故取证、媒体/影视素材管理、监控安防等等 其主要基于大模型原生视频嵌入能力,直接处理视频像素无需转录或帧描述,纯视频像素到向量的端到端方案 支 ​
38
2
28
AIGCLINK
2026-04-03 11:07来自 微博网页版
港大刚刚最新开源了一款比Claude Code轻44倍、兼容Claude Code skills和plugins生态的智能体框架:OpenHarness 核心代码1万多行,砍掉了遥测、OAuth、重型React UI,只保留了核心Harness架构 模型负责思考,Harness给模型提供手、眼、记忆和安全边界。OpenHarness把Agent从黑盒变成白盒,开发者能看 ​
63
3
65
AIGCLINK
2026-04-03 07:44来自 微博网页版
谷歌放出了最新开源模型:Gemma 4,型号从手机到工作站全覆盖 E2B/E4B/26B MoE/31B Dense,原生支持140+语言 原生Agent工作流,函数调用、结构化JSON输出、系统指令 小型号128K上下文,大型号256K上下文 支持视频/图像输入,小型号还支持音频输入 26B/31B,单张H100 80GB可跑全精度;量化后消费级 ​
12
1
20
AIGCLINK
2026-04-02 09:38来自 微博网页版
智谱把自己的最新视觉编程模型放出来了:GLM-5V-Turbo,“看一眼”就能写代码的多模态编程模型 给定一个草图、一张截图或一段录屏,模型即能生成对应代码,跟前两天阿里的那个Qwen3.5-Omni一样 原生多模态、200K上下文窗口 并且在文本工具基础上新增支持多模态搜索、画框、截图、读网页等多模态tools ​
17
2
35
AIGCLINK
2026-04-01 17:39来自 微博网页版
ClawHub刚刚给出了官方中国镜像站,用官方Skill国内访问没障碍了,地址:http://t.cn/AXIKB3J2 #openclaw##skill##openclawskill##clawhub# ​
37
2
34
AIGCLINK
2026-04-01 16:46来自 微博网页版
字节即梦官方CLI目前已全量开通 ,一行命令安装,OpenClaw直接调用即梦图片及视频生成能力,限时体验 一条命令生图/生视频,支持Seedance2.0旗舰模型。高级会员才能用 覆盖能力: text2image文生图 text2video文生视频 image2image图生图 image2video图生视频 image_upscale图片超分 multimodal2vid ​
55
5
68
AIGCLINK
2026-04-01 10:14来自 微博网页版
昨天Claude Code源码泄漏,有人连夜搞了一个Claude Code反封号反追踪工具:cc-gateway Anthropic会通过640+种遥测事件、40+维度指纹检测异常使用情况,比如设备ID、邮箱、操作系统、硬件配置等,每5秒上报一次 CC Gateway在所有身份指纹出网前全部重写,让Anthropic服务器只能看到一个标准化身份 从 ​
111
8
120
AIGCLINK
2026-03-31 17:51来自 微博网页版
一个打包疏忽,把Claude Code的源码交出来了,架构、工具实现、权限系统、IDE集成方式、开发中功能等全暴露 http://t.cn/AXIisUp5 #ClaudeCode# ​
20
6
40
AIGCLINK
2026-03-31 15:45来自 微博网页版
全网热点舆情监控工具:TrendRadar,可抓知乎、抖音、B站等11个平台热搜,按关键词或 AI筛选后推送 默认监控知乎、抖音、B站、百度热搜、头条、华尔街见闻等11个平台,也可自行增加,支持加RSS订阅源 可以推送到企业微信、微信、飞书、钉钉、Telegram、邮件、Slack、Webhook 10+个渠道 有趋势分析, ​
49
5
52
AIGCLINK
2026-03-31 07:27来自 微博网页版
Claude Code刚刚上新了Computer Use功能,能直接操作Mac桌面了 Claude Code现在能在CLI里直接打开应用、点击、打字、看屏幕截图,像人一样操作macOS GUI,不用离开终端就能测试原生应用、调试视觉问题、操作没有API的工具 比如说开发App,以前写完要自己手动打开点一遍看效果,现在可以让Claude自己 ​
11
3
16
AIGCLINK
2026-03-30 21:55来自 微博网页版
阿里刚刚发布了:Qwen3.5-Omni,原生全模态,自然涌现出Audio-Visual Vibe Coding能力 也就是说它能看着画面写代码,给它看一段界面需求视频,它能直接生成对应代码,不是专门训练来的,模型自己学会的 好比说你看一眼就会了,AI也做到了 Qwen3.5-Omni能无缝理解文本、图片、音频/音视频输入,支持 ​
24
4
35
AIGCLINK
2026-03-30 17:35来自 微博网页版
这两天超爆的一个项目:pretext,让前端不碰DOM就能精确知道文字占多大空间,比传统DOM测量快500倍 用纯TypeScript写的一个文本测量引擎,不依赖DOM,不触发回流,直接在JS层面算出文字会占多少空间 比如说虚拟滚动,聊天记录里有几万条消息,每条高度不同,传统做法要把每个元素都渲染到DOM里量一次 ​
22
1
25
AIGCLINK
2026-03-30 13:29来自 微博网页版
OpenClaw的企业级管理面板工具:ClawManager,一人装全员用,等于公司IT部门的管理后台 想在团队/公司内部规模化部署OpenClaw的可以看看 ClawManager是一个面向团队的Kubernetes控制面板,用于统一管理OpenClaw和Linux桌面运行时 一个管理后台统一管理用户、配额、实例和运行时镜像 资源配额可控, ​
32
5
21
AIGCLINK
2026-03-28 22:04来自 微博网页版
最新,字节今天开源了:飞书CLI,Agent-Native设计,Claude Code等零配置即可操控飞书 覆盖日历、消息、文档、网盘、多维表格、电子表格、任务、知识库、通讯录、邮件、会议等核心业务 支持200+命令+19个Agent Skill github:http://t.cn/AXI2zYkC #CLI##飞书CLI##larkcli# ​
21
1
30
AIGCLINK
2026-03-27 07:02来自 微博网页版
Meta最新开源了一款人脑活动基础模型:TRIBE v2,能预测人类在看到、听到、读到内容时的全脑活动,相当于给大脑建了一个数字镜像 可以用到神经科学模拟脑反应,助力实验设计;或者医疗,辅助脑部疾病的诊断和治疗 无需重新训练,即可预测新刺激、新任务和新受试者的脑反应,在听觉和视觉数据集上比标 ​
10
0
12
AIGCLINK
2026-03-26 15:40来自 微博网页版
最新,这款AI科学家系统登上了Nature:The AI Scientist 从生成研究想法、代码编写运行实验、分析数据、论文撰写、自动审稿评估,全程端到端自动化 生成的论文向ICLR 2025研讨会提交了3篇,1篇通过盲审 不过按预先协议(AI生成)已被主动撤回 它有两个模式 1、基于模板Template-based,给定一个初始 ​
13
2
14
AIGCLINK
2026-03-26 09:34来自 微博网页版
Anthropic官方iMessage插件,用iMessage跟Claude Code交互 本地执行,双向通信(支持文字和图片) 可以手机发消息让Claude查文件、改代码、读取图片,并回复消息 默认只响应自己,其他联系人需手动开白名单授权,陌生人消息直接丢弃 github:http://t.cn/AXfeoEO1 #claudecode# ​
9
1
11
AIGCLINK
2026-03-25 11:51来自 微博网页版
谷歌全新压缩算法:TurboQuant,将LLM键值缓存内存减少了6倍,速度提升了8倍,零精度损失,无需训练 AI模型使用高维向量来处理信息,但这些向量非常消耗内存,特别是在KV cache中 传统向量量化: 量化本身能压缩数据,但需要存储额外的量化常数 这些常数通常用全精度存储,每个数额外开销1-2 bit 部 ​
17
0
29
AIGCLINK
2026-03-25 10:47来自 微博网页版
用来训练Agent的Agent:HyperLearn 给定一个主题或URL,它会自动打开浏览器去读文档,边读边整理成一个技能文档 整个过程在实时浏览器预览中可见,AI边浏览边生成 完成后可以下载.zip,把这个技能文档喂给另外一个Agent 相当于一个自动学习工具,把原来人工读文档手写skill的活儿变成了AI自动化 g ​
56
4
57
AIGCLINK
2026-03-25 08:40来自 微博网页版
Claude Code新功能:自动模式 以前每次操作都问同不同意太麻烦,自动模式相当于完全放手和每次审批间的一个折中方案,用分类器做安全过滤 每执行一个操作前,内置的安全机制会先进行审查 安全操作,自动执行 有风险的,拦截并换方案,如果一直被拦会触发用户审批 建议在隔离环境中使用此功能 Team ​
1
0
5
AIGCLINK
2026-03-24 20:52来自 微博网页版
用这个skill给Claude Code装上完整的联网和浏览器自动化能力:web-access 补齐了Claude Code不具备的CDP浏览器操作、调度策略、站点经验的短板,使之可以执行需要登录态操作、需要复杂交互的任务 首先联网工具自动选择,WebSearch、WebFetch 、curl、 Jina 、CDP,可按场景自主判断 直连日常Chrome ​
29
3
44
AIGCLINK
2026-03-24 16:38来自 微博网页版
阿里刚刚放出来了一款环境音/音效模型:PrismAudio,5.18亿参数,生成9秒音频只需0.63秒 它把强化学习和思维链结合,先思考,再生成匹配的声音 声画同步、以及音质上的清晰度丰富度感觉还可以 权重: http://t.cn/AXfEXrNS http://t.cn/AXfEXrNa #音效模型##PrismAudio##无声视频配音# ​
17
2
17
AIGCLINK
2026-03-24 16:02来自 微博网页版
阿里上线了一款电商版OpenClaw:Accio Work,一人+Accio Work即是一个跨境电商团队 从商品设计、采购、谈判、店铺运营、营销到CRM,一个对话框全搞定 比如,一句“我想开一家卖丑萌毛绒玩具的Shopify店铺”,它即会去市场调研、选品、找货源、预估利润率、上架、做SEO优化、运营推广等等 你可以创建 ​
132
8
112
没有更多微博了