#Claude偷偷给中国用户打水印##模型时代#
最近Anthropic的事件比较多,一件是是旗下模型Fable 5和Mythos 5被美国政府叫停、又重新开放,另一件是旗下编程工具Claude Code被曝出会偷偷记录部分用户的信息。第4条尤其有意思。
帮大家捋一下:
1、Anthropic6月9日发布了两款新模型,Fable 5和Mythos 5。这两款模型底层技术一样,区别是安全防护的松紧程度。Fable 5防护更严格,面向所有用户开放。Mythos 5防护更松,只给少数经过审核的合作机构使用,专门做网络安全防御工作。
2、发布三天后,6月12日,美国政府突然下令限制外国人使用这两款模型,不管人在美国境内还是境外。因为命令要求立刻生效,Anthropic又没办法马上分辨谁是外国用户,干脆把两款模型对全球所有人都关掉了。
3、美国政府下这个命令,是因为看到了亚马逊公司研究人员的一份报告。报告说他们用特殊的提问方式,让Fable 5说出了一批软件安全漏洞,其中一次还让模型写出了利用漏洞攻击的示例代码。
4、但Anthropic自己测试后发现,这个能力不是Fable 5独有的。换成别的模型,比如Opus 4.8、GPT-5.5、Kimi K2.7,同样能找出这些漏洞。至于写攻击示例代码这件事,几乎所有测试过的主流模型都能做到,不只是Fable 5。也就是说,被叫停的那个行为,并不是什么特别厉害或独家的能力,只是美国政府一开始判断得比较谨慎。
5、接下来的两周多,Anthropic一边和美国政府沟通,一边给Fable 5加了一套新的安全检测,专门针对报告里提到的那种问法,能拦住99%以上类似的尝试。副作用是,一些正常的编程、调试请求也可能被误拦。美国商务部下属的一个安全评测机构测试后,认为新旧两版防护都很到位。
6、6月26日,Mythos 5先恢复给部分美国机构使用。6月30日,美国政府正式解除禁令,Anthropic发文完整说明了这18天发生的事。Fable 5从7月1日起重新对全球用户开放,第一周还有使用优惠。
7、这件事之后留下两个变化。第一,Anthropic和美国政府的合作更紧密了,以后重要模型发布前,美国政府指定的机构可以提前拿到模型做独立测试。第二,Anthropic联合亚马逊、微软、谷歌等公司,开始制定一套统一标准,用来评估“绕过AI安全限制”这类行为到底有多严重,避免各家公司标准不一。
8、几乎在同一段时间,Anthropic还碰上另一件完全不同的事,跟上面这件没有直接的因果关系。
9、一份技术报告说,检查了Claude Code的三个版本(2.1。193、2.1。195、2.1。196),确认这个工具会偷偷记录部分用户的信息。
10、具体是怎么记录的?
如果用户没有直接连接Anthropic官方服务器,而是通过某个中转服务器访问,Claude Code会检查这个中转服务器的网址,拿去跟一份包含147个网址的清单做比对,里面有百度、阿里巴巴、字节跳动等中国科技公司,以及一些专门转卖Claude服务的中转商。同时,它还会检查用户电脑设置的时区,看是不是上海或乌鲁木齐所在的时区。
11、如果两项都命中,Claude Code不会另外发一条明显的记录,而是悄悄改动系统提示词里“今天日期是……”这句话的写法。比如中国时区会让日期格式从“2026-06-30”变成“2026/06/30”,连日期里的撇号也会换成几个长得几乎一样、但编码不同的符号,用来标记不同的命中情况。普通用户肉眼根本看不出区别。
12、为什么要这样藏,而不是直接做一条记录。
接下来是报告作者的推测,Anthropic没有正式解释过。推测是,如果做成一条明显的记录,转卖服务的中转商很容易就能把它删掉,信号就失效了。但藏在一句看起来完全正常的日期文本里,中转商大概率不会去改这种内容,信号就能原样一路传到Anthropic的服务器。这样做也几乎不用额外开发,顺手在已有的一句话里做文章就行。如果Anthropic确实想追查未经授权的转卖,或者有人拿Claude的输出去训练自己的模型,这种藏起来的标记能在事后帮他们找到证据,证明某些可疑内容确实来自被标记过的请求。
13、报告发出后,一名Anthropic的技术人员在网上回应,承认了这段代码确实存在,并表示第二天发布的新版本会把它去掉。这是目前唯一一条来自公司内部的确认,但它只证实了代码存在、而且会被撤掉这两件事,没有证实报告里所有技术细节都准确,也没有解释当初为什么要这样做。截至目前,Anthropic官方还没有发布正式声明。
发布于 日本
