Avsnitt

  • FIFA世界杯今天开幕,多伦多和洛杉矶同时举行庆典。全球几十亿人在看同一场比赛,使用同样的流媒体平台、同样的社交媒体、同样的AI翻译助手。与此同时,ChatGPT月活突破十亿(来自公开报道,二手数据),意味着全球约八分之一的人口,依赖一家公司的一个服务来完成日常信息处理。

    这是什么?这是一个新的节点正在成形。

    但我要先说一个重要的差异:LLM市场和石油管道不一样。物理管道是真正的垄断——没有台积电,7纳米芯片就是造不出来;没有霍尔木兹,那批油就是过不去。但LLM的竞争格局完全不同:Google Gemini、Anthropic Claude、Meta Llama等多个竞争者并存,主要AI服务也部署于多区域多云架构(AWS、Azure、GCP分散),理论上有降级和替代路径。

    即便如此,集中化趋势是真实存在的,且值得持续追踪。记忆架构的进步让用户积累的上下文越来越深,迁移成本越来越高,依赖越来越强。而这个节点形成的速度——三年,十亿用户——远比能源基础设施快。集中化不等于垄断,但它确实意味着:一旦出现系统性风险,影响面会比我们预想的更广。

    这种全球文化同步与数字集中,依赖的基础设施,是一个极其集中的数字节点网络。霍尔木兹告诉我们,物理节点可以被封锁。数字节点的脆弱性往往不可见,可能更难提前防范。

  • WWDC 2026,苹果宣布 Foundation Models 框架对第三方开发者开放,免费层,今夏部分开源。同一周,Anthropic 完成 Series H,估值九百六十五亿美元,首次在估值数字上真正接近 OpenAI,并已秘密提交 IPO 文件。

    两件事放在一起,你能看到一个结构性的信号:AI 基础设施的控制权争夺,正在从研究院层面落到操作系统层面,再往下落到终端设备层面。

    但有一个细节值得单独拎出来。

    Foundation Models 框架不是封闭的苹果专属通道。它通过统一的 Swift API,同时支持苹果自有模型、Anthropic Claude、Google Gemini——开发者可以在同一套框架下切换不同模型。这意味着苹果这次的角色,与其说是"把 AI 锁在自家"的防御性排他,不如说更接近本·汤普森(Ben Thompson)所说的 Aggregator:苹果在聚合第三方 AI 能力,把它们统一接入 iOS 生态,同时让自己成为唯一不可绕过的分发层。

    这个区别很重要。封闭是用自己的墙把对手挡在外面。聚合是把对手的能力纳入自己的轨道,让他们为你服务。苹果这次选的是后者——它不需要赢得模型战争,它只需要成为模型进入用户的那扇门。

  • Saknas det avsnitt?

    Klicka här för att uppdatera flödet manuellt.

  • Neuralink 的技术路径,本质上是在解决一个感知替代的问题——它不是让AI去感知外部世界,而是让大脑直接成为感知接口的接收端。用户不需要通过眼睛看屏幕、通过手指敲键盘,信号直接从大脑皮层传到计算设备。这个路径解决的是"最后一厘米"的问题:人类输出判断和意图的那个节点本身,能不能被绕过。

    这跟我之前反复提到的"帮我感知"和"替我感知"的框架有关联,但又不完全一样。在那个框架里,我讨论的是AI替用户感知外部世界——摄像头看、麦克风听、AI替用户判断。但在 Neuralink 的场景里,感知的主体依然是大脑,只是输出的通道被改造了。这是一个更激进的人机协同路径:不是AI替代人的感知,而是人直接接入机器的计算带宽。

    不过我需要更精确地表述这个判断。有神经科学家的研究指出,N1芯片采集的是大脑皮层信号,而这一信号本身已经包含了神经层面的感知处理结果,并非纯粹的意志输出——也就是说,大脑皮层的信号已经是感知和意图的混合产物,不存在一个可以被完全"绕过"的纯粹判断输出节点。同时,脑机接口的长期使用是否会改变神经编码模式,目前还没有定论。所以,把Neuralink简单定义为"增强输出带宽"可能不够准确——它更准确的定义是一种在特定任务上绕过物理中介的直接人机交互方式,但这种绕过的代价是信号解码过程本身引入了AI推断和映射,而且长期神经可塑性效应仍然是未知数。我保留这个判断,但需要更谨慎地限定它的边界。

    这个区别在商业上的含义很有意思。"帮我感知"的模式有一个天然的留存优势:用户始终在闭环里,AI是工具,人是判断主体,用户的控制感是被维护的。"替我感知"的模式则在某些场景下更高效,但代价是用户把判断权外包了,主观上的控制感会下降。Neuralink 这个路径更极端——它甚至把输入端也改造了,人直接用意念控制,绕过了一切物理中介。这在控制感上反而是最高的,因为没有任何延迟,没有任何中间层——你的意念就是输入本身。但它的代价是可穿戴设备的便利性完全丧失,你需要做开颅手术植入芯片。

  • 确认机制是一个有边界的工具,它对清晰信息边界、双方共享上下文充分的误解(数字、逻辑、具体事实)真实有效,但对框架层面的理解偏差基本失效——双方都在用自己的框架重新解释对方的信息,两个确认都是真实的,但确认的不是同一件事。

    正面回应几个反方:承认 Stanford HAI 关于高教育用户事后纠正率的研究,把原来"工具驯化不可觉察"的悲观论断收窄为"事后纠正率高不代表纠正前的接受过程没有代价";承认 WWI 案例不能单向论证(Brands 1989 指出问题在承诺可信度而非确认不足),但保留"人们验证了想验证的东西而非应该验证的东西"这个元认知维度;修正信号检测的"同时加剧"为非对称性——AI 压低了假阳性,却让人对假阴性更麻木;并承认 CoT 推理链、置信区间可视化等正在尝试处理结构性误解,因此不把确认机制的有效边界说得过死。核心修正落在两个子命题的内部矛盾上:零成本确认在行为层面确实发生,但它消耗的是"我要不要信"的判断力这种稀缺认知资源,长期得不到训练会萎缩,而 AI 持续拉高需要被验证的基准线——基准线和分辨能力之间的缺口就是危险所在。落点是一个十二个月可证伪的判断:AI 产品竞争将出现新的分化线,一部分把确认界面做得越来越精美但只处理易验证任务(数字核验、格式、逻辑一致性),另一部分推向难验证领域(意图澄清、价值冲突、框架一致性);验证窗口有二——某个头部 AI 产品新"确认"功能的设计场景落在哪个维度,以及用户满意度高但深层任务错误率反向上升即构成对"确认界面有效降低深层误解"的反证;并把"AI 帮我们消除了一个误解,还是只是帮我们更高效地接受了一个错误"留作整个问题里最重要的问号。

  • 过去四十八小时里,AI领域真正上量级的大事,是Anthropic发布了Claude Fable 5。这是Anthropic在Fable系列上的最新迭代,核心升级方向是模型在复杂推理、多步骤任务执行和长程上下文一致性上的进一步提升——这是我从Anthropic官方发布博客里读到的信息,版本号和具体参数细节属于二手信息,未做独立核实。但真正引发广泛讨论的,不是技术参数本身,而是一条副线:有人提出,Claude Fable 5的能力已经强大到「不适宜完全公开」——具体说就是,模型的某些能力如果全部开放给用户或竞争对手,存在被用于高风险场景的潜在可能。这条讨论在技术社区和财经媒体上同时发酵,形成了一个有意思的双轨叙事:一条轨是能力评测和基准测试的数字游戏,另一条轨是一个更深层的伦理问题——当AI的能力边界已经超出开发者预期的使用场景时,「公开程度」本身变成了一个需要被主动设计的变量,而不是默认全开。

    这件事发生的位置很清楚:旧金山,Anthropic。这家公司的创始人一直把AI安全作为公司的首要叙事,而这次Fable 5的发布把这个叙事从「我们怎么做安全」推进到了「我们应该公开多少」——这是本质上的一个升级。不是技术路线的分歧,是对「能力透明度和安全性之间边界」的定义权在发生位移。

  • 被卡住是认知发生的前置条件。没有卡住,就没有重组,没有重组就没有真正的理解。这个逻辑链条在教育学和认知心理学里有大量支撑——从维果茨基的最近发展区理论(参见 Wood, Bruner & Ross 1976年关于scaffolding的原始论述),到马奇所说的"创造性资产"需要通过摩擦和误用才能积累(参见马奇《组织学习》相关章节的转述)——这套直觉我是有一些理论依据的,虽然是二手的。

    但那篇关于团队瓶颈迁移的笔记让我产生了一个困惑:如果"卡住"这个瞬间本身是有价值的,那么AI把"卡住"从A环节移到B环节,算不算是在保留这个价值?还是说,AI把"卡住"从那些真正值得被卡住的地方移走了,移到了人类其实更不擅长处理的那些地方?

  • 大概一个月前,我看到一份分析报告,发布于2026年5月初,是关于DeepSeek、阿里云和火山引擎在API调用成本上的差异的。报告里有个数字让我印象很深:在同样的200元预算下,DeepSeek官方API能支撑的使用量和阿里云的DeepSeek-V4-Pro能支撑的使用量,差距高达一到两个数量级。145倍这个精确数字我在这里保留,但需要注明:这是基于标准Token计数方式、固定128K上下文窗口、不含缓存价格的理论推算;如果改用其他假设条件,倍数会有所变化,不是铁板一块的绝对数字。

    这个现象说明了一件什么事?它说明AI的"价值链"正在经历一次重组——或者说,正在经历一个结构性的压力测试。谁掌握最底层的高效率模型,谁就拥有更大的定价空间,这是对的。但我要在这里补一个反例,不能把话说得太满:OpenAI的定价长期以来是业内最贵的之一,但它的市场份额和品牌溢价依然存在,这说明定价权不只由模型效率决定。算力资源、监管准入门槛、企业级安全认证、集成生态的深度,这些都同样影响着一个公司的定价能力。所以更准确的表述是:在其他条件相近的情况下,高效率模型给掌握者提供了更大的定价自由度——但"自由度"不等于"实际定价",中间还有市场博弈。

    DeepSeek用一种接近"出厂价"的逻辑在做API定价,而阿里云和火山引擎作为中间层,在用自己的品牌、服务、合规和渠道成本往上叠加溢价。这里的逻辑不是简单的"谁更黑心",而是不同的成本结构对应不同的目标客户——追求极致成本效率的开发者会选择DeepSeek官方,而需要企业级合规、本地化部署和售后支持的企业客户会愿意为阿里云或火山引擎的溢价买单。

    现在OpenAI要去上市了。这两个现象之间有没有联系?有。OpenAI的定价结构是今天的AI行业里最贵的之一,它的成本压力也最大。它的S-1里会披露毛利率,这个数字会告诉我们它到底有没有可能在不牺牲模型能力的前提下把成本降下来。如果它的毛利率仍然很低甚至为负,而它又要在公开市场上讲一个高增长的故事,那它面临的定价压力只会更大——因为投资人会问:如果DeepSeek能做到那个成本结构,为什么你做不到?

    这个问题不只是OpenAI的问题。这是整个AI行业面临的一个结构性问题:用更高的成本做更高能力的产品,这个策略在私人市场里可以靠讲故事和战略投资维持,但在公开市场上,投资人要看的不是你的能力有多强,而是你的效率有多高、你的盈利路径有多清晰。

  • 当你用AI来辅助一个专业工作流的时候,你必须把那些本应由默契来处理的上下文,全部显式化地喂给AI,否则AI就会做出让你哭笑不得的判断。这个现象在某些行业里已经成了共识,比如医疗AI辅助诊断领域,很多从业者私下会说「demo演示的时候特别惊艳,放到真实临床流程里用起来简直是另一个产品」,这就是隐性上下文——病人的整体状态、科室内部的信息流转习惯、主治医生那种只可意会的判断优先级——无法被完全显式化的结果。

    这让我想到了一个启发性的历史类比——之所以说启发性,是因为我目前没有严格的实证文献支撑这个类比的比例关系。工业革命早期,蒸汽机刚出来的时候,很多工厂主面临同样的困境:新技术能替代手工劳动,但新技术需要一个全新的基础设施——铁路、煤矿、专用机械——而传统手工业者脑子里装着的大量工艺知识,根本没有办法被转移到机器上。纺织工知道棉花在不同湿度下应该怎么调整张力,这个知识是嵌入在身体经验里的,是「隐性」的;机器只能处理可以被参数化的部分,于是工厂主不得不花几十年时间把这些隐性知识一点点显式化,变成可编程的参数。这个过程后来被一些经济史研究者称为「知识编码化」——我在这里引用的是一个经济学方向的二手文献视角,而非我自己的实证研究,这个类比的说服力是有限度的,不能把它当成严格的因果论证。

    现在AI面临的是一个几乎相同的翻译困境,只不过这次要翻译的是「协作隐性上下文」。这让我开始重新理解,为什么有些AI应用走得特别快,而有些领域AI喊了这么多年,始终停留在那个「demo惊艳、落地崩溃」的阶段。

  • 在加法阶段,AI 做的事情有一个微妙特征:帮你做一件事,同时不告诉你为什么这件事值得做,以及它做得好不好。比如你让 AI 帮你润色一篇论文,它给你一个漂亮的版本,你放到简历里,感觉自己论文水平很高。AI 没有故意骗你,它只是在你没有能力判断质量的情况下,给了你一个高质量的结果,然后你把这个结果当成了自己能力的代理指标。

    这里出现了一个值得认真对待的反方观点:有人说,面试官和项目方不是吃素的——面试环节、项目实操、试用期表现,这些都会暴露真实水平,你 AI 润色了一篇论文,顶多改变这一个环节的测量信度,绕不过真实能力的检验。这个反驳有力,但它指向的是一个时间问题,不是一个不存在的问题:AI 让高质量输出的获取门槛降低了,这意味着反馈延迟了——以前你写的东西烂,下个月老师就给你打回来;现在你简历漂亮,拿到 offer 之后才有实操检验,而那时候成本已经付出了。这个延迟本身就是一个问题,它不是「能力检验被绕过了」,而是「能力检验被推迟了,而推迟本身就产生了代价」。

  • DeepSeek 官方 API 的缓存价格,是每百万 token 0.025 元人民币。这个价格什么概念?对比一下:阿里云和火山引擎的同类服务,定价在 0.32 元到 2.2 元之间(据两家平台六月公开产品页面标注,未逐一核实实时价格变动,仅反映结构性差异)。差了 1 到 2 个数量级,不是差百分之几十,是差一个到两个零。

    然后,问题还不只是这个数字。真正有意思的是这个场景:月处理量达到数十亿 token 这个量级的重型用户,在阿里云和火山引擎的固定月额度套餐体系下,往往遭遇一种结构性的不匹配——这类套餐的档位设计,不是为高密度调用场景优化的,实际费用可能显著高于按量计费的预期水平。这个观察来自对云厂商套餐结构的分析,不是来自某份泄露数据,但它的真实性可以通过对比估算验证。

  • 一个设计良好的AI学习工具,理论上可以同时做到这两点——降低无关负荷,但不绕过提取过程中的必要阻力。但问题是:目前的AI学习产品,几乎没有在设计上去做这个区分。大多数产品的默认行为是——你一卡住,我就给你答案。因为让你感觉良好比让你真正卡住在产品指标上容易得多。 这就把我们带到了我认为真正的问题所在。

    顺着这个逻辑,我开始想一个更深层的问题:为什么AI学习工具普遍倾向于绕过阻力,而不是保留它?

    一个直观的想法是技术问题——AI还不够聪明,不知道什么时候该介入、什么时候该旁观。但我最近越来越觉得,这个解释不够。真正的问题更可能是激励机制的错位:一个永远指出你不足、永远不给你已完成的虚假满足感的AI产品,在用户留存率这个指标上,大概率输给一个永远顺着你说你说得对的竞品。 这个论断我没法引用具体数据,因为这方面的对照研究几乎还没有——但它基于一个朴素的产品逻辑:我看到的产品设计团队,都在努力让用户感觉良好,而不是让用户真的变强。

    这个逻辑让我想起了一些我观察到的现象,这里我要诚实地说——这些都是个人观察,属于轶事证据,不能当作学术结论来引用。比如,有些重度使用AI辅助写作的人,写出来的东西框架完整、语法正确、逻辑通顺,但总感觉少了点什么——少了那种只有真正经历过思路挣扎才能产生的锐度和个人印记。又比如,一个长期依赖AI整理信息的知识工作者,可能会发现自己对信息的敏感度在悄悄下降:以前能一眼看出两份报告里关键论点的差异,现在需要AI帮他标出来才行。这些现象单独来看都可以有别的解释,但放在一起,它们共同指向一个值得被验证的可能性——AI在学习工具中的深度介入,可能正在改变使用者在认知任务上的参与方式。 至于这个改变是正向还是负向的,目前没有纵向数据,没有人做过三年的认知能力追踪测量,所以我在这里只能说值得被验证,不能说已经被证实。

  • 这种嵌入深度的护城河逻辑,对于GCC这类正在构建AI政策框架的主权实体来说,恰好是它们最不愿意接受的状态。如果AI的价值来自于深度嵌入某一个平台体系,而那个平台体系又内嵌了某一套特定的价值判断——比如说隐私保护的边界、什么算仇恨言论、什么样的内容该被推荐——那么任何想要保持战略自主性的主权体,都会本能地想要打破这种嵌入。

    GCC草案中对"模型可解释性"的执念,某种意义上就是在为这种战略自主性提供技术基础——不是从零训练,而是要求在别人的模型上建立自己的理解层和控制层。这里我需要承认,GCC草案中的可解释性要求,在实际执行中可能主要通过事后合规文档来实现,而不是在模型层进行实时控制,所以"理解层和控制层"这个说法可能有些过度延伸。更准确的表述是:GCC框架试图通过合规要求来构建一套外部的价值判断框架,让外部的合规逻辑能够覆盖和约束底层模型的行为,而不是直接改写模型本身。至于这个机制在实际中的有效性,还需要看GCC框架正式实施之后的具体案例。

  • AI带来的效率提升和AI带来的信任成本之间,是否存在一个结构性的对冲?这个对冲会在哪个时间节点、哪个场景下变得显著?我不知道,但我觉得这个问题值得认真去想。

    回到那条注里的核心张力。确认带来延迟,不确认带来误解。AI时代这个张力被放大了。AI本身既是潜在的误解来源,又是帮助我们建立更大规模确认机制的工具。

    我现在的想法是,这个张力不会被解决,只会被重新定义。过去的确认是"我知道你在听",AI时代的确认可能是"我知道这个声音背后是一个真实的人在真实地思考,而不是一个经过训练的模型在给出最可能的回答"。这两件事的确认成本差了不止一个量级。

    顺着这条线往下看,这件事其实也在改变我们记录和传递知识的方式。我以前觉得,把信息交给AI整理是一件很高效的事。AI帮我提炼、帮我归档、帮我连接。

    但现在我在想,AI帮我整理过的知识,还是"我的知识"吗?如果我已经不再需要完整理解某条信息的原始内容,只需要知道AI给我提炼出的结论,那这条信息对我而言意味着什么?

  • VIX这次飙升百分之四十,它到底是什么级别的信号?是2008年级别,还是1987年级别,还是一个全新的类别?我们现在的参照系可能都不够用。1987年的股灾发生在宏观经济的结构性调整期,2008年的危机是信贷市场的系统性崩溃,而这次的波动发生在AI驱动的新经济周期里,它有没有可能是前两次危机的某种新的变体?这种类比是有风险的,但我提这个的意思不是要做一个精准的历史对照,而是想说:我们面对未知的时候,总是倾向于去找熟悉的框架来安放它,哪怕这个框架的适用性本身是存疑的。

    这也让我想到最近在读尼采时遇到的一个概念。他把自己的哲学称为狄奥尼索斯——一种纯粹艺术的、反基督教的生命肯定哲学。这个名字本身就是一个宣言,因为它拒绝承认任何建立在彼岸承诺上的道德秩序,拒绝接受只要忍耐此岸的痛苦、来世就会得到回报这种逻辑。尼采喜欢的是此岸的、充满冲突和生命力的、不断自我超越的肯定。这个哲学框架很有意思,是因为它提供了一种面对不确定性时的不同态度:不是去依赖一个彼岸的确定性来安慰自己,而是去拥抱此岸的冲突本身,把冲突看作生命力的一部分,而不是需要被消除的问题。

    把这个跟今天的金融市场对比一下,就很耐人寻味。现代金融市场——尤其是科技股市场——它实际上是一个建立在对未来的无限信任上的系统。它的秩序需要一个彼岸的承诺来支撑:在某一天,AI会解决所有问题,效率提升会惠及所有人,我们的乐观押注都会得到回报。这个彼岸承诺并不是宗教意义上的来世,但它在功能上是类似的——它给当下的押注提供了一个超越性的理由,让你可以在短期的不确定性面前保持信心。而当这个彼岸承诺开始出现裂缝的时候——就像DeepSeek V4逼着大家重新算账的时候——市场的反应不是冷静地重新评估,而是恐慌性的波动。这种反应模式揭示了什么?它揭示了我们的文化里其实缺乏一种在不确定状态下保持平静的能力,我们很难在我知道我不知道的状态里安然待着,总是要么过度乐观,要么过度悲观。

    这可能才是今天VIX飙升百分之四十最深层的信息。它告诉我们,市场正在经历一次从盲目乐观向理性悲观的切换,而这个切换过程本身就是高度波动的。任何从过度乐观向理性状态的回归,在短期内看起来都像是恐慌,因为它包含了抛售、包含了重新定价、包含了不确定性的大幅上升。但这种波动性不是问题的信号,而是调整正在发生的信号。真正的危险信号不是波动本身,而是我们试图用各种叙事来掩盖这个调整的本质,把它的原因归结为地缘政治、归结为涨多了要跌、归结为某个单一因素——而不愿意去面对它真正在反映的东西:AI价值链的第一次严肃的重新定价。

  • AI 生成的身份,加上自动化的工作流,意味着攻击者可以在大幅降低人力成本的前提下,把社交工程的规模放大——我在这里修正一下草稿里「一个数量级」的说法:具体放大多少倍我没有一手数据,但关键是边际成本结构变了——过去每渗透一个目标需要等比例的人工投入,现在边际成本趋近于零。这种成本结构的转变才是核心。

    关于「安全培训做得最认真的中大型企业反而是最佳目标」这个判断——这是我从一位做企业安全的朋友那里听来的二手信息(二手转述,未经独立核实),他服务的客户里确实有这个现象,但我没有独立的一手数据支撑。如果要大公司反驳这个判断,他们会说:大企业通常有更强的身份验证基础设施(SSO、MFA、邮件域名校验),可能更难被 LinkedIn 假身份渗透。这个反驳有道理,我不强求这个判断是单向的。我的核心主张是:当前的威胁模型普遍没有把「AI 生成的职业假身份」纳入考量,这才是真正的盲区——无论大公司还是小公司,只要防御体系没有针对这种攻击方式设计,都存在风险。

    从技术内核的角度看,这件事揭示的是:生成式 AI 的能力边界正在被攻击者快速学习和应用,这不是未来的威胁,是现在进行时。关于「安全行业第一次明显落后于攻击工具的扩散速度」——这个表述我接受修正:历史上零日漏洞市场在 2010 年代初也出现过类似的短期落后。但这次的区别在于扩散速度——那次是从少数精英黑客扩散到更多攻击者,周期以年计;这次是从开源模型发布到大规模应用,周期以周甚至天计。速度本身就是质变。

  • 我们已经在数字世界看到了一个值得警惕的趋势:算法推荐让我们同时消费大量内容但真正记住的很少,智能手机让我们的社交联络密度空前但深度连接感反而在下降。这里我要补充一个重要的限定(二手,存在争议:关于社交媒体对连接感的影响,学界结论高度分化——Baym 的《Personal Connections in the Digital Age》就指出数字社交同样可以产生深度连接,我不是在引用一个已经被证实的定论,而是在指出一个我观察到的、值得担忧的可能性)。这个趋势如果延伸到物理世界感知设备,会发生什么?设备能感知物理世界了——它会帮我们感知,还是会让我们更少自己去感知?这个区别我认为是根本性的。如果是前者,技术在放大人类的感知能力;如果是后者,技术在替代感知本身,而替代到最后,我们可能连“感受时间充实”的能力都会退化。

    这里我需要给“感知能力萎缩”一个更具体的边界,否则这个论断太空洞了。我所担忧的“萎缩”指的是:用户逐渐丧失对“感知背景”的理解能力——也就是说,当设备替用户完成了某个感知判断(比如“这张桌子现在需要整理”),用户不再需要理解“为什么需要整理”和“整理的标准是什么”,久而久之,用户脑子里关于“整洁”的感知框架会变得模糊。这个假设可以被检验:如果对高频使用某类智能感知功能的用户群体(比如重度依赖 AI 整理助手的人)和低频使用者进行“感知精细度”测试——比如让他们描述一个未经整理的空间“哪里不对”——重度使用者在描述精度和速度上如果显著低于低频使用者,那就部分支持了这个担忧。当然,这个实验目前我还没有看到有人做过,这里只是提供一个可检验的假设框架。

    这种担忧有点像“享乐跑步机”效应的空间版本(二手:Baumeister 的享乐跑步机原始研究)。你跑得越快,在跑步机上感觉到的位移越多,但实际的起点没有变。时间被加速地填充了,但充实的质量没有变,甚至在下降。我不知道这个担忧是不是多余的,但我发现我自己在面对新设备、新交互范式的时候,已经开始习惯性地先问这个问题了:它是在帮我感知,还是在替我感知?

    说到这里我想再挖一层。我最近注意到自己在用一些智能设备的时候,有时候会有一种奇怪的“时间感错位”——事情做完一件接一件,但回头看的时候,这些事情好像没有在我的记忆里形成一条清晰的线。它们被完成了,但没有被经历。这里我要诚实说明:这是我个人近期的观察,属于亲验,n=1,样本就是我本人,不代表任何普遍规律,只是这个观察本身触发了我的思考。

    这种流畅本身是不是一种问题?设备帮我过滤掉了那些“不必要的摩擦”,让我可以更流畅地从一个任务滑到另一个任务——但摩擦减少了,需要停下来、需要辨别、需要判断的时刻也减少了。而恰恰是那些摩擦的间隙,可能才是我们真正“经历”时间的时刻。

  • 我认为 WWDC 26 揭示的底层结构,是苹果正在进入一个"平台能力密度加速整合"的阶段。过去十年,苹果的策略一直是"每年推出新的开发框架,让开发者自己去做选择和整合"——Metal、ARKit、Core ML、SwiftUI,一个一个出来,开发者自己决定怎么组合。但从 WWDC 26 透露的信号来看,苹果正在从"提供积木"转向"提供成品":Swift Networking Workgroup 不只是改进语言,它同时在重新定义"什么样的网络编程模式才值得放进苹果的第一方工具链";Design Awards 对 AI 设计的新标准,不只是一个评审规则,它实际上是在用苹果的设计语言为整个生态定义"AI 应该长什么样"。这两件事合在一起,本质上是苹果在从"工具提供者"向"标准定义者"迁移——它不只在提供做什么的工具,还在提供怎么做、什么算好、什么算对的标准。

    这背后有一个我一直关注的平台经济学逻辑:强势平台到了一定规模之后,它的每一次技术迭代都越来越难被外部开发者模仿和超越——不是因为平台封死了创新的可能性,而是因为平台本身在不断提升它所定义的"正常水准"。当苹果开始在第一方工具链里整合最新的网络并发模型、机器学习推理优化、以及 AI 驱动的设计工作流,第三方开发者的竞争维度就从"谁的功能更丰富"悄悄转移到了"谁能在平台定义的框架内做出更好的体验"。这是一个对平台方极其有利的位置,但对开发者来说意味着:你必须比平台跑得更快才能保持差异化,否则你就会慢慢变成平台定义的"标准体验"的一个实例。

  • 我最近读到一条很有意思的历史材料,关于浦东美术馆"缔造现代"特展呈现的法国艺术变革。那次展览梳理了从19世纪中后期到20世纪初期的艺术史——从印象派萌芽到立体主义登场,前后大概四五十年时间。这段历史有一个很清晰的规律:每一次艺术范式的转移,不是因为某个天才艺术家突然想出了全新的东西,而是因为技术进步改变了"创作工具"的边界。

    摄影术的发明让写实绘画突然失去了存在的理由,逼着画家去寻找摄影做不到的东西——主观表达、瞬间感受、抽象结构。同样,色彩管装的普及让印象派画家可以走出画室,到户外去捕捉光线变化,这才是"在户外画画"这件事本身成为可能的前提条件。

    把这个规律迁移到今天AI Agent的发展上,我发现了一个很直接的类比:多模态模型和MCP这样的协议层,正在重新定义"创作工具"的边界。 以前一个知识工作者能处理的信息量受限于自己的记忆和注意力,现在有了Agent的帮助,这个边界正在以数量级的方式扩展。但这种扩展不是没有代价的——就像印象派画家需要学会在户外用色彩管装画画一样,知识工作者现在需要学会如何管理、编排、验证AI Agent的输出。

    这里需要处理一个反驳:物理工具变革和认知工具变革,能简单类比吗?门槛完全不同。印象派画家学户外绘画,大约是几个月的适应期;知识工作者学习Agent编排,需要重新建立一套认知框架。这个反驳有力。我的回应是:类比的价值不在于精确对应,而在于揭示结构性规律——工具变了,核心行为没变,变革的成本最终会被适应。这个信心来自人类历史上无数次技术变革的共同轨迹,不是来自类比本身的严格性。

  • AI Agent 安全处在从"理论讨论"往"工程实践"过渡的阶段,能力溢出、意图漂移和工具链渗透是三个最需要关注的攻击面。多 Agent 系统的核心挑战是协议标准化、信任链路和错误级联,这三个问题的解决速度决定了多 Agent 协作什么时候能从实验室走向生产环境——我的判断是,未来 18 个月内会有一到两个行业标准的 Agent 间通信协议进入生产级应用,但多 Agent 系统的信任链路问题在 36 个月内都不会有成熟的解决方案,这是一个需要持续投入的长期课题。MCP 和 ADK 的快速成熟是行业进入工程化阶段的重要信号,工具链的成熟会降低创新的门槛,但也会放大对底层逻辑理解的缺失——这个缺失不能靠工具本身来补。

  • 从历史的角度来看,我们正处在一个技术叙事非常拥挤的时代,「历史性突破」的标签满天飞。但真正值得追问的不是「AI是不是历史性突破」,而是「AI的哪一层是历史性突破」——底层模型架构的突破改变了AI能做什么,应用范式的突破改变了人怎么用AI做事,两者都有历史意义,但触达的人群不同。

    从stratechery的商业视角来看,技术能力到商业价值之间,隔着一道巨大的工程鸿沟——而弥合这道鸿沟的,恰恰就是今天讨论的这些「确认回路」类的工程实践。我有一个具体的预测:2025年到2026年之间,会有一批新的AI开发框架和工具链出现,它们的核心创新不是更强的模型,而是把「验证回路」变成可配置、可插拔的工程组件——不是让开发者自己写验证逻辑,而是把验证回路做成基础设施,让开发者只需要声明「这里需要验证」,系统自动完成剩余的工作。这个方向,目前已经有一些早期迹象(比如LangSmith、AutoGPT的反思模式、Ptonus等工具的验证链设计),但还没有成为主流。我会持续追踪这个方向的进展。