SYSTEM NAV // REGION

新闻中心

2026 赛季激战正酣,登录 开云 APP,随时随地开启高清流媒体转播与智能化赛程提醒服务。

德国出局,Kimi冠军预测提前折戟:AI预测足球失败了吗?

📅 🔥 5 VIEWS

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  德国队被巴拉圭淘汰的那个凌晨,球迷圈和科技圈同时炸了。

  球迷复盘的是比赛本身:巴拉圭怎么把节奏拖慢,德国为什么始终没能把优势转化成胜势,点球大战里谁先被压力击穿。科技圈翻出来的,则是另一张表——联想和咪咕“世界杯预测人机大战”的赛前预测。

  德国对阵巴拉圭,Kimi给出3:1,DeepSeek和通义千问预测3:0,百度文心和阶跃星辰预测2:0,腾讯混元、MiniMax、商汤小浣熊等模型也全部站在德国一边。

  12个大模型,零票投给巴拉圭。

  结果是:1:1,德国点球出局。

  一场12:0的共识性误判,在AI预测里并不常见。它真正引出的问题,也不只是“Kimi翻车了”,而是:当AI面对足球这种高度不确定的系统时,它到底能看见什么,又会系统性看漏什么?

  Kimi赌得最重,也摔得最响

  在所有参与预测的模型里,Kimi是那个下注最重的样本。

  世界杯开赛前,月之暗面高调宣布,Kimi将公开预测104场赛事,并搭建一套“Agent集群”架构,调度300个子Agent,覆盖战术、伤病、赛程、舆情、天气、心理、赔率等维度。

  这不是随手一猜,而是一次产品级能力展示。

  更关键的是,Kimi明确看好德国。它的模型校准结果给出德国夺冠概率约11.3%,高于部分博彩市场隐含概率,结论是德国“可能被低估”。

  这个判断现在看来格外刺眼。

  不是因为它错了——预测本来就会错——而是因为它错的方式暴露了一个更深层的问题:当一个模型把能找到的数据都喂进去,把能想到的维度都加上,用复杂的工程架构去跑,最后依然稳稳站在错误的一边,问题就不只是数据量不够,也不只是模型不够复杂。

  问题在于,这套方法论在面对足球淘汰赛时,天然存在结构性盲区。

  我们不必替Kimi辩护,也不必急着嘲笑它。它恰恰是一个足够清晰的样本,让外界看见AI在处理高度不确定系统时的真实处境。

  不只是Kimi,全球AI都在世界杯上撞墙

  把视野拉到全球,Kimi的困境并不孤立。

  英国《金融时报》旗下FT Alphaville做了一个“AI Prediction World Cup”项目,把Gemini、Claude、ChatGPT的多个版本,以及高盛量化模型放进同一个赛场。小组赛结束后的统计结果是:60场比赛,528个比分预测,精确命中的只有38个,准确率约7.2%。

  全球最强的那批模型,对着足球猜比分,十次里中不到一次。

  高盛也不轻松。Business Insider报道称,高盛在48支球队完成首场小组赛后更新模型,综合历史表现、进球能力、球员状态、心理因素、地理变量和Elo评分,给出西班牙约20.4%、法国约20%、阿根廷约18%的夺冠概率。

  听起来很严谨,但淘汰赛刚开始不久,德国出局这样的冷门就已经提醒所有人:这些数字不是预言,只是概率在某一刻的快照。

  媒体实验更热闹。有人让ChatGPT、Gemini、Perplexity各选冠军,有人把AI和人类专家拉到同一个擂台上比拼。结果并没有出现一个压倒性答案。AI没有碾压人类,人类也没有彻底击败AI。

  这些实验拼在一起,勾勒出一个很清楚的图景:2026年世界杯正在成为全球AI能力的一场大型野外测试。

  它不是实验室里的对标,不是精心剪辑过的发布会demo,而是每天都有新结果、每天都可能被打脸的真实考场。

  12个模型全选德国,这个整齐本身就是问题

  比“AI猜错了”更值得追问的是:为什么12个模型会全部倒向同一边?

  没有一个犹豫,没有一个投巴拉圭。

  这种整齐,本身就是一个信号。

  大模型的判断依赖训练数据、检索信息和公开叙事的分布。德国是一支在信息维度上被高度覆盖的球队:四座世界杯冠军,成熟的战术分析文献,海量球员数据,密集的赛前预测和媒体讨论。

  这些信息量大、结构清晰、论据完整。模型跑下来,德国的胜利叙事天然更顺滑:阵容更强,经验更足,攻击线更锐利,每一条论据都能找到数据支撑。

  但足球淘汰赛从来不是一场论据比拼。

  巴拉圭不需要证明自己“整体实力”强于德国。它只需要在120分钟里让德国的优势兑现不了:放慢节奏,压缩空间,堵死肋部通道,把比赛变得黏稠、丑陋、乏味,然后拖进点球。

  一旦站到罚球点前,赛前所有概率模型的解释力都会迅速下降。剩下的是门将的一次判断,射手起脚前零点几秒的心跳,以及全场压力在某一个瞬间的集中爆发。

  这些变量——临场心理、门将手感、一次判罚尺度、一次折射角度——当然也可以被记录、被分析、被建模。但它们往往是低频、弱结构、强偶然的信号。AI不是完全看不见,而是很难给出足够权重。

  12个AI全选德国,本质上是“强队叙事”在信息密度上压倒了“冷门路径”。模型不是判断不出巴拉圭有机会,而是在概率排序中,把这种机会压到了几乎不值得认真讨论的位置。

  这揭示了当前大模型处理不确定性时的一个共性特征:它们很擅长把主流共识讲得完整、漂亮、可信,却容易系统性低估非主流结果的发生路径。

  当12个模型输出同一个答案,这件事本身就应该亮起警灯。

  但目前看,还没有哪个模型真正把“高度共识”当成一种风险信号来处理。

  在AI最不舒服的地方测试AI

  站远一步看,这轮世界杯预测热潮真正有价值的地方,不是谁多猜对了几场,而是这些实验的形态本身。

  联想集团和咪咕搭建的“人机大战”,做了一件在AI行业并不常见的事:把12个国产大模型放进同一张赛程表,赛前留下判断,赛后接受结果。对就是对,错就是错,没有事后修正,也没有重新解释的空间。

  这件事放在AI行业语境里,意义会更清楚。

  过去两年,AI公司展示能力的主流方式,是在发布会上跑一个精选demo,在榜单上刷一个高分,或者写一篇博客展示自己的benchmark排名。这些展示有一个共同特点:环境可控,结果可选。

  但世界杯不同。

  它结果客观,反馈即时,公众关注度极高,而且天然充满意外。每天都有比赛,每场比赛都可能出现冷门、红牌、伤病、点球、绝杀和强队崩盘。它恰好是测试AI判断力边界的极佳场景。

  不是让AI做它最擅长的事,而是把它推到最不舒服的地方,看它如何暴露局限。

  联想集团做这件事,也有自己的背景。作为FIFA官方技术合作伙伴,联想在赛事后台承担着技术基础设施和AI能力支持,包括FIFA AI Pro世界杯足球AI超级智能体、3D比赛分析、数据洞察等面向球队和赛事运行的系统能力。这些技术真实存在,也真正影响比赛准备和赛事体验,但普通球迷很难直接感知。

  “人机大战”则把AI从后台搬到前台:球迷看得见,能参与,能吐槽,错了也跑不掉。

  这正是它的公共价值所在。

  德国出局这场比赛戏剧性地证明了,在复杂系统面前,测试AI不仅有意思,而且必要。只有在可控场景里,AI永远光鲜;只有在世界杯这种不可控的真实赛场上,模型的边界才会被照亮。

  AI预测足球没有失败,但神话破了

  回到最初的问题:AI预测足球这件事,宣告失败了吗?

  没有。

  但它确实暴露了一个需要正视的认知落差。

  当Kimi拿出300个Agent预测世界杯,当高盛把Elo评分和心理变量塞进模型,当ChatGPT被要求给出一个冠军名字时,公众接收到的是一个隐含承诺:AI是一台更强大的预测机器,只要给它足够多的数据和足够好的算法,它就能看到人类看不到的未来。

  德国出局撕开的,正是这层承诺。

  AI在组织信息、发现统计规律、提供结构化分析方面,确实强于绝大多数普通球迷。它可以快速梳理一支球队的历史表现、阵容变化、战术倾向和赔率变化,也可以把海量信息压缩成一个看似清晰的判断。

  但足球比赛的决定性时刻,往往不发生在“规律”层面。

  它发生在门将扑点球时身体倒向哪一侧,射手起脚前那一瞬间是否犹豫,裁判在第88分钟面对一次身体接触时如何吹罚,或者一支弱队能否把比赛拖进自己最熟悉的泥潭。

  这些东西不是简单的数据不足问题,而是足球作为开放系统,本身就抗拒被完全预测。

  承认这一点不是唱衰AI,反而是对AI能力做出更诚实的定位。

  AI可以帮助我们更系统地分析一支球队,更全面地理解一场比赛的背景,更快地复盘一个冷门是如何发生的。但它给不了一个确定的答案,也不应该被包装成新的“电子章鱼保罗”。

  世界杯还在继续,联想和咪咕的“人机大战”也还在继续。接下来真正值得关注的,不只是模型下一场猜谁赢,而是它们会不会做赛后复盘:为什么错,错在哪个维度,下次如何调整?当12个AI再次全部同向时,有没有哪一个敢加一句——注意,共识本身就是风险。

  如果这场实验能把德国出局这样的集体误判,变成一次认真的能力拆解,它就比任何AI发布会都更能让公众理解AI到底是什么。

  世界杯不会因为AI加入就变成一道算术题。它依然会有冷门、乌龙、绝杀和强队崩盘。

  AI的价值不在于消灭这些意外——它消灭不了——而在于每一次意外发生之后,帮我们更清楚地理解意外为什么发生。

  德国已经回家了。

  但关于AI能力边界的讨论,才刚到最有意思的地方。