《绝地求生》AI队友GDC首曝:2026年上线 《绝地求生》AMR狙击技巧

3月11日(太平洋时刻),《绝地求生》团队在GDC 2026的演讲中第一次公开了他们为游戏制作的CPC(定制化玩家人物)——“艾尔琳”。
在这次演讲中,他们第一次公开了AI队友“艾尔琳”的技术实现细节,全部功能均在玩家本地PC运行,3060显卡即可实现60帧流畅尝试,AI响应延迟控制在2秒以内。证明了在竞技游戏中部署“有记忆、懂战略、能聊天”的端侧AI是可行的,给出了完整的技术途径,并同步公布此功能预计2026年正式上线。
演讲结束后,围绕这套体系的技术选型、玩家尝试和硬件适配,团队还和现场开发者展开了问答探讨。
下面内容为整理后的演讲具体内容:
大家好,我是辛克。今天我会为大家说明这《绝地求生》里的人气人物——艾尔琳。
在《绝地求生》中,最精妙的游戏瞬间,往往是和队友一起创新的。有队友在身边,你们可以一起开怀大笑、同享物资、制定战略。但有时候,组队方法会出难题:好友并非随时都有空,只能选择匹配队友。但随机匹配也存在难题,队友之间的游戏目标和跳伞落点都不一样,团队很容易就散了,有时候还会遇到玩家中途掉线的情况。
于是大家就有了壹个想法:能不能用人工智能队友来填补这个空缺?很多人了解NPC这个概念,也就是非玩家人物。但决定因素难题是,玩家无法操控NPC,也不能扮演这个人物,因此很多游戏里的NPC表现都很呆板。现在大家引入壹个新的概念——CPC,即定制化玩家人物,设计初衷就是和玩家并肩作战、默契配合。这就是大家为这款吃鸡游戏打造的CPC人物——艾尔琳,她就像一位能和你探讨互动的游戏好友。
刚刚大家看到的是我和艾尔琳组队的画面,她就像真人队友一样和玩家配合默契,主要有四大核心亮点:
第一,她的游戏水平在线,会努力和玩家保持行动同步,就像真正的靠谱队友。第二,她能听从玩家的语音指令,只需说出一句话,艾尔琳就能领会并照做。第三,她能懂游戏里的唯一术语和俚语,无论是专业词汇、物资名称,还是队友间的闲聊对话,她都能领会。第四,她的探讨方法特别天然,能和玩家顺畅沟通,会倾听、会答复,甚至还会开点小玩笑。
接下来大家深入讲讲,为了让艾尔琳的表现更贴近真人队友,大家遇到的四大核心技术难题:实时决策力、交互的安全性和趣味性平衡、交互的主动性,以及记忆能力。
在讲解具体技术细节前,我先明确一下艾尔琳的感知和行动边界。
第一,语音输入输出。玩家用天然语音和艾尔琳探讨,大家通过语音转文字技术将玩家语音转化为文本,艾尔琳再通过文字转语音技术做出答复。
第二,场景信息输入。艾尔琳并非直接识别游戏画面,而是接收结构化的游戏数据,如位置、时刻、物资、敌情等信息,再将这些数据转化为文本描述,通过这些描述来领会游戏场景。
第三,行动输出。艾尔琳不会像人类玩家一样运用键盘鼠标操作,而是通过语义化的行动指令完成操作,比如移动、STG、观察、交互等。
实时决策力
在这款战场竞技游戏中,遭遇敌人后也许1秒就会阵亡,因此AI队友必须做到反应敏捷、表现稳定。大家有一种基于制度的模型,以游戏情形为输入、动作指令为输出,通常依托深度决策树构建。这种模型的优势是反应迅速、表现稳定可预测,但它不支持对话和语音控制。简单来说,就是存在这样的取舍:一侧是更智能、更具交互性的模型,另一侧是反应快、稳定性高的模型。
大家的化解方法是将这两套体系融合,采用一号体系和二号体系的双层架构。一号体系负责生成全部动作指令,支撑AI的各类行为和决策;核心设计思路是,二号体系能够修改一号体系的行为玩法。这意味着玩家可以通过语音给AI下达指令,而AI依然能保持敏捷的行动。这就像你碰到滚烫的物品会立刻缩回手一样,是本能的反应,无需思索。大家的AI队友正是依靠一号体系,实现了这种即时反应。
我用壹个例子讲解具体职业原理。玩家发出指令前,一号体系自主运行,根据游戏实时情形独立生成动作指令;随后玩家说出“跟着我”,这一指令触发二号体系启动。二号体系领会指令后,生成“跟随玩家”的行为指令,同时修改一号体系的运行逻辑。如此一来,一号体系依旧保持高速运算,而AI的行为玩法则从“自主寻觅”切换为“跟随玩家”。此时出现敌人并给AI队友开火,一号体系会立刻做出反应,检测到枪声后发起反击。这样,AI队友既能遵循语音指令,又能保持敏捷的实战反应。
安全交互
下壹个需要攻克的难题是交互的安全性和趣味性平衡。大家希望AI队友能带来有趣的尝试,像真正好友一样和玩家天然探讨、开玩笑,但同时必须杜绝不良、不安全的对话内容。这里有壹个特别独特的难题:语境的影响至关重要。由于AI队友存在于游戏这个特定场景中,同壹个词在游戏里和现实中也许含义完全不同。
比如玩家在游戏中说“我把那只狗化解了”,在现实中这句话带有暴力色彩。普通的风控模型也许会做出回绝的答复,但在游戏语境中,这句话需要结合游戏场景解读。正因如此,大家需要一套能领会游戏语境的安全风控机制,既不会误判游戏内的正常表述,又能精准拦截现实中的不良用语。
接下来讲讲大家怎样设计这套兼顾安全和趣味的交互逻辑。核心思路就是持续测试、发现难题、迭代优化。大家通过内部测试主动发现难题,找出高风险话题或低互动性的对话样本,随后解析难题、优化模型,让AI的回复既安全又有趣。很多设计师参和到实际尝试中,针对AI的回复给出修改意见,这些优化后的回复会成为AI的标准应答库。接下来大家会进行提示词优化,更新模型的指令逻辑,让艾尔琳严格遵循标准应答库的内容回复。
由于安全性至关重要,最后一道关卡就是不良用语检测。这个检测会在两个环节生效,覆盖艾尔琳的听和说。首先在语音输入环节,玩家的语音被转文字后,大家会对转换后的文本进行不良用语检测,若发现违规内容,会直接屏蔽或替换,避免艾尔琳做出不当答复;其次在AI生成回复环节,在将文本转换为语音前,会再次进行检测,若回复中包含不良用语,会立刻修正。这是大家的最后一道风控防线,对输入和输出实现双重检测。
交互的主动性
主动性这点特别重要。在游戏中,真正的队友会根据战场形势主动沟通,比如“发现敌人”“物资不多了”“大家该转移了”。为此大家思索了很久:该怎样通过事件触发,让艾尔琳拥有主动交互的能力?
大家的行为有两点:第一,基于游戏内的事件触发,比如发现敌人、开火、毒圈收缩等场景;第二,结合游戏实际情况判断是否需要主动发言,由于过多的语音会分散玩家的注意力。大家的目标很简单:在合适的时机,给出有帮助的语音提示。
具体职业原理是,首先游戏内触发特定事件,艾尔琳发现玩家需要或关注的物资,接着体系判断该情况具备主动发言的价格,随后艾尔琳就会主动提醒,比如“嘿,这边有倍镜”。还有壹个重要的点,玩家可以自定义触发条件,比如配置“找到医疗物资时提醒我”。
记忆能力
最后壹个挑战是记忆能力。核心目标是提取决定因素信息、保存并在后续场景中复用。如果没有记忆,AI队友每次对局都会像陌生人一样,记不住你的名字、记不住你的打法,尝试会变得特别糟糕。
接下来看看具体的实现方法。对局经过中,玩家也许会说“我喜爱刚枪,咱们打得激进点”,同时游戏中还有大量诸如操作流程、对局结局的信息,这些都是记忆的输入源。艾尔琳会持续捕捉对话内容和对局信息,筛选出其中的决定因素部分,比如玩家的偏好、互动中的反馈,并将其提炼为简短的简介存入记忆模块。
大家配置了持久化的记忆存储区,会将有用的信息长期保存,而且这份记忆会跨对局生效,即便多局之后也不会丢失。同时还有记忆注入机制,会将存储的记忆信息实时注入AI的决策模型,让艾尔琳能结合记忆做出答复,比如会说“记得你喜爱刚枪,咱们冲过去”。
关于模型训练和评估
以上讲到的实时决策、安全交互、记忆能力,都基于小语言模型实现。这意味着大家需要持续训练和优化这个模型。大家的全流程训练体系是这样的:首先从实际对局中收集数据,玩家和艾尔琳的真正对局经过中,大家会采集玩家的真正指令,将这些数据加入数据集,随后基于新数据集对小语言模型进行微调训练。
训练完成后得到新版本模型,大家会从交互质量、安全合规、游戏内行为表现三个维度进行验证,验证通过后就会进行版本迭代,让模型的表现持续优化。同时大家会针对薄弱环节补充更多数据,让模型的能力更综合。
今天我重点讲其中壹个核心环节:边缘案例挖掘。目标是找出数据集中未覆盖、但实际对局中也许出现的场景。大家的训练数据集包含了大量预设场景,比如“前往标记点”,但无法覆盖玩家在真正对局中全部也许的表述。
实际游戏中,玩家的指令会特别口语化、多样化,在不同场景下会用不同的说法表达同一需求,比如“往这个路线走”,这就是数据集未覆盖的边缘案例。大语言模型凭借通用领会能力,能很好地处理这类边缘案例,但小语言模型的泛化能力有限,需要重点挖掘模型处理失败的边缘案例并针对性优化。
具体的挖掘方式是:首先从真正对局中收集大量玩家指令,随后进行分类标注,尝试将每个指令归到大家预设的类别中。其中一些边缘案例无法归到现有的预设类别,这说明大家的类别覆盖存在空白,真正玩家的部分指令是大家此前未思考到的。
随后大家会基于这些边缘案例更新分类体系,比如新增“信息共享”这一类别,涵盖“有人在这个点位落地”这类指令。之后针对新增类别补充数据、优化模型,这些原本的边缘案例就不再是模型的短板了。反复这个经过,分类体系会不断完善,模型的失误率会持续下降,表现也会越来越好。
大家会将这些挖掘出的指令意图用于下一次的数据生成。基于这些指令意图,大家主要挖掘两类空白:第一类是低覆盖度意图,即数据集中该类意图的样本量不足,大家会针对性生成更多样本;第二类是低质量意图,即数据集中已有相关样本,但模型的处理效果仍不佳,这种情况大家会核查数据质量,或补充更多优质示例。核心思路很简单:找到薄弱的指令意图、补充数据、优化模型。
大家怎样评估模型的优化效果?
主要关注两个指标。第壹个是动作决策准确率,即模型能不能生成正确的行为指令,大家会将模型输出和大推理模型给出的参考答案对比,以此验证准确率。第二个指标是交互沟通质量,即对话的流畅度和领会度,模型能不能准确领会玩家的意图。这个指标大家会通过大推理模型进行自动评估。这两个指标的验证,大家均采用真正玩家的预留测试集进行评估。
从测试结局来看,随着训练的推进,模型的各项指标持续提高,大家的小语言模型表现一步步变好。虽然大语言模型的指标仍高于小语言模型,但二者的差距在不断缩小。
关于本地运行和上线规划
我想强调的最重要的一点是:全部功能都能在玩家的个人PC上本地运行。玩家的游戏客户端、语音转文字、小语言模型、文字转语音,全部模块都在同一台设备上协同运行。大家的最低配置标准为3060显卡,能在该配置下实现60帧的流畅尝试,同时保证80%以上的交互响应率。这一实现难度极大,由于游戏本身已经占用了大量的显卡和处理器资源,而大家能做到这一点,离不开和英伟达的深度合作。
从延迟测试结局来看,大家对比了小语言模型在本地显卡、云端服务器的延迟,以及大语言模型在云端的延迟。在4090型号显卡的高级PC上,小语言模型的延迟极低,几乎比云端大语言模型快一倍,响应时刻差点1秒;即便是在3060的最低配置PC上,延迟也能控制在2.5秒以内。而云端大语言模型不仅延迟远高于本地小语言模型,表现也不够稳定。由此可见,本地显卡运行模型有两大核心优势:速度快、表现稳。
最后要告知大家的是,艾尔琳这款AI队友不再只是研发示范版本,大家马上把它正式带给玩家,作为游戏内的可选功能上线。这意味着玩家能在真正的游戏尝试中和艾尔琳并肩作战,目前该功能已在独立测试环境中运行,正式上线时刻预计在2026年的某个时刻点。
我的同享就到这里,谢谢大家!最后再聊聊相关的落地思路,包括实际应用效果、也许遇到的难题,还有更多惊喜等着大家。
下面内容为演讲结束后问答环节实录(为保证阅读尝试,内容有所调整):
Q: 你们说明的这套双体系架构(一号体系基于决策树驱动动作,二号体系基于大语言模型负责解析和对一号体系的修改),让我联想到心理学里关于人类决策思考的双体系学说。想请问你们的研发是否从这个学说中获取了灵感?
A: 没错,大家确实参考了这一领域的相关学说。其实一号、二号体系的这种架构玩法在认知科学领域是等于常见的,我也为此研读了相关的文献资料。
Q: 对于AI体系,玩家的实际尝试是最重要的。我想了解贵企业是否已经针对这套体系开展了早期的玩家测试,哪怕只是内部的可用性测试?有没有收集过玩家和AI(艾尔琳)互动时的真正感受和反馈?
A: 这是个特别好的难题。我之前在演讲中主要展示了模型的决策准确率、交互质量这类量化指标,但这些和玩家的真正尝试之间确实还存在一些差异。因此大家已经在企业内部组织了大量的员工进行试玩,让大家尝试AI队友艾尔琳,并收集了很多反馈意见。基于这些反馈,大家对体系做了不少优化改进,企业里有很多人都参和了多轮的试玩测试。
Q: 你们的游戏应该会面给不同语言的市场,目前主要适配了哪些语言?相关的模型是自研的还是有合作?由于做多语言适配需要投入不少研发资源。
A:目前大家主要适配了三种语言:英语、韩语和中文。
针对不同语言,大家做了独立的模型处理,全部的小语言模型都是单独训练、独立部署的。顺带一提,大家还对模型做了量化处理。由于大家标准游戏的最低运行配置是8G显存,因此模型采用的是4比特量化计算的方法。
Q: 我想问壹个偏运营层面的难题:你们是怎样调节AI队友的游戏战力的?在很多游戏中,如果AI太强会降低可玩性。你们是怎样避免这个难题的?
A: 关于这点大家完全可以放心,在当前的先行尝试版本中,艾尔琳的战斗能力其实并不算强。想让AI在这款游戏中表现出色其实难度极高,由于这款游戏的竞技性本身就很强,而且很多玩家的游戏水平已经特别高了。当然,大家也在持续开展相关研究,寻觅怎样让艾尔琳的游戏战力变得更强。
Q: 我想了解一下,在运行AI队友的同时,游戏还要进行图形渲染,你们是怎样兼顾这两者的?是同时运行还是优先保障一方?另外,是否会根据游戏运行情况动态调整模型策略,甚至跳过部分计算来管理资源?
A:我明白你的难题。简单来说,如果玩家的设备显存有限,想要流畅运行AI队友,就需要适当降低游戏的画面画质;如果玩家显存足够大,那么即使开始高画质,也能正常运行AI队友。
Q: 这么说你们是让AI模型和图形渲染共用同一块显卡的显存?
A: 是的,至少模型的运行是基于同一块显卡的。从实际尝试数据来看,AI的响应延迟控制在2秒以内,玩家的尝试就已经相对良好;如果能降到1秒以内,尝试会更出色。这是保证尝试的决定因素。
Q: 你们选择运用小语言模型而非大语言模型,主要是为了适配不同配置的玩家设备,还是更多出于成本控制?如果投入足够资金,学说上也可以用大语言模型来做吧?
A:核心缘故其实是尝试层面的延迟难题。 如果AI的反馈延迟达到5秒,玩家的尝试会特别糟糕。当然,成本和硬件适配的影响也有思考。目前行业内语音交互技术的进步也印证了,小语言模型是相对合适的选择。
Q: 那如果未来出现性能表现优异的端到端语音模型,能进一步降低延迟,你们会思考采用吗?
A: 没错,如果采用端到端的语音模型,确实能有效降低交互延迟。因此大家也在持续测试和评估,寻觅哪种类型的端到端语音模型最适配大家的游戏场景。目前还在研究阶段。有时候想到未来的技术进步,还挺让人期待的。后续大家也会继续推进相关的技术研发和测试。
