AI赋能游戏：问答设备人的设计与实现

l14107cb · 发表于 2024-9-28 22:08:54

AI发展快速，最适合的应用场景，应该是游戏了。光是NPC的问答、选项，就有非常多能够操作的空间。本文从游戏行业出发，分析了问答设备人的实现原理和语料的经验，供大众参考。

随着AI这两年的快速发展，游戏厂商跃跃欲试怎样让AI融入游戏。

半年前，咱们亦在游戏内嵌社区中，上线了一款以大语言模型为核心打造的问答机器人，旨在满足玩家快速获取攻略的需要。

这篇文案，将以游戏行业制品经理的方向，分享这款问答设备人的实现原理，及其语料的制作经验。

1、为何需要问答设备人

问答设备人所落地的游戏，是一款三国策略类游戏。游戏中玩家被随机分到魏蜀吴中的一个国家，并经过一系列玩法攻城略地，扩展疆土。玩家能够招募各色三国英雄，并给英雄搭配区别装备、学习区别技能以提高战力，并能够组建区别的英雄阵容去挑战别的玩家以及掠夺别国的城池。因此呢，游戏玩法的自由度给予了玩家非常多策略探索的可能。

起初，咱们只是搭建了一个问答社区，供用户发布问题与分享攻略心得。随着玩家人数增多及赛季的深入，玩家对攻略的需要日益显著。官方发布的攻略，不必定能满足玩家快速获取攻略的需要。有时候玩家只想找一个答案，却要看完一整篇攻略。因此呢，咱们想经过智能问答设备人的形式，满足玩家快问快答的痛点，以提高玩家的游戏体验。

咱们的智能设备人名为“诸葛先生”，以H5的形式开展对话。对用户来讲无繁杂的功能，只要提问，设备人就会回答。

（页面样式这儿用原型图代替了哈）

2、设备人技术原理：大语言模型RAG的应用

在介绍问答设备人的原理前，先说一个前提，便是咱们的大语言模型的语料库中，有一种语料是QA形式的，即一问（question）一答（answer），与通常的段落形文案有所区别。关于语料库的介绍，下边章节会继续细说。这儿将继续讲设备人的运行原理。

如下图，在用户提出问题后，咱们的设备人分有两个答案输出规律。首要，用户提问的问题都会先进行内容检索，经过检索模型检索出与用户提问关联的内容。当检索到用户提问有匹配的QA时（即玩家提问匹配到语料库中预设的Question），则程序会直接输出Answer；另一种规律是，当检索模型无检索到匹配的QA，那程序就会继续检索其他内容（如文案段落），并产出一条带内容的提示词（prompt）输入到大语言模型中，由大语言模型生成答案。

举个例子，假设用户提问了“赵云怎么培养”，则程序会经过检索模型，先检索是不是存在与“赵云怎么培养”接近的question，存在则输出对应answer，否则找出“赵云培养”关联的内容。咱们比拟程序找到的相关内容为AABB，此时给到大语言模型的提示词（prompt）便是：“AABB，请按照以上内容回答：赵云怎么培养。”大语言模型则按照以上提示词生成答案。

为何咱们不直接运用大语言模型，而是前置一步加入检索模型呢？

咱们晓得，大语言模型基于神经网络模型，运用海量的语料库进行训练，例如互联网上的海量文本数据。因此呢，大语言模型能有效准确地回答通用知识类的问题。而游戏属于专有行业，怎样让大语言模型直接回答专有行业知识，则它给出的答案必定会差强人意（答非所问或是回答不出）。因此呢咱们会先前置一步进行内容搜索，经过内容来约束大语言模型的生成。这般的技术规律亦叫作为RAG（Retrieval-Augmented Generation，检索加强生成）。

RAG其实便是对大语言模型的检索能力及联想能力的外扩，让大语言模型在可控范围内生成更准确高精的回答，尤其适用于专有行业的问答工具。RAG的原理如下图：

照片源自《Chatbot从0到1》（第2版），作者李佳芮、李卓桓

RAG 系统的起点通常是一个文本文档的语料库，简单看起来是这般的：把文本分割成块，而后把这些分块嵌入到向量与transformer编码器模型，把所有这些向量创立索引，从而查找出与用户提问关联的上下文，最后创建一个带上下文的大语言模型提示语，让模型回答用户的查找。

咱们能够对比有没有检索模型对回答的差别：

大语言模型一样是ChatGPT3.5，提问“赵云要怎么培养”，单纯运用大语言模型，而无检索模型的约束时，回答的内容就和游戏不沾边（左图）。而运用了检索模型，让大语言模型的回答就完全贴合游戏了（右图）。

3、问答质量的打磨调优

为了提高设备人的回答准确率。咱们的调优有几个方面：

加强对用户提问的理解

针对用户的提问，除了分词切割，咱们还有错字甄别、同义词判定等规律，期盼程序能尽可能清晰理解用户的意向。

加强检索模型的召回质量

在众多语料中怎样找到最匹配玩家的内容呢？咱们的检索算法，会在对用户提问进行分词后，会先用BM25算法按照关键词对文档进行第1次评分，而后按照评分阈值提取top-k文档进行第二次评分，还有问题和文档稠密向量的关联性评分等。每一步都可能影响检索的内容及LLM的回答结果。

选取更智能的语言模型

设备人上线初期，运用的模型是国内的ChatGLM2.0。但经过拉取用户的实质问答数据，咱们发掘答案质量并不睬想，答案中存在较多答非所问、胡编乱造的问题。并且在多次调优检索模型后（加强召回文档的关联性），答案质量仍然不良。

于是咱们思虑更换大语言模型。咱们找来了两款智能体做对比，分别是ChatGPT3.5及Google旗下的Gemma。三者对比后咱们发掘，ChatGLM2.0的幻觉问题较其他两个模型会更为显著。意思便是，倘若检索模型召回的文档中不存在用户提问的关联内容（关联性低），则ChatGLM2.0会一本正经胡说八道。即便是检索模型召回的文档中有用户所需的内容（关联性高），ChatGLM2.0亦可能会回答失准。

最后咱们选取了ChatGPT3.5。对比下来，ChatGPT3.5在对话生成的流畅度、连贯性以及上下文理解方面的表现都更出色，能够生成更加精细和自然的回答，针对没法回答的问题，亦会更直接地通知用户它不清楚。

4、语料的形成

倘若说模型是问答设备人的肉躯，那语料便是血液。语料足够多，覆盖面足够广，问答设备人才会更具活力。

咱们的语料有几个部分形成：

游戏内所有呈现给玩家的文案，包含道具名叫作、说明及玩法简介。这类内容属于短内容，仅有单个句子或单一段落。发布于官网、论坛的游戏攻略。这类内容属于长内容，由多个段落形成。 QA问答对。一问一答的固定内容。

如前所述，咱们设备人分了两个答案输出规律，倘若检索模型命中QA，则会更快给玩家产出答案。基于此，咱们加大了QA问答对的产量，以提高问答效率。QA源自于玩家的真实提问，咱们提取了高频问题，以及部分刁钻的提问，做成为了问答对。

制作问答对比较费人工，由于answer都是人工写的，有时候还要玩一下游戏验证写的answer是不是正确。为了节约工时，咱们又借用了AI工具帮助咱们生产问答对。这儿AI工具的功效不是帮咱们快速生成答案，而是提前生成玩家可能问到的问题并产出答案。咱们给AI喂入以上语料中的2-攻略长内容，并让AI按照文案内容中生成QA。不外，虽然生产速度加强了，但内容的实用性却并不高。AI生成的问题并不像玩家的提问，更像是老师出的考题，需要再二次修改问答对的内容。因此呢，日前的问答对守护还是集中在人工生产。

5、问答设备人的将来创想

咱们的问答设备人还有非常多优化空间。日前，虽然它在提高玩家体验方面已然取得必定成效，但仍存在有些需要改进的地区。例如尚未研发连续对话，玩家无法追问，导致对话交互不足自然流畅。另外，随着游戏内容的持续更新，咱们的语料库亦需要连续地守护和扩充，这亦是需要持续消耗人力的工作。

不外我相信，问答设备人将在将来的游戏世界中装扮更加重要的角色，为玩家带来更加精彩和方便的游戏体验。

欢迎在评论区一块探讨问答设备人的更加多可能~

作者：杨桃，游戏行业B端制品经理，爱用文字记录观察及想法。

本文由 @杨桃原创发布于人人都是制品经理，未经许可，禁止转载。

题图来自 Unsplash，基于CC0协议。返回外链论坛： http://www.fok120.com，查看更加多

责任编辑：网友投稿

m5k1umn · 发表于 2024-10-18 06:39:52

你的留言真是温暖如春，让我感受到了无尽的支持与鼓励。

		自动登录	找回密码
密码			立即注册