经过 25 年的开发 Neutronium: Parallel Wars 和运行 12 多个记录的游戏测试会话,我可以告诉您游戏测试和专业游戏测试之间的区别。邀请朋友玩你的游戏并不是游戏测试。它正在与你在桌面上的游戏进行社交。专业游戏测试是系统性的平衡验证 - 定义的指标、单变量测试、结构化数据收集以及将每次会话视为实验而不是体验的规则。
本指南涵盖了实践中的情况:如何设置会话、测量什么、如何识别特定类别的平衡问题,以及(最重要的是)何时停止测试和发货。这些原则适用于任何复杂的游戏。这些示例来自 Neutronium: Parallel Wars 的 47 个机制和 13 个宇宙层,它们提供了足够的复杂性来对此处描述的每种方法进行压力测试。
为什么大多数游戏测试都会失败
游戏测试中最常见的错误:问“好玩吗?”在会议结束时。 “乐趣”太宽泛,无法付诸行动。乐趣无法告诉你是哪个机械师打破了平衡。 Fun 无法告诉您会话参与度在哪个点下降。乐趣是一个结论,而不是一个诊断。
相反,衡量具体指标:每个派系的胜率、首次冲突的轮次、游戏中期的收入差异、每个阶段的会话长度。这些数字告诉您去哪里寻找。 “有趣”告诉你的一切都是你已经怀疑过的。
Nuclear Port 雪球 — 第 7 宇宙
Neutronium: Parallel Wars 中的 Nuclear Port 产生指数级收入:1 个端口每轮产生 2 个 Nn,10 个端口每轮产生 220 个 Nn。在早期会议中,游戏测试人员将经济描述为“感觉不平衡”。没用。修复需要测量:第 6 宇宙末端的领先者和最后一名之间的实际 Nn 差异是多少?
MEQA 跟踪显示,第 7 局中,领先者与末位玩家的收入比为 14:1,领先者积累了 6 个端口,落后玩家有 0 个端口。这并不是“不平衡的感觉”。这是一个超出 5:1 质量控制阈值并触发强制性设计变更的定义数字。如果没有这种测量,修复结果只能是猜测。有了它,修复的目标是:使端口在战斗中可破坏。收入公式不变。问题解决了。
非结构化游戏测试的核心失败:没有定义的指标,你无法区分设计问题和玩家适应。经验丰富的玩家会适应破损的机制——他们围绕破损制定策略,停止抱怨它,并使其看起来像“游戏的玩法”。测量揭示了行为隐藏的内容。
MEQA 框架概述
对于 Neutronium: Parallel Wars,系统的游戏测试方法是 MEQA 框架 - 经过 25 年迭代开发的四支柱结构。每个支柱解决不同类别的测试需求:
可衡量性
每个会话都定义了在会话开始前跟踪的数字指标。收入比率、胜率、领土数量、每阶段的会话长度。如果您无法为其定义数字,则无法测试它。
参与度
按宇宙层跟踪节奏。每阶段时间揭示了玩家在赛后反馈之前脱离的位置。年轻玩家的注意力分散是可衡量的参与失败。
质量控制
为每个指标定义通过/失败阈值,在收集任何数据之前设置。跨越阈值会触发设计变更——消除“什么时候有问题需要修复?”的主观性。问题。
适应性
跟踪不同玩家群体的指标:年龄范围、经验水平、玩家数量。对于有经验的成年人来说,平衡的机制可能会在混合年龄组中发生灾难性的失败。
完整的 MEQA 框架方法(包括用于 Neutronium: Parallel Wars 的具体指标和 QC 阈值系统)详细记录在MEQA 框架:用于测试棋盘游戏平衡的经过验证的方法。本指南重点关注实际的会话级应用。
设置游戏测试会话
专业游戏测试会议分为三个阶段:会前设置、会中观察和会后结构化汇报。每个阶段都有特定的要求,大多数非正式的游戏测试都会完全跳过这些要求。
会前:准确定义您正在测试的一项机制更改。在玩家到达之前将其写下来。如果您不能声明“今天我们正在测试使 Nuclear Port 变得可破坏是否会将领导者与最后一个人的收入比率降低到 5:1 以下”——您还没有准备好运行会话。假设必须是具体的且可证伪的。记录上一次会话的基线指标以进行直接比较。
比赛期间:指定一名不参加比赛的观察员。观察者的工作是记录:每个阶段的会话长度、每个回合的决策时间(平均)、任何混乱或脱离的时刻、每个宇宙每个派系的获胜/失败状态。观察者不参与比赛,不解释规则,也不回答问题——如果玩家有问题,那就是数据。记录他们困惑的事情以及原因。
会后汇报:最多 15 分钟。仅结构化问题 - 具体的行为查询,而不是“你喜欢它吗?”请参阅常见问题解答部分,了解要使用的确切问题。尽可能收集书面答案 - 口头答案会丢失细节并引入社会偏见(玩家不愿意直接向设计师说负面的话)。
无一例外地收集每个会话的数据:
- 每个 Universe 层的会话长度
- 每个派系的胜负
- 将计数转至第一次战斗
- 游戏中期领先者和落后玩家之间的收入差异
- 玩家困惑事件的数量(定义为:玩家提出规则问题或采取非法行为)
识别平衡问题
平衡问题分为五类,每一类在数据中都有不同的信号:
失控的领导者:信号 - 在第 5 宇宙之后,领导者在 4 场比赛中的 3 场中从未输过。阈值:如果领导者在超过 70% 的回合中从他们在宇宙 4 中占据的位置获胜,则游戏实际上在宇宙 4 结束。调查宇宙 1-4 中的收入和领土机制。
分析瘫痪:信号——随着宇宙的进展速度超过决策复杂性所保证的速度,每回合的平均决策时间会增加。第 3 宇宙中 5 分钟的平均转弯变成第 6 宇宙中 20 分钟的平均转弯,仅添加了 2 个新机制,这表明存在机械相互作用问题,而不是复杂性问题。调查哪些具体决策花费的时间最多。
派系主导地位:信号 - 单个派系在 5 次或更多测试中赢得 60% 或更多的会话。平衡的 4 派系游戏中的预期胜率约为 25%。达到 60% 后,该派系不仅表现更好,而且还具有其他派系无法通过更好的玩法来克服的结构性优势。调查主导派系的独特机制,以产生不可预见的互动效应。
参与度下降:信号 - 玩家在特定宇宙中变得被动或明显脱离。可观察到的行为:玩家查看手机,将目光从棋盘上移开,问“什么时候轮到我?”这些都是可衡量的事件。记录它们发生的时间以及正在进行的宇宙。
Iit 宇宙 6+ 的经济失衡
Iit,经济派,由于Nuclear Port收入积累,在宇宙6及以上的10场比赛中赢得了7场。数据很明确:胜率 70%,比预期 25% 基线高出 4 倍。遵循单变量规则,测试了三个修复,每个会话一个。
测试 1:降低 Nuclear Port 收入值。结果 — Iit 胜率下降至 28%,在可接受的范围内。问题:Iit 玩家报告该派系因端口价值降低而感到“空虚”。经济身份被摧毁。回滚。
测试 2:限制每个玩家的 Nuclear Port 数量。结果——Iit胜率35%,接近平衡。问题:游戏后期失去了经济升级动力。当 Iit 无法扩展时,其他派别报告了不太有趣的决定。回滚。
测试3:使Nuclear Port在战斗中可被摧毁。结果 — Iit 胜率 31%,在可接受的范围内。对其他派别没有负面影响。港口收入公式不变——经济身份得以保留。修复已确认。
单变量规则
单变量规则是平衡测试中最重要的原则,也是最常被违反的原则。规则:在会话之间只更改一件事。
原因是诊断的清晰度。如果你改变了三个机制并且游戏得到了改善,你不知道是哪一个改变造成的。您可能已经解决了一个问题并创建了另外两个尚未显现的问题。您可能已经解决了症状并保留了根本原因。你无法知道——因为你同时改变了三件事。
适用于 Neutronium: Parallel Wars:当第 7 宇宙感觉“太快”时(游戏时间比预期短,玩家感觉很匆忙),在单独的游戏中调查了三个可能的原因:
- 会话 A:延长节奏 - 向第 7 宇宙添加了一个额外的强化周期。结果:会话长度增加了 8 分钟。参与度分数不变。不是根本原因。
- 会话 B:第 7 宇宙中添加了其他机制。结果:会话长度增加了 5 分钟。参与度得分增加。已确定部分原因。
- 会议 C:重新排序现有机制,以更均匀地分配决策密度。结果:会话长度增加了 6 分钟,并且参与度分数显着提高。根本原因已确定——宇宙尽头的机械集群造成了仓促的结局。
如果不单独测试每个更改,会话 C 的见解(机械集群问题)将是看不见的。 B+C 的组合更改可能看起来像是“添加机制有所帮助”,而实际的修复是对已有内容进行重新排序。
与混合经验组进行测试
棋盘游戏设计中最困难的平衡挑战不是派系平衡或收入扩展 - 它是确保经验丰富的玩家不会在同一会话中轻易地主导新玩家。大多数游戏设计师完全忽视了这一点,并失去了他们的家人和休闲观众。
对于 Neutronium: Parallel Wars,MEQA 适应性支柱明确跟踪混合体验会话中的胜率。在解决这个问题之前,有经验的玩家赢得了 78% 的混合组比赛——这种严重的不平衡将阻止新玩家返回参加第二场比赛。
解决方案是进度日志让分系统:以前赢得过宇宙的经验丰富的玩家一开始的负Nn余额与他们的经验优势成正比。校准来自 MEQA 会话数据:
<表class="data-table"> <标题>经验丰富的人与新人的胜率目标是 55-65%。低于 55% 意味着没有有意义的技能表达——经验丰富的玩家无法从他们的知识中获得优势。超过 65% 意味着新玩家的体验实际上被破坏了——无论做出什么决定,他们都无法竞争。
识别数据中的经验差距:跟踪每个玩家的会话数以及获胜/失败数据。如果进行 10 场比赛的玩家在对阵进行 2 场比赛的玩家时赢得了 75% 的比赛,则让分校准需要调整 - 或者机制本身正在创造不可逆转的优势,而且复合速度太快。
Neutronium中的“12局悬崖”:主机玩家累积超过12局后,首次加入的新玩家将无法进入游戏。机械知识差距太大,无法通过正常游戏来弥补。修复:进度日志系统,使经验差异可见并应用比例修正。如果没有具体显示 12 场悬崖的数据,这个问题可能会表现为“新玩家不会回来”,而不是“新玩家在 12 场主机的第 1 场比赛中有 23% 的胜率”。
何时停止游戏测试
棋盘游戏开发中最常见的错误之一是无限期地进行游戏测试 - 使用“我们仍在进行游戏测试”作为避免发货的理由。这是一种伪装成严厉的恐惧反应。在某些时候,数据会告诉您您已经完成了。
收益递减测试:如果连续三个游戏测试会话没有产生可操作的数据点 - 没有指标超过 QC 阈值,没有记录新的混淆事件,没有发现参与度下降 - 您已达到游戏当前状态的游戏测试饱和度。额外的会议产生的是确认,而不是发现。
Neutronium: Parallel Wars的船舶就绪标准是:
- 所有 4 个派系的胜率均在 10% 以内(目标:每个派系 25%,可接受范围:每个派系 22-28%)
- 在第 1 至 6 个宇宙的所有会话中,参与度得分均保持在 4 分(满分 5 分)以上
- 在宇宙 1-3(核心游戏)的连续 3 个会话中没有记录混乱事件
- 连续 3 个会话中,混合经验的胜率(经验丰富的与新的)在 55-65% 的范围内
当连续三个会话满足所有四个标准时,游戏就处于发货状态。不完美——“完美”对于游戏来说并不是一个有意义的状态。船舶状况意味着数据不再识别会以可衡量的方式改变玩家体验的改进。