增量测试与 Holdout 思维:别把平台回传全当新增收入
平台归因会告诉你广告“拿到了多少 credit”,但不会主动告诉你:如果不投,这些订单还会不会发生。真正成熟的预算判断,不是把平台 ROAS 直接当成真实增长,而是把承接型收入、品牌需求、再营销信用和真正新增分开看。
这一课解决什么问题
核心结论
增量测试不是为了否定平台报表,而是为了回答另一个更难的问题:如果暂停某一层广告,业务会少掉多少真实结果。平台报表负责看“谁被记到了”,增量测试负责看“是否真的新增了”。
为什么平台回传经常会高估广告价值
品牌词、直接访问、老客复购、邮件触达、促销季自然需求、内容种草后的延迟转化,都会让平台更容易捡到原本就会发生的订单。于是账户看起来很赚钱,但预算越往这些承接层集中,真实新增可能反而越来越弱。
最容易被高估的流量层
- 品牌搜索:本来就会找你的人,最容易被广告“重新记账”。
- 再营销:广告是在承接高意图用户,还是在制造新增,差别很大。
- PMax 混合流量:品牌、再营销、购物和新流量混在一起时,最容易看起来很强。
- 活动期流量:促销、新品、站外声量本身就会抬升需求。
Holdout 不是一种实验,而是一种预算思维
很多团队把 holdout 理解成“停投一次看看”。更准确的理解是:你主动保留一个未触达对照组,用来估计广告真正带来的 lift。这个对照组可以是地区、人群、时间段,也可以是某个需求层。
| 方式 | 适合什么场景 | 优点 | 最常见风险 |
|---|---|---|---|
| 地理 holdout | 区域分布较均匀、预算中等以上 | 较接近真实业务结果 | 地区差异、物流时效、线下活动污染 |
| 受众 holdout | CRM 分层清楚、再营销或老客层明显 | 更容易测承接层增量 | 跨设备、名单不干净、触达泄漏 |
| 时间 holdout | 预算有限、只能做最小测试 | 执行简单 | 季节性、促销、周内波动很容易误导 |
| 品牌词/品牌流量 holdout | 品牌搜索或品牌再营销占比高 | 最快识别“捡单层” | 自然品牌需求波动、其他渠道补位 |
预算大小不同,增量测试的做法也不同
不是每个品牌都能做完美的全国 geo holdout。更稳的做法是按预算层级选实验方法,而不是因为做不了最理想实验就完全放弃增量思维。
更现实的测试梯子
先写一张 test brief,再去暂停预算
很多 holdout 测试一开始就脏,不是因为实验不会做,而是因为团队根本没有先把测试说明写清楚。一张很短的 brief,就能大幅提升判断质量。
| Brief 字段 | 要先定义什么 | 为什么重要 |
|---|---|---|
| 风险层 | 品牌词、再营销、PMax,还是老客承接层 | 保证测试先打在最可疑的 credit-capture 层 |
| 对照设计 | 地区、受众、时间,还是品牌需求 holdout | 避免“停一停看看”被误当成实验 |
| 读数口径 | 订单、新客、收入、毛利代理、退款风险 | 避免最后只拿 ROAS 解读结果 |
| 污染日志 | 价格、促销、库存、邮件、PR、页面改动 | 决定这次结果到底能不能信 |
小预算更需要决策树,而不是羡慕“完美实验”
小预算团队最容易因为做不了正式 geo 实验,就干脆什么都不测。真正更稳的思路不是等预算变大,而是先判断哪一层最安全、最值得先隔离。
实用的小预算路径
什么时候最该优先做增量判断
这些情况先别只看平台 ROAS
- 品牌词和品牌再营销占比越来越高。
- PMax 表现看起来远好于其他 campaign,但你说不清它吃了什么流量。
- 老客比例高,自然复购和广告承接严重混在一起。
- 促销季、上新季或 PR/达人投放和广告同时发生。
- 多个渠道都在追同一批高意图用户,重复信用很重。
最常见的实验污染,不在报表里提醒你
增量测试最危险的地方,不是不会搭实验,而是看起来做了对照,实际上对照已经被污染。Geo test 会被地区差异污染,时间 holdout 会被促销污染,品牌词 test 会被 SEO、邮件和直接访问补位。
高频污染源
- 测试期间正好改了价格、优惠、库存、页面或物流承诺。
- 邮件、短信、达人内容或 PR 同时推高了自然需求。
- 地区之间基线差异过大,却直接横比结果。
- 测试时间太短,只看一两天波动就下结论。
品牌词、再营销和 PMax 最需要单独看
社区里最稳定的共识不是“平台全都不可信”,而是品牌词、再营销和混合自动化流量最容易被高估。更成熟的账户会先把这些层拆出来,再看冷流量到底有没有真实 lift。
| 流量层 | 表面上为什么很香 | 真实风险 | 更稳的判断动作 |
|---|---|---|---|
| 品牌词 Search | CTR 高、CVR 高、ROAS 漂亮 | 很多订单本来就会发生 | 先做品牌词 holdout 或缩量测试 |
| 再营销 | 转化很便宜,复购很好看 | 只是在承接已高意图流量 | 看新客占比和非广告订单变化 |
| PMax | 总量大、自动化强、看起来全面赢 | 把品牌、购物、再营销混在一起 | 结合品牌控制、Search/Shopping 基线和外部指标看 |
社区实战观察
实战里最常见的误区
- 很多团队嘴上知道平台会高估,但真正分预算时,依然默认“平台归因收入 = 真新增收入”。
- 也常见只做一次短停投,就对整个渠道得出非常确定的结论,却没有控制活动、库存、邮件和自然流量波动。
- 更成熟的操盘方式通常不是追求一次性绝对精确,而是先把“高增量层”和“承接层”分开,再决定预算态度。
更稳的执行顺序
测试结束后,用同一张结果模板读结论
复盘顺序必须固定,否则团队很容易挑一个最漂亮的数字来讲故事。更稳的做法,是每次都按同一个顺序读结果。
最小结果模板
- 这次隔离的是哪一层需求
- 测试期间出现了哪些污染源
- 订单、新客、收入和毛利代理指标分别怎么变化
- 这层预算应该保留、缩量,还是继续测试
排查动作
执行清单
进入下一课前确认
- 知道平台归因与真实增量回答的不是同一个问题
- 会按预算大小选择不同层级的 holdout 方式
- 能识别品牌词、再营销和 PMax 的过度归因风险
- 复盘增量时会主动检查实验污染,而不是只看单一 ROAS