财新传媒
《比较》 > 前沿 > 正文

经济学家应该了解的机器学习方法

来源于 《比较》 2022年第2期 出版日期 2022年04月01日
文|苏珊·阿西 吉多·因本斯

7.实验设计、强化学习与多臂老虎机方法

  机器学习方法在近期对实验设计(experimental design)做出了很大贡献,特别是在线上实验中,多臂老虎机方法(multi-armed bandits)变得更为流行。汤普逊抽样(Thompson sampling,Thompson,1933;Scott,2010)与置信上界(upper confidence bounds,UCBs,Lai and Robbins,1985)可被视为简单的强化学习(reinforcement learning)案例(Sutton and Barto,1998),在这类案例中,通过把更多单元分派给相应的干预组对成功的分派决策给予奖励。

  7.1 A/B测试与多臂老虎机

  传统上,大量实验的开展是把预定数量的单元分派到每个干预组中,通常情况下只包含2个干预组。在结果被测算出来后,会利用干预组的平均结果差异来估计平均干预效应。但这可能是非常缺乏效率的实验方式,如果我们把单元分派到我们已知有较大把握会弱于其他组的干预组,就会造成浪费。现代的在线实验方法则强调:要在探索新的干预方案与利用目前评估属于高质量的干预方案之间保持平衡。设想我们主要关心在现有干预集合中找到好的干预方案,而非评估整个干预方案集合的期望结果。此外再假设,我们在分派完成后能很快测算出干预结果,而且单元以顺序方式进入干预方案的分派。那么在观测到一半单元的结果后,我们可能会对哪些干预方案是最优候选方案形成基本印象。此时,如果把更多单元依旧分派给缺乏竞争力的干预方案,对探索和利用的目的而言都不会是最优选择,因为这样做不能帮助我们在候选的最优干预方案中进行识别,并让实验单元接受质量较差的干预方案。

  多臂老虎机方法试图改进这种静态设计(Thompson,1933;Scott,2010)。在极端情况下,每个单元的分派取决于此时学习到的全部信息。给定这些信息,并给定每种干预方案的结果的参数模型以及这些模型的先验参数设定,我们就能估计出每种干预方案成为最优选择的概率。汤普森抽样认为,把下个单元分派到各种干预方案的概率应该等于该干预方案为最优选择的概率。这说明,对于我们确信不如其他干预方案的干预方案来说,给它分派干预组的概率会较低,而且最终会使所有的新单元都被分派到成功概率接近1的最优干预组中。

  为便于直觉上的理解,设想有K种干预方案的情形,结果为二元形式,因此模型是一个二项式分布,各个干预组获得成功的概率为pk,k= 1,…,K。如果这些概率的先验分布是相同的,则干预组k的成功概率的事后分布为参数Mk+ 1和Nk-Mk + 1的贝塔值(此时在Nk次尝试中取得Mk次的成功)。由于贝塔分布很容易用模拟来近似,则干预组k是最优选择的概率(有最高的成功概率)应该为:pr(pk=maxKm=1ppm)。

  我们可以简化计算,在看到几个新观测值之后,对分派概率做出更新。也就是说在一个批次的新观测值(都基于相同的分派概率)进入之后,再重新估算分派概率。从这个角度看,我们可以把标准的A/B实验理解为全部观测值组成一个数据批次的实验。由此便容易理解,至少在某些时候,更新分派概率、避免向表现较弱的干预组输送新的实验单元,会是一个更好的策略。

  另一种途径是采用置信上界方法(Lai and Robbins,1985)。此时我们针对每个干预组的总体平均结果μk构建一个100(1-p)%的置信区间,然后对每个干预组收集置信区间的上界,把下一个单元分派到有最高置信上界值的干预组。随着我们得到的数据越来越多,1减去置信区间水平p的值将逐渐趋向于0。在利用置信上界方法时,如果我们希望在若干批次单元进入之后才更新分派概率,则需要更加小心。如果两个干预组有非常相似的置信上界,把大量单元分派到置信上界略高的干预组或许并不合适。若采用汤普森抽样法,此时会给两个干预组分派数量相近的单元。更一般地说,相比置信上界方法下的决定性分派,汤普森抽样下的随机分派在理论上具有随机推断能力的优势(Athey and Imbens,2017a)。

  7.2背景老虎机方法

  多臂老虎机方法的最重要拓展是针对如下情形,我们观测到的单元特征能被用于分派机制。如果干预效应是异质性的,且该异质性与单元观测到的特征有关,则根据这些特征把单元分派到不同干预组可能带来巨大好处(详细讨论可参阅Dimakopoulou et al.,2018)。

  把协变量纳入考虑的一个简单办法是,为每个干预组的期望结果构建一个参数模型(奖励函数),利用当前数据做估计并由此推断:根据新单元的特征,特定干预组对新单元是最优选择的概率。从理论上讲,这是把单元的特征纳入考虑的一种直接方式,但有一些缺陷。主要的一个缺陷是,此类方法本身可能高度依赖模型的正确设定。有可能出现如下情形,某个干预组的数据带有单元特征的某种分布,却被用来预测特征非常不同的单元的结果(参见Bastani and Bayati,2015)。由此造成的风险是,如果用该算法估计从特征到结果的简单线性映射模型,则对于干预组从未观测到的某个特征空间区域,算法依然会认为干预组的结果有很大确定性。这可能导致算法一直不在该区域对实验组开展实验,导致它始终不能纠正错误,即使在大样本中也无法学习到最优策略。

  因此,我们在构建联系特征与结果的灵活模型时应非常慎重。另有研究强调了利用随机森林方法避免对函数形式做假设的好处(Dimakopoulou et al.,2017)。

  除上述议题外,背景老虎机方法(Contextual Bandits)中还涉及几个新的发现。由于分派规则作为特征的函数会随着更多单元的到来而变化,并通常会把更多单元分派到该规则在过去表现良好的协变量空间区域中的干预组,因此我们需要特别小心地消除奖励函数估计中的偏差。虽然有规范的随机化方法,此时仍会涉及观测类研究中对条件平均因果效应的稳健估计问题。受因果推断研究文献的启发,有一种解决办法利用倾向得分对结果模型赋予权重。有学者利用双重稳健估计[对倾向加权的结果(propensity-weighted outcome)建模]来分析背景老虎机方法的边界,并证明在若干真实世界数据库中,倾向加权改进了算法表现(Dimakopoulou et al.,2018)。

  另一个发现是,利用简单的分派规则可能比较有效,特别是在早期的老虎机算法阶段,因为复杂的分派规则可能在后来导致干扰。具体来说,如果某个协变量与结果有关,并被用于分派机制,则后来的估计必须控制这一协变量,以消除其导致的偏差。因此在估计用于后来批次的单元分派的结果模型时,选择稀疏模型的LASSO方法会优于(依赖更多协变量的)岭回归方法。最后,灵活结果模型在某些场景下可能很重要;随机森林方法此时可以成为较好的替代选项。

  [《比较》印刷版,点此订阅,随时起刊,免费快递。]

版面编辑:吴秋晗
财新网主编精选版电邮 样例
财新网新闻版电邮全新升级!财新网主编精心编写,每个工作日定时投递,篇篇重磅,可信可引。
订阅