财新传媒
《比较》 > 前沿 > 正文

经济学家应该了解的机器学习方法

来源于 《比较》 2022年第2期 出版日期 2022年04月01日
文|苏珊·阿西 吉多·因本斯

2.计量经济学与机器学习方法:目标、方法、场景

  在本节中,我们将介绍本文的若干一般主题:传统计量经济学与机器学习研究在目标和关注点上有何差异?这些目标和关注点会如何影响对特定研究方法的选择?

  2.1目标

  传统的计量经济学方法是确定一个对象,即一个被估计对象,与数据的联合分布构成函数关系,若干杰出文献都提到过这一点(如Greene,2000;Angrist and Pischke,2008;Wooldridge,2010)。这个研究对象往往是统计模型的一个参数,模型则是描述一组变量(通常又取决于其他某些变量)在一组参数值(可以属于有限或无限集合)之下的分布。给定总体对象的一个随机抽样,对感兴趣参数和多余参数的估计是利用误差平方和等目标函数或似然函数,找出能够最好地拟合全体样本的参数值。这里的重点是目标估计量的质量,在传统上通过大样本效率来测算。学者们经常还会注重构建置信区间,报告点估计值和标准差。

  与之相比,机器学习研究文献的重点往往是开发算法,例如一篇被广泛引用的论文《数据挖掘的10种顶级算法》(Top 10 Algorithms in Data Mining,Wu et al.,2008)。算法的目标通常是在已知其他变量的情况下预测某些变量,或者基于有限信息对单元分类,例如根据像素值识别手写数字。

  用一个很简单的例子来说:我们要根据一个矢量值回归量或者特征Xi,构建某个结果为Yi的条件分布模型,假设我们确信:

  相应的问题是,如何针对上述损失函数,得出有良好性质的估计量(α^,β^)。它未必是最小二乘估计量。事实上,当特征维度超过2时,决策理论告诉我们,可以在期望误差平方上取得比最小二乘估计量更好的结果。后者不能被接受,也就是说有其他估计量胜过最小二乘估计量。

  2.2相关术语

  引发困惑的一个根源是,机器学习中采用了新的术语来指代原有研究文献中已经熟悉的概念。在回归模型中,用于估计参数值的样本经常被称作训练样本(training sample)。这些模型不是用于估计,而是用来训练。回归量、协变量或预测变量都被称为特征(features)。回归参数有时被称为权数(weights)。预测问题被区分为监督学习问题(能够同时观测到预测变量Xi与结果Yi)以及非监督学习问题(只能观测到Xi,然后将其纳入聚类,或者估计其联合分布)。无序离散响应问题通常被称为分类问题。

  2.3验证与交叉验证

  大多数计量经济学教科书在讨论线性回归问题时很少关注模型验证(validation)。回归模型的形式(无论是参数或非参数模型)与回归量集合都被视为外生给定,例如来自经济学理论的设定。在此情况下,研究者的任务是估计模型里的未知参数,更多关心的是有效完成这一估计步骤,往往通过定义大样本效率来实现。如果涉及模型选择的讨论,通常是以无效假设的检验来确认特定模型的有效性,其隐含设定是:应该能够找到一个真实模型,并用于完成后续任务。

  例如上节提到的回归案例,假设我们希望预测一个新单元的结果,它随机地来自与我们的抽样样本相同的总体。我们可以不估计有一个截距和一个标量Xi的线性模型,而是选择估计仅有一个截距的模型。显然,如果β= 0,则该模型可以得出更好的预测结果。出于同样的理由,如果β的真实值接近于0(但并不完全等于0),则我们在回归中不考虑Xi,仍然可以得到更好的结果。样本外交叉验证(cross-validation)可以帮助做出此类决策。问题解决中涉及的两个部分对这种能力很关键。首先是把预测能力作为目标,而非着眼于特定结构参数或因果参数的估计;其次,该方法采用了样本外比较作为标准,而非样本内的拟合优度指标,这样可以确保获得对拟合的无偏比较。

  2.4过度拟合、正则化与参数调整

  相比标准的统计学和计量经济学文献,机器学习研究文献对过度拟合(over fitting)的关注要强得多。研究者们试图挑选能很好拟合的灵活模型,但不会以损害样本外预测的结果为代价。他们不太强调特定方法在大样本中具有渐进式优势的规范结果,而是针对特定数据库对不同方法加以比较,看哪种方法表现更好。这里的一个关键概念是正则化(regularization)。有学者指出,正则化理论是存在智能推断的首批信号之一(Vapnik,2013,第 9页)。

  设想有很大一类复杂度各不相同的模型,例如以模型中未知参数的数量或者以反映模型能力或复杂度的万普尼克-契尔沃年基斯维度(Vapnik-Chervonenkis dimension)(*1.由俄罗斯统计学家、数学家弗拉基米尔·万普尼克(Vladimir Naumovich Vapnik)和阿列克谢·契尔沃年基斯(Alexey Chervonenkis)创建的统计学习理论(Statistical Learning Theory)。)来测算。此时不是直接对目标函数做最优化,例如在最小二乘回归中最小化残差的平方和,或者在似然函数中最大化对数值,而是在目标函数中加入一个项,以惩罚模型的复杂度。这种做法在传统计量经济学和统计学文献中有先例可循。一种是在似然情形下,学者们有时会给似然函数对数值加入一个项,该项等于样本规模的对数值乘以自由参数的数量除以2的负值,得到贝叶斯信息准则(Bayesian information criterion),或者该项等于自由参数的数量,得到赤池信息准则(Akaike information criterion)。在回归模型的贝叶斯分析中,另一种有很长历史的正则化估计方法是利用回归参数的先验分布(以0为中心,有独立于其他参数的常数先验方差)。而现代采用的正则化方法的不同之处在于,它们更多是由数据驱动的,正则化的数量明确地由样本外预测的表现决定,而不是依靠主观选择的一个先验概率分布。

  唯一的区别在于惩罚参数(penalty parameter)λ的选择方式。在规范贝叶斯方法中,这反映着参数的主观先验分布,因而是在事前做选择。而在机器学习方法中,λ的选择是通过样本外交叉验证,以实现样本外预测表现的最优化。它其实更加接近于实证贝叶斯方法,利用数据估计先验分布(如Morris,1983)。

  2.5稀疏性

  在机器学习文献的许多情形下,特征的数量很大,包括绝对数量很大以及相对于样本中的单元数量而言很大。然而,人们经常认为许多特征即使不完全无关,其重要性也较弱。这里的问题在于,我们或许事前不知道哪些特征重要,哪些可以从分析中排除而不至于显著影响预测能力。

  黑斯蒂等人(2009,2015)这样阐述所谓的稀疏性原则(sparsity principle):

  假设基本的真实信号较为稀疏,我们利用惩罚函数l1来试图修补。如果假设正确,我们在恢复真实信号上能做得不错……但如果假设错误,也就是说,实际情形在选定基础上并不稀疏,则惩罚函数l1不能很好地发挥作用。然而在此情形下,相对于贝叶斯误差来说,没有任何方法能做得很好。(Hastie et al.,2015,第24页)

  确切的稀疏性事实上或许没有必要,在许多情形下采用近似稀疏性已经足够,即大多数解释变量的解释力非常有限(即使不为0),只有少数特征具有重要性(Belloni et al.,2014)。

  在传统的社会科学实证研究中,学者们人为限制了解释变量的数量,而非通过以数据为根据的方式进行选择。让数据在变量选择程序中发挥更大作用似乎是一种明显的改进,尽管这个基本过程至少属于近似稀疏性的假设仍然非常强,而且以数据为根据的模型选择中的推断可能极具挑战。

  2.6计算问题与可扩展性

  相比传统的统计学和计量经济学研究,机器学习文献更加关注计算问题(computational issues),以及在大数据库中应用估计方法的能力。从统计效率的角度看或许有理论上的引人特性,但不适合匹配大数据库的解经常会被放弃,而更多地选择能够轻松适用超大数据库的方法,例如在线性回归的讨论中,关于最小绝对收缩和选择算子(LASSO)以及子集选择方法的优缺点比较。在分析中可能纳入大量特征的情形下,子集选择方法关注回归量子集的选择,再通过最小二乘法估计回归函数的参数。而LASSO方法具有计算方面的优势,比如,可以加入与参数的绝对值之和成比例的一个惩罚项。LASSO方法的一个主要优势在于,能找到有效办法计算出带有数百万个回归量的估计值。相比之下,最优子集选择回归是一个NP难题。到最近之前,人们认为回归量的数量只有在30多个以内时才可行,当然目前有研究认为或许可以拓展到1 000多个(Bertsimas et al.,2016)。由此也重新开启了在LASSO方法与最优子集选择方法都可行的场景下,两者之间孰优孰劣这一悬而未决的争论(Hastie et al.,2017)。有些迹象表明在信号-噪声比例低的情形下(符合社会科学的许多应用场景),LASSO方法可能有更好的表现,当然许多问题仍没有定论。在社会科学的许多应用场景下,问题的规模使得最优子集选择方法同样适用,而且与实质性问题相比,计算问题或许不是特别关键。

  在10次迭代后,我们可以重新调整数据库,做重复操作。如果学习速度ηk以合适的速率下降,则在相对温和的假设下,当目标函数为凸或伪凸时,随机梯度下降方法几乎肯定会收敛到全局最小值,在目标函数的其他情形下也几乎肯定会收敛到局部最小值。这一方法的概述和实际操作技巧可参阅博托(Bottou,2012)。

  当▽Qi(θ)本身是期望值时,以上理念可进一步推广。我们可以考虑用蒙特卡洛积分来估值▽Qi。但我们不用通过很多蒙特卡洛模拟来得到积分的准确近似,而可以采用少数几次甚至一次模拟来实现。这一近似方法在经济学研究中的应用可以参见鲁伊兹等人(Ruiz et al.,2017;Hartford et al.,2016)。

  2.7集成方法与模型平均

  机器学习文献的另一个关键特征是利用集成方法(ensemble methods)和模型平均(model averaging)方法(如Dietterich,2000)。在许多情形下,单一模型或算法的表现不如把大量模型综合起来,并利用从最优化样本外表现中获得的权数(也称票数)来平均。一个令人叫绝的例子来自网飞大奖赛(Netflix Prize competition,Bennett and Lanning,2007),所有领先的参赛者都采用了模型综合方法,经常是利用大量模型的平均值(Bell and Koren,2007)。传统计量经济学研究中有两个与之有关的思想。显然,贝叶斯分析隐含着参数的事后分布的平均值。另外在采用混合模型时,也是把不同参数值混合起来用于单一预测。当然这两种情形下的模型都是对类似模型的平均,通常有着相同的设定,只是在参数值上有区别。而在现代研究文献以及网飞大奖赛的顶级入围者中,用于平均的模型可能大不相同,并且权重来自样本外预测能力的最优化而非对样本内拟合。

  我们还可以根据不同模型的预测变量在测试样本中的回归结果来估计权重,而不用要求权重的总和为1以及为非负值,因为随机森林、神经网络和LASSO等方法在处理无关特征、非线性和相互作用方面各有显著的优缺点。所以,对这些模型的平均可能带来严格优于单一模型的样本外预测结果。

  针对面板数据的情形(Athey et al.,2019),我们可以采用集成方法,把不同的综合控制与矩阵填充法结合起来,找出超越单一方法表现的综合办法。

  2.8推断

  机器学习研究文献高度重视样本外表现,以之作为关键标准。但这损害了统计学与计量经济学在传统上关注的一个方面,即所谓推断(inference)能力,即至少在大样本中构建有效置信区间的能力。有学者指出(Efron and Hastie,2016,第209页):

  或许是由于不受模型的约束,在算法的发展中,预测远远领先于推断论证。

  虽然近期以来对特定场景下低维函数的推断方法取得了显著进步[如Wager and Athey(2017)关于随机森林的分析;Farrell et al.(2018)关于神经网络的分析],但对许多方法而言,目前仍不可能构建有效的置信区间,哪怕只是渐进式的。一个疑问在于,构建置信区间的能力是否像传统计量经济学认为的那样重要。对很多决策问题来说,预测可能是最关键的,推断至多属于第二重要。即使在可以做统计推断的场合,我们仍需注意,推断能力的保证往往需要牺牲预测效果。我们从传统的核回归方法(kernel regression)中能看到这种取舍,最优化期望误差平方的带宽(bandwidth)需要在偏差的平方与方差之间做权衡,这使得最优估计量有一个渐进式偏差,因而无法采用标准置信区间。解决办法可以是使用一个比最优水平更小的带宽,以消除渐进式偏差,但这显然要以增大方差作为代价。

  [《比较》印刷版,点此订阅,随时起刊,免费快递。]

版面编辑:吴秋晗
财新网主编精选版电邮 样例
财新网新闻版电邮全新升级!财新网主编精心编写,每个工作日定时投递,篇篇重磅,可信可引。
订阅