但对于某一个具体的业务场景与一定的条件约束,找到那个最合适的模型也并不是没有思路。奥卡姆剃刀就是这其中的一个非常重要的指导思想。
“如无必要,勿增实体”,这是奥卡姆剃刀原则的全部。
试想一下,从拿到数据,再到根据这些数据训练模型,并输出结果,这其中导致模型输出特定结果发生的原因可能来自哪里?这个原因毫无疑问会来自数据携带的信息,也会来自在特征工程时做过的处理,还会来自模型本身带有的归纳偏置。
如果一个对数据科学与数据处理原理不是很明白的人,或者是一些模型的探索者、业务的实践者,看到了模型的运行机制,强行修改模型,这等同于在这个数据信息处理的过程中,加入了除数据规律、特征工程提取、模型归纳偏置之外的其他信息。例如,在CART决策树模型中,某建模人员把按照Gini系数减少最多的决策特征排列,强行变换了其中两个中间节点的特征位置,这就人为地加入了对特征重要程度的判断。当然,如果建模人员有非常非常非常确定的把握,经过了改造的模型也是有可能表现出更好的泛化能力的。但考虑到很多情况,人总是经不住拍脑袋做决定的冲动,强行改造模型都是一种业务上的尝试,改造后的模型基本没有复用性。对整体业务结果与性能的提升程度,其实不如好好研究怎么选择样本,怎么进行特征工程来得实在。
奥卡姆剃刀原则在底层逻辑上对没有根据就随意修改模型的行为说了“不”,即使是为了尝试。不过,这并不是说在选择模型时不应该尝试去,而是说可以去尝试各种模型隐含的假设的合理性,尝试某个特征工程环节的有效性,而不应该去尝试“任意改造模型”的可行性。
数据科学,其实就是一场信息游戏。
虽然很难通过一个万能的模型整合世界上所有数据带有的信息,但通过迁移的方式对领域内的信息进行整合,并应用于更多相关业务场景,却是一个非常有效的折中。近几年,在NLP领域中大行其道的BERT等带有预训练机制的模型,充分整合了自然语言中的先验信息,让模型在非常多的场景下都可以得到“屠榜”的业务效果。同样神奇还有另一个模型——GPT3。在整合了极其巨量的互联网数据信息,并以1750亿参数为调整空间,它可以帮助人们完成设计原型图、制作资产负债表、查到某些名人的社交账号等等。
万能的模型虽然很难构建,但是不是我们已经可以看到它的身影了?
今天的分享就到这里,谢谢大家。
文章作者:途索 阿里巴巴 算法专家
内容来源:《数据分析通识》