《信号与噪声》读书笔记:利用贝叶斯定理提高预测的准确率
0 前言
前两天整理书单,在图书馆借了本西尔弗的《信号与噪声》来看,大致内容是如何避开大数据里的噪声进行预测。尽管书有点旧,很多观点倒是很有意思。
1 人类比其他动物更需要发现模式
人们向来对在复杂情境中的概括能力引以为豪,我们对于“下一刻会发生什么”倍加关注,努力从随机噪声(即无规律的状况)中发现模式。
这种概括能力是预测的基础,也是预测试图解决的现实问题。我们每时每秒都在对未来将要发生的事情以及计划的成功概率进行预测。
2 使用贝叶斯定理进行预测
我们无法做出完全客观的预测, 但贝叶斯定理可以提高预测的准确率。贝叶斯定理名义上是一个数学公式,但更像是一种打破锚定思维的思路。
贝叶斯定理需要我们坦然面对各种可能性和不确定性,从不同角度思考我们的想法,以不同方式检验我们的想法。换句话说,就是关注和之前预测相反的事件,反复发现证据,更新你的预测。
3 失败的预测:非样本问题
最失败的预测通常只关注符合我们期许的信息,而不在乎其真实性和全面性。现实往往是多维、复杂的,我们所作的各种预估要比现实状况简单得多。人们通常不愿意考虑“非样本”中存在的问题,因为这意味着我们会遇到一些并不熟悉的情境。
究竟什么是非样本呢? 非典型样本是一种因归纳过程中所使用的的样本在考察对象的总体中并不具有代表性所引起的谬误。这引导预测走向精确和准确的两个不同结果。如果你的样本不能代表你的研究问题,哪怕研究过程再严谨,样本量再大,何来准确性而言?
西尔弗举了一个简单却生动的例子来分辨非样本问题。一位驾龄30年,安全出行20000次的司机在聚会上喝得醉醺醺,突发奇想自己开车回家。对于这次驾车的风险,应该以什么为样本计算呢?
人们通常会以20000次的安全出行记录为自己醉驾的安全性做保证,但问题在于,20000次的安全出行记录里,没有哪一次是醉酒驾车的。因此,司机的醉驾样本是0次,而不是20000次。这就是非样本问题。