信号与噪声 - 狐狸型预测方法

2008年2月，我在新奥尔良的路易斯阿姆斯特朗国际机场候机，我的航班延误了。在等待登机的过程中，我萌生了建立538网站的想法。出于某种原因——也许是卡津马提尼酒在作祟——我觉得应该有人牵头建立一个网站，然后用这个网站来预测奥巴马和希拉里（当时两人还在为争夺民主党总统提名权激战）将如何完胜麦凯恩。这个想法突然间就明朗起来了。

我对政治选举的关注时间可能还要早一些，之所以关注，并不是因为热爱政治，而是对它感到失望。2006年，我曾密切关注过美国国会下令禁止“互联网扑克”这一事件，“互联网扑克”可是我的主要经济来源之一。我发现，即使与体育报道相比，政治报道也依然存在盲区，前者的报道和分析至少借着《点球成金》节目有所改善。

在大选之前，我发现自己越来越关注政治节目，主要收看美国广播电视台、美国有线电视新闻网和福克斯新闻的节目，可大部分内容都索然无味。尽管离美国总统大选还有数月之遥，但各档节目的评论都认为希拉里必然会获得总统提名权，却忽略了民意调查这种方式本身所固有的不确定性。这些评论似乎过于强调希拉里的性别优势和奥巴马的种族劣势，若某个候选人在一场新闻发布会上开了一个机智的玩笑或获得某个无名议员的认可，新闻界就会以此大做文章，断言这个人最终定会获选，可99%的选民都不会在意这些事情。

政治新闻，尤其是那些真正影响美国总统大选的重要新闻，传播速度十分惊人。但是，新闻报道每天都有，且大部分都是用来填充版面的，而媒体却总是将这些报道打造成劲爆新闻。政治新闻报道不仅经常抓不住信号，还时常会强调噪声。如果一个州有大量选票显示共和党领先，而且大家都知道这件事，这就称不上是新闻。如果一个新的投票结果显示该州民主党处于优势地位，即使选票并非来自投票的主要群体，而且也不能准确预测出结果，但也一定会上头版头条。

换句话说，竞争设置的障碍当时已经相当小了。某些人只不过是对政治活动中真正拥有预测能力的事物进行了相当基础性的研究，他们看上去可能就像一个天才了。于是，我开始在Daily Kos网站上发表博文，公开了民意调查和募捐数目这类问题的细节，利用数据对这些问题进行分析。我研究过哪些民调公司在过去这些年的预测最准确，也研究过赢得某一个州（如艾奥瓦州）的选票究竟会对另外一个州的选票数产生多大的影响。尽管像Daily Kos这样的网站上的评论通常都是定性的（而且具有党派取向），而不是定量的（不用数据说话），但是我的那些文章还是很快就有了跟帖。2008年3月，我将作过的分析转到我自己创建的538网站上，旨在对美国总统大选进行各种预测。

起初，538网站的预测模型十分简单——基本上总是取自民意调查的平均值，但会根据之前的准确程度给这些调查加权——后来就逐渐变得比较复杂了，但预测模型始终遵循三大原则，而且这些原则都是典型的狐狸型原则。