登陆注册
1908500000012

第12章 棒球比赛预测:球探和数据怪才,谁更胜一筹?(2)

尽管鲍勃和马丁内斯的例子有些不合常规,但确实很少有球员如那条老化曲线般平缓发展,高峰低谷间断交错的形式反而更为常见。也就是说,真实的老化曲线充满噪声,而且噪声非常大(见图3–2),不会那样平缓。平均值就像“每个家庭拥有1.7个孩子”这样的说法,不过是一个统计学的抽象概念。按加里·赫卡贝的推论来看,也许詹姆斯的老化曲线没能传递出噪声中的某些信号。也许像游击手这样处于对体能要求比较高的位置的球员,其技术水平的衰退速度要比打右外场的球员快。也许那些颇具运动天赋的全能型球员的职业生涯会比那些只有一两个强项的球员要长。

赫卡贝的系统则假定存在26条明显的老化曲线,每一条都适用于不同类型的球员。如果他的假设是正确的,你就能评判出哪条曲线适合哪个球员,并以此预测出该球员职业生涯的走势。如果一个球员符合鲍勃·霍纳的老化曲线,那就预示着他会少年得志,但衰退期也会早早到来;如果一个球员符合马丁内斯的老化曲线,那就预示着他将大器晚成。

在赫卡贝的“弗拉迪米尔”预测系统中,每个球员对应着不同的曲线;而在詹姆斯创建的平缓的预测系统中,所有球员都对应着同一条曲线。尽管如此,从赫卡贝发布的一些预测结果看,“弗拉迪米尔”系统的预测准确度比詹姆斯的老化曲线高不了多少。预测准确率不高,在一定程度上是因为赫卡贝设定的26条曲线没有科学依据,只是随意选定了这个数目。这样一来,为球员匹配曲线就成了一个科学和艺术并重的技术活。

然而,要将棒球队员的技术水平发挥到较高的程度,一个人一定要对自己的身体技巧和精神技能进行多种多样的排列组合才行:肌肉记忆、体能耐力、手眼协调性、击球速度、投球识别力以及失利时强大的意志力,这些因素都要科学合理地运用。如此看来,“弗拉迪米尔”预测系统关于不同老化曲线的概念貌似更符合人类行为固有的复杂性。在创立PECOTA预测系统时,我尽量从詹姆斯和赫卡贝的系统中借鉴了一些元素来完善自己的预测系统。

在1986年的《摘要》中,詹姆斯介绍了“相似分数”的概念。顾名思义,设计者设计了这些分数,用来对任意两名大联盟球员的职业数据的相似性进行评定。这个概念比较简单。评定人员首先将两名球员分为一组,每组赋值1 000分,每发现两人之间的一次不同则扣若干分。结果,高相似度的组可得到950分甚至975分,但低相似度组的组员间的差异会迅速增大。

略懂棒球历史的人都会发现相似分数的方法很得人心,评定人员并没有一门心思地只顾研究球员的统计数据,而是提供了一定的历史背景。例如,佩德罗亚在25岁时的数据与历史上的很多球员相似,比如20世纪70年代统帅明尼苏达双城队的队长、一个伟大的巴拿马人罗德·卡鲁,以及大萧条时期老虎队的明星查利·格林格。

詹姆斯主要是想用相似分数进行反向检测,比如分析一个球员是否有资格入选名人堂。如果想论证你最喜爱的球员是否够资格入选库佰斯顿球员名册,就可以借用相似分数。若通过观察你会发现已经入选的球员中有9/10的人的数据和他的相似,你就得到了一个非常有力的论据。

相似分数也可以用于预测吗?假设我们能够确定有100名球员某一个年龄段的数据与佩德罗亚相同年龄段的数据极为相似,那么根据这100名球员的职业生涯的整体表现难道不能预示佩德罗亚的职业生涯走势吗?

为了验证这个想法,2002年我还在毕马威工作时就开始利用闲暇时间慢慢地推进自己的计划——创立PECOTA预测系统的雏形。这一系统是由五花八门、内容丰富的Excel电子数据表格构成,而表格正好也是我在毕马威工作时使用的主要工具(所以每次那些老板经过我的座位时,都以为我正在努力为客户建立细致的表格呢)。

就这样,上班时忙里偷闲每天抽出一两个小时,晚上到家再奋斗几个小时,我最终建成了一个数据库,其中包含10 000多个赛季(包含了自第二次世界大战开始后的所有大联盟赛季)以及所有球员的对比演算数据。这一方法充分利用了棒球比赛无与伦比的丰富数据,从某种程度上讲,它比詹姆斯的方法更细致。在对比一组球员时,此法采用最近邻体分析法,另外,考虑的因素外延更广,甚至包括球探经常关心的球员的身高、体重等因素。

PECOTA预测系统为不同类型的球员提供了不同的老化曲线,这一点与赫卡贝的系统相似,但PECOTA并不局限于26种曲线,相反的,它从棒球庞大的数据库中识别出一组数据相似的球员,综合分析后自然生成了这组老化曲线。如果与佩德罗亚数据相似的球员最后都成了大联盟中的优秀队员,这就预示着他成功的概率也比较高。

但通常,那些拥有相似数据的球员各自又是一个复杂的混合体,其老化曲线也会在某个时间点开始相互偏离。之前提到,依据詹姆斯的相似分数方法,佩德罗亚的数据先是与格林格和卡鲁相似,后两位球员在其漫长的职业生涯中战绩显赫,入选了名人堂。但此后佩德罗亚的数据又与蒙特利尔博览会队实力平平的二垒手乔斯·维德罗极为相似了。

对小联盟中的球员而言,这种差异更为明显。2009年,PECOTA预测系统为亚特兰大勇士队19岁的“明日之星”杰森·海沃德识别出的最相似球员,竟包括从名人堂球星到谋杀犯球员。奇珀·琼斯与海沃德的相似度排名第一,这位名人堂球星、前亚特兰大最伟大的球员之一为俱乐部效力17个赛季,职业生涯里的平局击球率为0.304,外加450次本垒打。而达奈尔·斯坦森是第二个与海沃德相似的球员,他的结局并不好,本来颇具潜力,却在2003年结束了在发展联盟亚利桑那队的球员生涯后,因屡次犯罪而被追捕,后来开着一辆运动型多用途汽车逃亡。

所有与海沃德相似的球员都是高大的运动全才,在小联盟比赛中展现出高超的技术水平,在选秀中脱颖而出,但是他们的命运却截然不同。而PECOTA预测系统的创新点就在于此,它能够告知球员他们可能遇到的各种命运结局,这些结局参考了数据相似的前辈球员,尤其是那些结局最好与最坏的球员,或结局最有可能再次上演的球员。由此可见,若预测对象是人类行为,那结局更是不胜枚举了。

看到现在,海沃德的命运真可谓跌宕起伏啊。而真实情况是,2009年海沃德荣获年度小联盟“最佳球员”称号,2010年他在自己前30场大联盟比赛中贡献了8个本垒打,完成了自己在勇士队的首秀,还入选了全明星队,这一切都超过了人们的预期。但是,2011年海沃德在大联盟的第二个赛季却不是那么顺利,击球率只有0.227。面对海沃德在2011年赛季的糟糕表现,完善的预测系统仍会找出一个保持乐观的理由:他还是有潜力的,除了平均击球率之外,主要数据仍然保持了先前的水平,而平均击球率本身就比其他数据更容易受到运气因素的影响。

但是,你想要了解的关于一个球员的一切,这些数据都能够告诉你吗?10年前,这个问题可是棒球界最热的话题。

球探与数据怪才的矛盾冲突

只要对《点球成金》稍有了解你就会知道,书中讲述了“统计专员”与“球探”这两个敌对阵营之间的冲突与斗争,他们注重不同的范例,采取不同的方法评估球员的表现。(“统计专员”当然是用数据说话,而球探也有自己的“工具”。)

2003年,《点球成金》一书出版后,迈克尔·刘易斯的读者们一定不会忽略书中对两个阵营敌对状态的描绘(而这本书本身很可能也加重了两者间的敌意)。同年,我参加了在新奥尔良万豪酒店举行的棒球冬季会议,当时的情形一下把我带回了高中时代。一方是老牌球探,他们就像草地上的老水牛一样悠闲自在,偶尔会坐在酒店吧台旁一边喝着威士忌,一边聊着老掉牙的战时故事,更多的时候是把自己关在宾馆的房间里谈生意。这些人从前都是专业从事棒球运动的,而今多半都已届不惑之年甚至是知天命之年了。他们中很多人以前都是运动员,在球场上为棒球运动奋力打拼,后来逐渐进入领导层负责幕后工作,一路平步青云。另一方则是一群数据怪才:二三十岁的模样,背着电脑包,拿着彩色打印的建议书,不停地在大厅的人群中穿梭,希望可以说服某个投资者为自己提供一个工作岗位。平时这两个阵营的交流并不多,他们都觉得对方自大无知且闭目塞听。

两方矛盾的根源也许就在于,球探觉得数据怪才威胁到了他们的饭碗。他们认为球探预算正在缩减,不管这是客观事实还是主观感受,他们通常都会以此为依据,说自己的饭碗难保。在一次围绕《点球成金》展开的激烈讨论的圆桌会议上,洛杉矶安那罕天使棒球队的球探总监埃迪·贝克告诉《美国棒球》杂志的记者:“此刻真是剑拔弩张啊。我们的一些老伙计本不该丢掉工作,现在却失业了。也许有财政或是其他因素的影响,但我们都认为其实是一些懂电脑的人抢走了他们的饭碗,对此我感到十分愤怒。”

我们并不清楚具体有多少支球队削减了球探预算。多伦多蓝鸟队就是其中一支,他们也为此付出了代价,球队在2002~2005年球员选秀的结果都不尽如人意。但缩减预算绝不是当时的球队总经理、比恩的弟子J·P·里恰尔迪一时兴起的冲动做法,而是由于多伦多蓝鸟队的母公司罗杰斯通信公司正受加元贬值的困扰,不得已而为之。

《点球成金》已经出版10年了,球探和数据怪才之间的争斗使他们耗尽了力气。2004年,红袜队在时隔86年之后再次捧得世界联赛冠军,成功的原因在于球队既充分尊重了球探的意见,也对已有数据进行了细致分析,两相结合成为两个阵营和平共处的关键所在。2003年时还被界定为“球探”阵营的许多球队,如圣路易斯红雀队,此后也越来越多地运用数据分析的方法,这些球队现已成为最具创新精神的棒球队伍。而那些原本就偏好数据的“怪才”队,如奥克兰竞技队,非但没有削减球探预算,反而增加了相关投入。

2007~2009年的经济衰退促使球队更频繁地采用数据分析的方法。尽管棒球界算是平稳地度过了经济危机,但仿佛每支球队都突然间变成了“点球成金”的球队,都需要将有限预算的价值发挥到极致。廉价的数据怪才一直都供大于求:从哈佛大学和耶鲁大学毕业的经济与计算机专业的高材生,本可以在投资银行谋一份年薪达40万美元的工作,但他们却更愿意搬到坦帕或克利夫兰,日夜不停地工作,拿到的薪水却只有银行薪酬的1/10。对于球队而言,花4万美元聘用一个数据怪才远比投入4 000万美元引进一个自由球员更值得,毕竟这位自由球员的技术水平注定会下滑,很快就会表现平平。

但这并不意味着数据怪才已经大获全胜了,如果说他们已经证明了自己的价值,那么球探同样做到了这一点。

系统与球探的对决:球探赢了

PECOTA 是“投手经验比对与优化测试算法”(Pitcher Empirical Comparison and Optimization Test Algorithm)英语单词首字母的缩写,这个冗长名称的缩略词正好是20世纪80年代堪萨斯城皇家队的内野手比尔·裴克达(Bill Pecota)的名字,那时的他对我钟爱的底特律老虎队而言一直是一个威胁。

PECOTA预测系统最初是为预测投手——而非击球手——的表现而设计的。投手的表现极难预测,因此在用WFG系统进行过数年实验之后——你肯定能猜出来这个缩略词代表的含义——《棒球规程》最终还是放弃使用它,于是年刊中的预测栏曾一度空白。意识到这是一个商机后,我向赫卡贝推荐了PECOTA系统。让我感到有些意外的是,他和《棒球规程》的同事们对这一系统一致认可,他们愿意以股权交换的方式购买PECOTA系统,条件是我得再开发一个相似的系统,用于预测击球手的表现。我欣然地接受了这笔交易。于是,第一组PECOTA预测结果便发表在2003年冬季的《棒球规程》上。

2003年赛季结束时我们发现,PECOTA系统确实比其他商业预测系统的效果要好一些。事实上,2003~2008年这几年,无论在我们自己还是别人的测试中,PECOTA系统的预测准确度总是与其他系统相当或高于其他系统,同时还推翻了拉斯韦加斯赌场惯用的台词。一些意外的成功使PECOTA名声大振,比如,芝加哥白袜队在2005年加冕世界联赛冠军,但2007年赛季PECOTA却预测该队只能获得72场胜利,惨淡结束赛程。这一预测必然招致芝加哥媒体和白袜队决策人员的一片骂声。但是,这个预测结果却惊人地准确:白袜队最终以72场胜利、90场失利的成绩结束该赛季。

然而,在2009年前后,PECOTA预测系统却被其他系统追上甚至赶超了。正如当年我借鉴詹姆斯和赫卡贝系统的优点一样,其他系统的研发人员也汲取了PECOTA系统的长处,并创建出自己的预测系统,而且有些系统非常棒。各个系统都会对大联盟球员的表现进行预测,如果每年都对这些系统的最佳预测结果做个排序,你会发现,那些最棒的预测系统彼此之间的差距不过一两个百分点。

但我当时之所以创立PECOTA,还有另外一个目的:对那些像佩德罗亚一样的小联盟球员的表现进行预测,这项任务可能要困难许多。因为当时鲜有预测系统对小联盟进行预测,直到最近才出现类似的系统,所以当时PECOTA系统唯一的竞争对手就是球探。

2006年,我首次公布了PECOTA系统预测出的100名最具前景的球员名单,和同时期《美国棒球》刊登的球探所列的名单形成对比。PECOTA系统依据这些球员入选大联盟后的前6个赛季中为球队做出的贡献对他们进行排名。

2011年赛季,也是预测结果发布的第6个年头,此时的我终于可以打开“时间胶囊”,看看这些预测是否准确。虽然名单中的球员如今都还相当年轻,但他们中谁是明星球员,谁是替补球员,谁已江郎才尽,已经一目了然。

同类推荐
  • 中国入世与战略应策

    中国入世与战略应策

    本书对关贸总协定和世界贸易组织的历史演变、组织结构、基本原则、运作程序及历史作用,都做了简明、扼要且准确的介绍与分析,可称为世贸知识的小百科。本书对中国“入世”的进程和原则作了具体的阐述,对“入世”的机遇与挑战作了深入研究和辨证分析,在此基础上,对我国“入世”后的经济结构调整,产业发展走向及政府、企业、百姓如何直面经济全球化、贸易自由化形势,提出了战略思路和具体应变对策,可称本书为应变“入世”的小智囊。
  • 看懂财经新闻的第一本书

    看懂财经新闻的第一本书

    赚钱第一课是学会看财经新闻。升级版与时俱进,央视《华尔街》顾问陈思进,和资深财经记者金蓓蕾一起,用最轻松易读的文笔,结合时下财经热点,新增新闻案例分析,手把手教会每一位普通读者,如何看懂生涩难懂的经济类、投资类、理财类的问题。这本书让每一位普通人都能掌握理财知识,具备理财思维。本书在升级的基础上,仍然坚持灌输四原则。
  • 我们向何处去

    我们向何处去

    本书从两部类模型出发,创新地发展了马克思主义经济学对债务危机进行“破局”,为人们观察、了解世界债务提供了一个全新的视角,为“中国模式”注入了新的内容,对世界经济形势进行了前瞻性的思考。从文化、历史、宗教、经济、政治、军事、地缘等方面展现了精彩纷呈的世界“大棋局”。
  • 你一定要知道的经济常识全集

    你一定要知道的经济常识全集

    经济学是一门经世济民的实用科学。与人们的日常生活密切相关。其研究对象,既包括政策制定者如何“经纶济世”,也包括一家一户一人怎样消费、购物、储蓄、投资的小计划。所以说,经济学是一门生活化的学问,它就在我们身边。本书摆脱了经济学惯有的复杂与枯燥,用通俗易懂的语言将其内在的深刻原理与奥妙进行深入浅出的分析,使读者轻松了解经济学的基本面貌。同时,将经济常识同每一个普通人的生活联系起来,便于读者用经济学的视角和思维来开展行动,从而培养经济头脑,创造人生财富。
  • 法治建设与区域经济发展研究

    法治建设与区域经济发展研究

    朱容博士所著的《法治建设与区域经济发展研究》,运用马克思主义理论和方法,考察了区域经济发展与法治建设的相关关系,阐述了法治对区域经济发展产生作用的机理,论述了建设法治区域的实践命题。书中系统探讨了区域特色经济培育、区域核心竞争力提升、特殊区域经济开发、区域可持续发展等区域发展的各重要领域如何进行法治建设的问题。全书包括相关范畴界定与理论回顾、法治建设与区域经济发展的相关性分析、法治建设与区域特色经济、法治建设与区域核心竞争力、法治建设与区域经济开发在内的共8章内容。
热门推荐
  • 重生之旅之幻心传奇

    重生之旅之幻心传奇

    大家好,這是我的第一部作品,所以有不好的地方,請見諒也希望大家能喜歡這部作品
  • EXO鹿晗:花开

    EXO鹿晗:花开

    莫名其妙魂穿了,我还遇见鹿晗了!原主驾鹤西去,想尽办法找到杨姝陌,要她帮她安稳度过下半生。代价是.......
  • 纨绔太子妃之名门将女

    纨绔太子妃之名门将女

    你爹是丞相?权贵子弟了不起啊,爷揍你没商量!太子爷?敢在爷面前称爷,哼,一脚踹下池塘再说!她,金銮殿上指着皇帝的鼻子爆粗口;她,沙场上横扫千军万马真乃女战神也。面对敌国的诱惑,她大义凌然:爷是齐国人。一切想打齐国主意的,就是和爷过不去!面对太子的求婚,她不以为然:你说嫁就嫁,那爷岂不是很没面子?/太子妃择偶标准/:休妻和离是底线,三妻四妾要不得,没钱没貌靠一边,附加条件看这边:你特么的不会洗衣做饭,不会扫地刷碗,你丫的连女红都不会你还好意思说要娶爷?(本文纯属虚构,请勿模仿。)
  • 重生后我成仙了

    重生后我成仙了

    〔日常修仙+异能+各种装逼+男强女强+甜宠爽文,其实是一本假的修仙文。不接受三星及一下差评,有建议请书友区见。〕洛兮一世英名,却被所谓的姐妹坑的丢了一条命。戾气太重,导致某个系统盯上了她。重活一世,当然是使劲浑身解数,打脸那群人了。重生bug让她十分自如。What?外星科技?古代神兽?这个系统似乎有点用处?啊哈?十大技能,附赠空间?小说中的剧情让她碰见了?喔嚯!这下完了!原来传说中的东西真的存在!凉凉夜色为我思恋成河。然后,某个公子哥居然成了她男朋友?我能换一个男朋友吗? 【本书为现言五步曲第一部,也为先导。】 【现言五步曲第二部《大佬你们女儿又凶残了》稳定日万中,第三部《两位大佬又开始互撕了》明年一月和大家见面。】 【古言新书《皇后原来是女子》正在筹备中】
  • 剑侠时代

    剑侠时代

    剑为百器尊者,静则静影沉璧,动则如云聚合。得天力,行天命,顺天行,悟天意。天碧幻木一族为何人人活不过而立之年,墨家为何惨遭灭门,邪派潜入到底为何。命中诸人汇聚枫林城时,又将是怎样一场风云暗涌!
  • 喜欢就是原罪

    喜欢就是原罪

    【文案】“帮我个忙吗?”“什么忙”“做我男朋友呀……我是说,假装一下,我被骚扰了”“……”“不愿意也没关系,我自己来”“你丫的有事才想起我”以前不懂事,但现在我想说……很抱歉,我好像有点喜欢你,不止一点。
  • 一竹封天

    一竹封天

    我本是天地孕育的一株灵竹,于太古年间得道,创圣典剑诀《一叶封天》,享誉诸天万域,封号一叶圣尊。诸天封神台上,我一剑封天,将万域至尊阻于封神台外,不料在最后封神时,同为灵族双尊之一的天火圣尊背后偷袭,致封神失败,魂飞魄散,封神圣源也随之消失——人族的身体,灵族的青天竹魂灵;阴煞筑体,封神为源。且看我叶天逆世而起,踏万域天骄,斩万域强者,灭绝世大敌,再度强势封神,写一曲可歌可泣的长天之歌。
  • 烈火修真路

    烈火修真路

    一天,凌夜被火烧了但意外之中却被上古神兽不死鸟的魂灵寄托,从此开始了属于他自己的修真之路。
  • 斑驳岁月不曾欺

    斑驳岁月不曾欺

    我不说不代表我不爱你,我不见不代表我不想你,我不听不代表我不念你,今生今世,非你不嫁,所以,你别恨着我,我只是,想给你更精彩的人生。
  • 在西北的日子

    在西北的日子

    闲来无事,写写那些帮助过自己的朋友,足矣