数据总结之球员篇(下):过去一个赛季哪个门将扑救最好

前言:再次科普XCG与“限制对手射门得分率”

颠覆传统的“失球数”与“零封数”衡量模式,用一个新算法量化门将扑救水准,是一个意义明显却又很容易费力不讨好的事。

一方面,相较于其他位置(包括前锋)而言,门将的功能更加单一化,如果说前锋的主要任务是进球,那么“不让对手进球”作为门将的主要任务,其意义甚至更大。你可能会听到前锋为自己辩解说“前锋的任务不只是进球”,但你很少会听到门将说“门将的任务不仅是扑救”。即便各队对门将参与传控的要求越来越高,但这距离改变这一角色的职能分配,还差很远。

然而另一方面,“不失球”这个统计又直接和比赛结果相关,因此这种统计的意义便会被无限夸大,正所谓“其他数据再好你也可能输球,但不失球就一定不会输”。但这种用“失球数”甚至“零封数”来评价门将的模式,隐含了一个非常致命的逻辑漏洞:防守是全队的事,不失球也是全队的功劳,如果将之作为衡量门将的标准,那是不是透露出一个“门将发挥=全队防守表现”的逻辑?这是不是对其他位置防守球员太不公平了?

举个极端点(其实这种例子发生概率并不低),某门将赛季前半段搭档乌姆蒂蒂,半程狂丢30球;冬歇期球队看不下去拿钱怒砸范迪克,于是后半程只丢15球。门将还是那个门将,赛季末总结的时候,我们要不要因为后半程丢球只是前半程的50%,就说是门将进步了?显然不合适。

所以,和通过射门难度认知中前场球员射术一样,只要有条件,我们就应该通过“扑救难度”来量化门将的扑救水准。现在有没有这个条件呢?有。在本系列的(上)篇里,我们已经科普了xg数据。而在球场另一端,还有一个叫做“预期失球数”(expected conceded goals,简称xcg)的数据。它和xg不一样,是针对“射门后”进球概率的量化。你可以理解为,它量化的是“门将应对一次射门的难度”。

这个数据可以告诉你:神扑和正常扑救,不一样。

这种针对门将的量化方式,至少要和xg存在两个不同:

第一,xcg不考虑打在球门范围以外的射门,因为它最终是以“进球概率”的方式来呈现的,而所有没有命中目标的射门,进球概率都一定是0,哪怕它质量再高也是0。因此,xcg的样本库和xg不一样,是根据过去5年所有比赛中射正的射门来量化的。这也导致最终计算的进球概率不同。比如同样是点球,xg由于样本中包括打偏的那一部分,进球概率为0.76;而xcg则分为两类:打偏的直接为0,打正的为0.81。

第二,xcg除了考虑射门的角度和位置之外,还必须考虑射门质量,也即球速和目标(比如你射的是球门中间还是所谓的“十分角”)。比如下面多纳鲁马丢的这球,尽管是禁区外围的远射,但由于射门追求死角,其进球概率37%,xcg0.37:

(多纳鲁马丢球,xcg0.37)

有了这个数据,我们可以做什么?很简单,就像我们用“真实射门得分率”量化球员射门时修正射门难度的能力一样,我们一样可以通过xcg量化门将扑救时降低进球概率的能力。我将这个算法命名为“限制对手射门得分率”,公式是“限制对手射门得分率=(xcg总和-实际失球数总和)/射门次数*100%”。

当然,xcg不会考虑运气因素,比如折射对门将判断产生的影响,xcg是没办法精确考虑的,因为你没法说折射之后球到底是更好扑(球速减慢)还是更难扑(可能方向刚好和门将判断方向相反)。下图诺伊尔就吃了这个亏,皮球折射后明显和他初始判断方向相反,但球速减慢导致xcg系统只能量化为进球概率7%:

(诺伊尔丢球,xcg0.06)

但大样本可以适当解决这个问题。所以我们这篇文章,要将筛选标准设置为英、西、意、德4大联赛被射正次数超过40次的门将,看看各个联赛哪些门将受到的射正考验最多,哪些门将应对的最好。

英超:洛里很稳,凯帕很差

横轴:每90分钟被射正次数

纵轴:限制对手射门得分率

圆点大小:总丢球数

圆点颜色:对手每次射正xcg

其实自复赛开始,我对英超门将的表现就非常关注,因为累积的限制对手射门得分率第一,几乎每轮都会变动。没办法,今年英超第一门将的竞争比前两年激烈得多(前两年不激烈是因为德赫亚和阿利松分别炸了一个赛季)。瓜伊塔、亨德森、洛里轮流坐庄,最终洛里凭借倒数第二轮对阵莱斯特城时的神勇发挥,以5.59%的限制对手射门得分率成为本赛季英超扑救第一人。那场比赛洛里化解了对手6次射正,6脚射门累积xcg打到了1.65。6次扑救中不乏这样的神扑:

(洛里,xcg0.83)

(洛里,xcg0.52)

其实前4名的差距微乎其微,洛里只领先第二名瓜伊塔0.17%,说白了就是多扑住一个球的差距。英超也是各大联赛中在这一环节竞争最激烈的。这里面有个非常有趣但又有些残忍的现象:呃……排名第3第4的两个人来自同一球队——阿森纳……莱诺入围倒是丝毫不令人意外,马丁内斯最令人意外之处倒还不在纵轴所处位置,而是正常来说他就不该出现在图里——此人这赛季一共出场区区849分钟,如果是在防守强队,是绝对积攒不够40次被射正次数的。

也就是说,阿森纳的防守……嗯……

这么说吧,我本以为水晶宫的瓜伊塔应该算“防守弱队出门将”的典型,但其实水晶宫防守尚可,无论是场均放给对手1.44个预期进球(英超第11高)还是每2.56分钟净防守时间被射一次的频率(英超第7高),都算是可以接受的范围。但阿森纳……嗯,场均放给对手1.57个预期进球为英超第6高,每2.00分钟净防守时间被射正一次为英超……第2高……

放三张莱诺和马丁内斯为阿森纳中后场——注意是整个中后场而非只有后卫线——擦屁股的动图,辛苦你们了!

(莱诺扑救,xcg0.51)

(莱诺扑救,xcg0.40)

(马丁内斯扑救,xcg0.70)

至于中间区域的德赫亚、阿利松与埃德森,目前我比较担心的是德赫亚。阿利松此前的履历其实比二人都要好得多,伤愈后需要时间抖落锈迹也很正常;埃德森则没有任何被取代的迹象。但德赫亚则要直接面临亨德森的竞争,后者在纵轴的最上端部分,限制对手射门得分率4.92%,排名第5。

然后就是英超最大亮点了:左下角唯一的那个人,横轴最左说明被射次数很少,纵轴最下限制对手射门得分率极差,圆点很大说明丢球很多……

那个人,就是足坛第一泉水指挥官,凯帕。

我承认这赛季凯帕确实比较倒霉,遇到了一些折射丢球,但你最多最多自我抱怨一句“屋漏偏逢连夜雨”,归根结底还是要想想为什么是自己的屋顶漏了。诸如下图这样的丢球,那就是凯帕的责任:

(凯帕丢球,xcg0.22)

(凯帕丢球,xcg0.07)

其实光看英超,还不足以说明凯帕有多差。这么说吧,我统计了五大联赛所有被射正次数40次以上门将的限制对手射门得分率,凯帕在115名门将中排名……倒数第3……

至于凯帕这种表现对切尔西的影响,我们最后再给出一张图。这里先对凯帕道个歉:作为足球数据爱好者,严格来说我应该感谢凯帕,因为他是罕见的强队里烂出天际的主力门将,所以他的存在可以说是对传统量化方式(总丢球数其实只是英超门将第8多)的最大颠覆案例。而这赛季其实有很多数据公司用几乎“蹭热度”的方式,拿凯帕做例子来推广自己的类xcg数据,比如opta就至少出了两次相关新闻。因此,凯帕的存在极大推广了现代高阶数据。从这个角度说,我希望他能继续活跃在一线豪门(对不起切尔西)……

西甲:库尔图瓦只是优秀而非顶级,奥布拉克与特尔施特根有所退步

(表中所有元素与前图相同)

我已经不知道多少次因为这个观点被无数人拿着“零封”、“萨莫拉奖”这样的东西喷了。然而我还是坚定的持此观点:库尔图瓦过去一赛季的表现非常优秀,但不是顶级。当然你可以说这是因为皇马出色的整体防守给他的表现机会就不多,但我们没有任何素材来证明库尔图瓦在被射正次数极多的情况下能够贡献什么样的表现,既然是用数据评价,那么我们就只能根据现实表现来说话。何况我也可以反问:难道“零封多”、“丢球少”这样的数据,没有受惠于全队防守?

库尔图瓦这赛季的限制对手射门得分率为4.22%,西甲第4。这份样本并不小,因为尽管皇马被射正次数很少,但库尔图瓦稳坐主力出场时间长达3276分钟,所以还是积累了100次被射正次数。有一个数据需要注意:库尔图瓦是上图中颜色最浅的之一,他每次被对手射正的xcg只有0.242。这就带来了两方面的影响:一方面库尔图瓦应对射门的难度肯定比其他人更小;但另一方面,库尔图瓦每化解一次射门,在限制对手射门得分率算法中所积累的分子也是最小的。所以,我们回顾这100次射正,所能找到的“神扑”其实很少,最终只能说库尔图瓦很稳:

(库尔图瓦扑救,xcg0.55)

当然,库尔图瓦的进步是肉眼可见的,因为他之前4个赛季——对你没看错,4个赛季,包括在切尔西最后的2个赛季,表现都不好,总的限制对手射门得分率只有-1.22%……

其实西甲这赛季有点“变天”的意思。此前特尔施特根始终是西甲最佳门将之一;奥布拉克则几乎锁定西甲第一门神(无论是传统评价还是限制对手射门得分率都是这个结论)。但这赛季二人都只在纵轴中上位置。不过好消息是,此二人的限制对手射门得分率都存在低开高走的态势,尤其特尔施特根,整季限制对手射门得分率仅为1.73%,但如果只计算最后20场,特尔施特根的限制对手射门得分率高达5.76%,这其实已经是西甲后半程最佳表现之一。诸如这种表现,甚至队友都要上去“感恩戴德”的拥抱一下他:

(特尔施特根扑救,xcg0.83)

其实这也从侧面说明传统评价方式多么不靠谱:特尔施特根后半程几乎场场都让巴萨球迷送上“特爹”称号,囿于球队整体防守太差零封只有10次,那把没能零封的10场算在特尔施特根头上公不公平?套用很多数据反对者的话说:“看过比赛都知道不公平”。比如上面那张图,其实是巴萨0-2输给巴伦西亚的比赛中特尔施特根的神扑,你说最后他在传统评价体系里捞到了什么?什么都没有。丢了2球(丢的两球xcg也很高,很难处理),球队输了。那我们能说这样的特尔施特根表现差吗?显然不能。所以,数据进阶性越强,其实和比赛录像的结论越贴近。

意甲:什琴斯尼VS格里尼,能够部分解释尤文VS亚特兰大

(所有元素与前图相同)

在写尤文赛季总结的我已经写过:尤文这赛季攻守其实都很差,按xg与放给对手的xg计算,其实攻守两端都没有进入意甲前3,能夺冠真的要感谢竞争对手配合。

那么这里面另一个问题就来了:到底谁是尤文最大的竞争对手?他们是如何配合尤文夺冠的?

第一个问题,答案是亚特兰大;第二个问题,答案是门将太差。

亚特兰大的进攻火力算得上众所周知,但如果我告诉你,不考虑门将,亚特兰大其实是攻守兼备,你会不会感到意外?

亚特兰大19-20赛季场均放给对手的预期进球数只有1.06,是意甲最低的,其他各项防守数据也完全能解释这一数据是怎么打出来的(囿于篇幅,这里不再赘述)。然而,他们偏偏放给对手1.93%的真实射门得分率,是意甲第3高的……

不客气的说,亚特兰大前中后三条阵线算得上三军用力,在战术层面已经将放手做到了极致,却被门将格里尼赔的一干二净。像下图这样的丢球,放在弱队就算了,放在亚特兰大这么好的表现上,那就实在拖后腿了:

(格里尼丢球,xcg0.14)

(格里尼丢球,xcg0.06)

而在格里尼一个劲浪费前场攒下资本的同时,什琴斯尼却在屡屡救主:

(什琴斯尼扑救,xcg0.79)

可惜了亚特兰大的这个赛季……

德甲:诺伊尔低开高走,福莱肯是否得益于小样本?

之前在写拜仁赛季总结的时候已经提过:诺伊尔这赛季是非常典型的低开高走。他在科瓦奇时代确实有一些运气差的因素,而且大多数丢球也确实不好处理。但一个事实是,他也没能从低难度射门中捞到足够多的分数加成,比如下图:

(诺伊尔丢球,xcg0.06)

但在弗里克上任后,诺伊尔状态回升——你可以说前面很多丢球都不好处理,但后面一样不好处理的球,不也还是扑出来了很多吗?比如这样:

(诺伊尔扑救,xcg0.65)

(诺伊尔扑救,xcg0.63)

这里拜仁整体实力的优势就凸显出来了:其实我们这篇文章用“低开高走”这个词已经不是第一次了,奥布拉克、特尔施特根都存在这个现象。而奥布拉克已经不是第一次这样了,之前几个赛季都有类似情况,可见这在门将中是很常见的现象。那为什么说这和球队整体实力有关呢?因为强队除了联赛之外,还要参加欧冠,而欧冠是存在“淘汰”一说的,奥布拉克之前出现过好不容易状态回升,马竞已经被淘汰的窘境;诺伊尔则不然,他刚好可以在后期把良好状态带到欧冠淘汰赛中。

当然,最终整个赛季打完,诺伊尔只是德甲所有门将中的中上水准。德甲在这方面表现最好的门将是弗莱堡的福莱肯。只看图,他是被射正多又应对的好。但这里面要注意一个问题:

这个图里,没有考虑出场时间(因为出场时间多的门将也很多,除了极个别人之外,其他的不太好区分)。

也就是说,福莱肯极有可能受惠于小样本——尽管我们增加了被射正40次这个门槛,但弗莱堡的防守实在太烂了,每1.89分钟净防守时间即放给对手一次射门,被射门频率高居德甲第一且遥遥领先其他所有球队,在这个球队,极少数出场时间也能捞到大量被射正次数。福莱肯就是典型案例。他整个赛季出场10次,总出场时间只有961分钟,但却被射正了足足71次(作为对比,库尔图瓦一个赛季34场也就被射正100次)。一旦某些场次状态爆炸,就会捞足正面加成:

(福莱肯扑救,xcg0.65)

(福莱肯扑救,xcg0.61)

此外,福莱肯的被射正样本里还出现了极大的干扰因素:队友帮你封堵出来的射门,在xcg系统里是算作你的“扑救”的,比如下图,福莱肯就靠着队友门线救险,捞到了足足0.89的加成:

(福莱肯“扑救”,xcg0.89)

严格来说,这其实是wyscout数据库的一个巨大漏洞,因为将xcg与“save”(扑救)数据结合起来难度并不大,但不知为何,这家连齐达内都在使用的数据网站始终没有做出这种调整。当然,还是那句话,样本足够大,这些问题都可以适当解决,但偏偏福莱肯的样本就是不那么大。这也是我们在使用数据的时候必须要注意的地方:它是很好用的工具,但一定要和录像相结合。

结语:限制对手射门得分率到底有多大影响?

我直说,限制对手射门得分率这个算法当然很不完美,它无法体现门将除扑救之外的其他职能,也无法规避很多小样本情况的影响,这些前文都写过了。

但是,研究数据是一个认知不断进步的过程。相比于之前那套“丢球数”、“零封数”的评价方式,结合xcg计算的限制对手射门得分率简直好出不止一个档次。你可以通过样本去尽力弥补这个算法中很多难以回避的硬伤,但丢球、零封这样的量化标准,则是基础逻辑就存在巨大问题。

另一个潜藏的问题是,大众对门将的态度实在有些太过宽容了。每每一遇到丢球第一反应就是“没跟住人”、“不好扑”,而打破这种印象,也是xcg这个高阶数据的一大意义。要知道,我们谈论门将水平的时候,不是那拿他和你我这些普通人比,而是和同行去比。那么用一个覆盖几十万次射正的系统,去量化所有这个行业所有人在面对不同射门质量时的表现,不就是最好的标准么?一次射门的xcg是0.25,那意思就是大样本中这种情况下,进球概率是25%,你应该有75%的概率能够化解他。这个标准对其他人适用,对某个特定门将也适用。

当然,我知道xcg还有很多问题,但它的意义是开创性的,它自身在不断完善,围绕它建构的限制对手射门得分率算法,也必然随之完善。

那么,就目前来看,限制对手射门得分率靠谱吗?它到底有多大影响?

毫不夸张的说,它比真实射门得分率还要更靠谱,甚至是我目前应用的所有进阶数据里最能匹配录像情况的,它的影响相当大。当然,前提是样本足够大。

这里放一张图(仍旧以凯泉水为例):

这是五大联赛所有球队19-20赛季被对手射门情况。横轴为累积的放给对手的预期进球数(xg而非xcg),纵轴为对手真实射门得分率(注意不是自身的限制对手射门得分率),圆点大小为对手射门次数,颜色为实际丢球数。

注意纵轴最上端,自成一档的那个队,是切尔西,而它在横轴中所处的位置其实相当靠左。也就是说,切尔西在对手射门之前的防守工作做得并不差(当然这得益于他们的高控球率),但射门形成之后,他们就自成一档的差了……

对手射门后,防守任务是谁的?当然是门将的。

当然,前文说了,凯帕的限制对手射门得分率“只不过”是五大联赛所有被射正40次门将中的第3,那比他更差的两人所在球队,为什么没有在纵轴上比切尔西更高?

很简单,因为凯帕出场了2923分钟,那俩人加起来也就出场了1943分钟……

那么为啥凯帕出场时间这么长呢?这又是另一件让人伤感的事:你花8000万买个门将,你也会给他首发。更何况,你想换下他,他也不听你的。

哦对了,我为什么用洛里做封面?因为在我目前查到的顶级门将数据里,洛里的表现是最稳的,几乎每个赛季都能打出5%以上的限制对手射门得分率。而事实上,门将这个位置的波动幅度之大超乎所有人的想象,这可能是因为门将位置超长的职业生涯给大家造成的“门将稳定”的误解。截至目前,我认为他是最好的门将。

(花花午夜嚎叫)

花花专栏-足球,可以是一门科学