数据总结之球员篇(上):过去一个赛季谁的射门最多最准?

前言:再次科普一下xg与“真实射门得分率”

球队数据总结系列已经更新了6篇。每一篇里我都会用到一个概念:“真实射门得分率”。读者们对此有疑问也不是一两次了。实际上上赛季初我就已经介绍过这个自创的算法。这是一个基于高阶数据“预期进球数(expected goals,简称xg)”基础之上的算法,其目的是量化前锋修正射门难度的能力。这里我们先科普一下什么是“预期进球数”。

其实最近两年,国内网络上对这一数据的介绍已经非常多(大多会翻译成“进球预期值”),其中不乏一些持证教练和解说给出完全错误的科普……据我所知,这个数据最早应该是由OPTA公司提出的,后来很多公司也都投身其中,这也导致目前的xg数据源非常多,好在各家公司的核心思路都差不多,只不过系数和算法存在微小差异。这里我们先介绍一下思路。首先给大家看一个opta官网上的xg数据介绍视频里截下的动图:

这个视频很多博主在科普xg数据时都会使用,它揭示出了xg数据的本质——在射门发生之前一瞬间,不考虑射门质量,只根据射门环境,量化这次射门的进球概率。换言之,你可以理解为,它量化的是“射门的难度”。

当然,上面这个视频所参考的因素非常少。但是在过去两年里,xg算法所考虑的元素是不断增加,比如微博上一些博主在每场比赛后更新的球队xg数据,用的就是荷兰足球网站between the post的数据,而根据其兄弟网站(就是同一个老板创立的专门讨论足球理论的网站)11tegen11的介绍,他们在计算xg时参考了很多元素,包括射门位置(包括距离和角度)、射门前的传球情况(是否为传中、经过了多少脚传球、是否是断球后立即发起的进攻)、持球操作情况(是否经历了过人、是否过掉了守门员、是否属于OPTA界定的“绝佳机会”)等等。此外,各家数据源所用的样本库也不同。opta是过去30万次射门,而我常用的wyscout则用的是过去5年的所有射门。这些都会对xg量化造成一定的差异,但这个差异非常小。

如果我们认清了xg的本质是“射门难度”,那么,下一个推论就产生了:我们可以利用它,来量化“球员修正射门难度的能力”。说白了,打进一个进球概率为35%的射门,肯定比打进一个进球概率为65%的射门更难。这就有了我所提出的这个“真实射门得分率”的算法,公式是(实际进球数的总和-预期进球数的总和)/射门次数*100%,其内涵是:球员(或者球队)在平均每次射门中,对进球概率的修正值。当然,当预期进球多于实际进球时,计算结果会出现负数。

举例来说,下图马夏尔的射门,xg是0.04,也就是说根据过去5年的所有射门来计算,不考虑射门质量,马夏尔在这种环境下起脚射门,进球概率为4%:

那么,马夏尔打进了,他在这次射门中所收获的“真实射门得分率”在分子方面的奖励就是0.96。这是一个了不得的数字,在这个算法下,这种世界波会给球员的真实射门得分率带来极大加成。反之,你在门前打进一球,那么收获的奖励就有可能极小,比如下图麦克戈德里克的进球,xg为0.83,他所收获的奖励就只有0.17:

当然,如果你打丢了很简单的射门,那么你在真实射门得分率算法中的损失也会极大,比如下图,贝尔纳代斯基的射门xg为0.56,他打丢了,净损失就是-0.56:

也就是说,这个算法规避了之前单纯用进球数量化球员射门能力的弊端。要知道,球员日复一日的练习射门,本就有“修正射门难度”的目的。将射门难度列入量化标准,本就是对“射术”这个概念的更深入认知。而且此举还有一个很方便的地方:传统方法考量射门时,会考虑把点球排除在外,因为点球进球概率太高。但引入xg则不用过多担心点球问题。点球的xg高达0.76,换言之,就算你打进了点球,最终收获的加成也很少,可一旦打丢,那么损失就会极大。

当然,这个算法不可能完美。首先,运气会成为很大的影响因素,比如你一脚射出去打在防守球员身上,比如门将本来稳稳扑到皮球结果黄油手,这都可能让本来很糟糕的射门转化为进球。其次,有些中后场球员一个赛季不怎么射门,突然在中圈来一脚吊射,把一个xg小于0.01的射门给打进了,那他的真实射门得分率难道要就此认定为99%?

然而上述两个问题都可以通过一个很简单的方法予以解决——大样本。运气球和高难度吊门之类的进球,原本就是小概率事件。只要我们把考察条件设定为射门数必须超过一定次数,让样本变得足够大,这些问题都可以得到很大程度的修正。

然而还有最后一个问题,却是“真实射门得分率”永远无法解决的——产量。

不难看出,这个算法计算的是“效率”,是每次射门对射门难度的修正值。但请大家牢记一点:考量任何技术环节,产量和效率都是同等重要的。因此,我们在用这个算法的同时,也一定要额外参考一下产量,比如射门次数。

所以接下来,我们要放4张圆点图,来看看英、西、意、德4大联赛(法甲比赛数量不够,样本不够大)在过去一个赛季,谁的射门最多,射的射门最准。

英超:奥巴梅杨效率封王,阿圭罗勉强最趋近产效兼顾

标准:19-20赛季英超射门次数超过40次的球员

横轴:每90分钟射门数

纵轴:真实射门得分率

圆点大小:总进球数

颜色:每次射门预期进球数(射门机会选择)

(由于我们把圆点大小设置为总进球数,因此,较小的圆点实际上多少可以忽略掉,只看较大的圆点即可)

奥巴梅杨的真实射门得分率是最高的,达到了8.40%。注意颜色,奥巴梅杨由于打了不少时间的边锋,实际上射门环境并不特别好,每次射门的xg为0.158,比起瓦尔迪低了不少。他最终能在出场时间差不多、射门次数不过稍多的情况下仅落后瓦尔迪1球,靠的就是强大的修正射门难度的能力。直到最后一轮,奥巴梅杨还在用小角度射门为自己拉高射门准星:

(奥巴梅杨,xg0.15)

英超这赛季严格来说缺乏兼顾产效兼顾的代表,纵轴顶端的几人每90分钟射门次数都不到3次。非要说有人能在质量与产量方面都交出不错答卷,恐怕只有一个阿圭罗。只可惜阿圭罗整季出场时间只有1559分钟。而这同另一个现象关系十分密切——注意右下角用红色阴影标注出来的那个人。热苏斯以每90分钟3.6次射门的频率,打出-6.73%的“可怕”真实射门得分率,排名倒数第4,成为英超“高产低效”的代表。下图二连黑,简直是在像某位斯姓队友挑战快乐之王的宝座:

(两次射门,xg分别为0.44和0.35)

此外要注意的是用蓝色阴影圈住的马内和瓦尔迪。利物浦说是本赛季英超射门最准的球队,实际上前场只有马内的射门表现比较好,萨拉赫和菲尔米诺射门准星都不怎么样,尤其菲尔米诺的真实射门得分率低至-5.57%,几乎与热苏斯同一档。而瓦尔迪则是英超所有射门选择较好(每次射门xg较高)的球员里,唯一射门准星出众的球员。事实上英超这赛季每次射门xg超过0.20的一共9人,除瓦尔迪真实射门得分率高达6.62%之外,就只剩下一个拉卡泽特(1.04%)的真实射门得分率为正数……

西甲:梅西产效兼顾,本泽马没那么强

标准:19-20赛季西甲射门次数超过40次的球员。其他要素与前图相通。

我们之前一再给大家强调过,有梅西和苏亚雷斯在,巴萨的进攻就不会差。他们这赛季境遇不佳的核心因素是防守而非进攻。事实上这一现象已经持续了很多年,结果巴托梅乌每年夏天在前场砸一个多亿,委实不知道他在想什么(近期看了一个报道说,巴萨高层对数据非常不重视,似乎得到了一些答案……)。

整季打下来,苏亚雷斯依旧是射门最准的西甲球员之一。像下图这种射门,捞足数据的同时其实也在帮助球队化腐朽为神奇,把不是机会的机会转化成了进球。

(苏亚雷斯,xg0.08)

而梅西在近两年能够打出极高的真实射门得分率,一定程度上源自于他人到中年后任意球技术精进,通常任意球直接射门的xg都不会太高:

(梅西,xg0.05)

这里必须再说一次:巴萨目前创造机会能力已经远不如从前,19-20赛季,他们38轮西甲打下来的预期进球数竟然和皇马相差无几,而皇马的进攻大家有目共睹,几乎就是便秘水平。巴萨能最终比皇马多出那么多进球,很重要的一个原因在于苏亚雷斯和梅西对射门机会的强行修正(当然,格里兹曼本就善于此道,因此即便下滑也有托底能力)。

皇马方面,上赛季备受赞誉的本泽马,实际上并未迎来职业生涯的真正“大年”,射门频率与真实射门得分率都只是西甲中上水准。能最终成为西甲射手榜第2,是因为他本身没有特别拉胯的环节,每次射门预期进球数也能排在西甲中上,加上出场时间长达3324分钟,最终累积出了21个联赛进球。

最近5年来,本泽马真正的“大年”是15-16赛季。那个赛季皇马射门次数拉满,本泽马作为C罗身边的僚机每90分钟也能捞到4.15次射门机会,最终靠着高达7.02%的真实射门得分率(放今年西甲吊打所有人),在区区2037分钟里斩获24球。之所以人们会习惯性的忽视那个赛季的本泽马,转而对上赛季的本泽马赞誉有加,纯粹是因为当时所有目光都聚焦在C罗身上,而现在的皇马则被打上了“后C罗时代”的标签而已。

此外,武磊的表现有些令人堪忧。-4.07%的真实射门得分率仅排在所有射门数超过40次的西甲球员的倒数第5。其实复赛前武磊的真实射门得分率一度达到-1.32%,虽然还是不合格,但比起18-19赛季已经有所进步了。但下图这次射门,减分确实太多。尽管我认为这次对方门将的表现原因更大,但要注意:在样本足够大的情况下,我们可以粗略地认为“门将开挂”的几率对所有人来说都是相等的。武磊没打进,那就是实打实的减分。

(武磊,xg0.66)

意甲:C罗依旧产量拉满,亚特兰大表现出众

标准:19-20赛季意甲射门次数超过40次的球员。其他要素与前图相通。

嗯,C罗还是那个C罗,以中等效率扛下大量球权,无论你喜欢还是不喜欢,用这种踢法达到这个高度,都是别人无法模仿的。

怎么说呢?我们将射门难度引入算法,对C罗的效率而言其实是有利的。要知道,传统的“射门转化率”算法下,C罗肯定永远是中下甚至末流。但如前文所述,这种算法是很不公平的。一次外围射门尝试确实进球概率极低,但它进球难度也大。作为足球数据爱好者,我本身并不提倡这种远射尝试,毕竟数据本身就会倾向于鼓励射门选择优化。但问题是,当球队进攻一筹莫展时,远射不失为一种可取的射门方式。而当引入射门难度考量后,C罗的那些远射其实减分并不多。比如下图,C罗确实打丢了,但其损失只有0.02而已:

(C罗,xg0.02)

此处的问题在于:C罗已经连着几年呈现出低开高走的趋势。如果我们计算意甲后20轮或者25轮的数据,C罗的数据会好看很多。比如C罗整季联赛中的真实射门得分率只有2.06%,但计算后25轮就是3.71%。在不清楚C罗赛季前体能储备训练方式的情况下,这个现象目前是外人无法解释的。

另外值得注意的是,亚特兰大贡献了意甲最能兼顾产量与效率的两位球员:伊利契奇和穆列尔。之前跟大家提过,赛季总节系列全部结束后,我会免费把自己整理的高阶数据放到直播吧,届时大家可以看看意甲的情况。真蓝黑这赛季其实相当令人扼腕叹息,攻守两端按xg衡量都是意甲最佳,战术层面绝对比尤文距离冠军更近,而伊利契奇和穆列尔的存在又意味着他们能够在进攻端把战术优势转化为进球优势。伊利契奇这赛季甚至干出来过这样的“鸡贼”事:

(伊利契奇,xg0.07)

至于他们为什么功亏一篑……下一篇做门将高阶数据总结时再说。

德甲:莱万本可以产效结合大神,奈何某队出了两个“禽兽”……

因德甲只有34轮,标准设置为射门次数超过33次的球员(其实应该设置成35次,但我想把某个bug人物放进来)。其他要素与前图相通。

别误会,“禽兽”、“牲口”之类的词,在我上高中的时候,是对班里学霸的称谓,我们只是带着嫉妒的心理去表述:他们不是人……

我们先来看莱万的。这里请大家不要被图片的形状误导,注意一下左边的刻度——我想说的是,如果不是有两个人人为拉高了纵轴顶端,莱万绝对不应该只是出现在纵轴中间位置。莱万这赛季真实射门得分率7.69%,放在西甲稳稳吊打其他人。以其产效结合能力来讲,今年的莱万是绝对配得上竞争金球的。拜仁的某些进球,说是莱万硬爆进去的都不为过:

(莱万多夫斯基,xg0.04)

那为什么莱万在纵轴里的位置这么低?注意顶端的绿色阴影——某支球队出了两个禽兽,太禽兽了……

桑乔,真实射门得分率17.08%;哈兰德,真实射门得分率16.52%……我很怀疑同一支球队出这么俩射门大神的记录,后面几年到底能不能被打破。此二人的情况多少有些不一样。桑乔是被很多人误读,认为他是什么持球天才,实际上桑乔和很多年轻人一样,只是做到了“痴迷与盘带”,并未做到持球质量兼顾。他的厉害之处在于射门太强,尤其擅长角度较小的情况下低射:

(桑乔,xg0.02)

同样的事哈兰德也干得风生水起,尽管他由于更经常出现在中路,每次射门的xg相对更高一些:

(哈兰德,xg0.08)

嗯,诸位知道在桑乔和哈兰德的加持下,多特这赛季的射门是什么水准吗?

放一张五大联赛所有球队的射门图:

横轴:射门总次数

纵轴:真实射门得分率

圆点大小:进球数

什么巴萨、拜仁……射门准星方面,在多特面前都是浮云……

结语

数据是不断发展、不断进步的,我知道这个世界上有很多人都在用一种“抱残守缺”的心态念叨着“这个算法真要是靠谱,为什么那么多联赛官方评金靴的时候都不用”?很简单,你查查金靴这个概念出来已经多少年了?在金靴奖设置的年代,不要说xg这种数据了,甚至连现在耳熟能详的“过人”、“抢断”统计都不一定有。这就好比唐朝人用弓箭打仗,是不是我们现在还是要用弓箭?数据只是工具,工具的目标永远都不是工具本身,而是提升我们的创造力与认知水平。

当然,真实射门得分率这个算法不可能是完美的,甚至这句话我在这篇文章里也是第二次说了。但是,也从没有任何一个研究数据的人说过数据可以反映一切客观真实。数据存在的意义在于:其进阶性越高,距离客观真实就越接近。它和看录像永远不冲突,而是互补关系。这次我做了4大联赛的数据图,请问世界上有任何一个人能做到认真看完4大联赛一个赛季所有比赛的录像么?绝对没有。而数据,做到了。

(花花午夜嚎叫)

花花专栏-足球,可以是一门科学