xg 与真实射门得分率:球队数据总结与预期进球数科普
发布时间:2024年06月05日 18:42
前言:再聊聊xg和“真实命中率”
球队数据汇总系列已经更新了6篇,在每一篇文章中我都会用到一个概念:“真实射门得分率”。读者对此有过不止一两次的疑问。其实我在上赛季之初就已经介绍过这个自创的算法。这是一个基于高层数据“预期进球(xg)”的算法,其目的就是量化前锋纠正射门难度的能力。这里我们先科普一下什么是“预期进球”。
其实这两年国内网上对这个数据的介绍已经很多了(大部分都翻译成了“预期进球值”),还有很多认证教练、评论员给出了完全错误的科普……据我所知这个数据应该是OPTA最早提出的,后来很多公司也加入进来,也导致了现在出现了大量的xg数据源。好在各个公司的核心思想都差不多,只是系数和算法上有些许差异,这里先介绍一下思路。首先我给大家看一张Opta官网上xg数据介绍视频的gif:
这个视频是很多博主普及xg数据时用的,揭示了xg数据的本质——进球概率是根据射门环境量化的,与射门质量无关,只在射门发生前进行量化。换句话说,你可以理解为它量化了“射门难度”。
当然,上述视频提到的因素很少。不过,近两年来,xg算法考虑的因素在增多。比如微博上有博主在每场比赛后更新球队xg数据,用的是荷兰足球网站the post的数据。据其姊妹网站(同一个老板创办的讨论足球理论的网站)介绍,他们在计算xg时参考了很多因素,包括射门位置(包括距离和角度)、射门前的传球(是否传中、传球多少次、是否是截球后立即进攻)、控球情况(是否传过、是否过掉门将、是否是OPTA定义的“绝佳机会”)等。另外,各个数据源使用的样本库也不同,OPTA是过去30万次射门,而我一般用过去5年全部射门。这些都会造成xg量化的一些差异,但差异非常小。
如果我们认识到xg的本质是“射门难度”,那么下一个推论就是:我们可以用它来量化“球员修正射门难度的能力”。说白了,35%概率射门肯定比65%概率射门难度大。这就是我提出的“真实射门得分率”的算法。公式为(实际进球数总和-预期进球数总和)/射门次数*100%,其内涵为:球员(或球队)对平均每射门得分概率的修正值。当然,当预期进球数多于实际进球数时,计算结果就会为负数。
比如下图中马夏尔的射门xg为0.04,也就是说,根据过去五年的所有射门,无论射门质量如何,马夏尔如果在这样的环境下射门,就有4%的概率进球:
随后,马夏尔进球了,他从这一射门中获得的“真实射门率”奖励在分子上是0.96。这是一个令人难以置信的数字。在这种算法下,这种世界波会给球员的真实射门率带来巨大的加成。相反,如果你在球门前进球,获得的奖励可能非常小。例如下图中麦戈德里克的进球,xg为0.83,他获得的奖励只有0.17:
当然,如果你错过了一个非常简单的投篮,你在 True Shot Rate 算法中的损失将是巨大的。例如,在下图中, 的投篮 xg 为 0.56,他错过了,所以净损失为 -0.56:
也就是说,这个算法规避了单纯用进球来量化球员射门能力的弊端。要知道,球员日复一日练习射门的目的,就是为了“修正射门难度”。将射门难度纳入量化标准,是对“射门”这个概念的更深层次理解。而这一招还有一个非常方便的地方:在考虑射门时,传统方法会考虑排除点球,因为点球进的概率太高了。但有了xg的引入,就不用太过担心点球了。点球的xg高达0.76。也就是说,即使进了点球,最后的奖励也很少,但一旦射失,损失就很大了。
当然,这个算法不可能完美。首先皇马西甲每年点球数最多,运气可能是一个很大的因素。例如,如果你的射门击中了防守队员,或者守门员试图接球但失败了,那么一次糟糕的射门就可能变成进球。其次,一些中场和后场球员可能一个赛季都没有射门太多,但突然间他们可以用一个中圈吊射进球,而 xg 小于 0.01。他们的真实射门得分率应该被认为是 99% 吗?
但上述两个问题都可以通过一个非常简单的方法解决——大样本量。幸运射门、高难度倒钩射门等进球原本就是低概率事件,只要我们设定射门次数必须超过一定数量的检验条件,并且样本量足够大,就能在很大程度上纠正这些问题。
然而,还有一个最终问题是真实投篮命中率永远无法解决的:产量。
不难看出,这个算法计算的是“效率”,也就是每一次击球对于击球难度的修正值。但请记住一点:考虑任何技术环节,输出和效率同样重要。因此,我们在使用这个算法的时候皇马西甲每年点球数最多,也要参考输出,比如击球次数。
那么接下来我们来放上4张点状图,看看英超、西甲、意甲、德甲四大联赛上个赛季谁的射门次数最多、射门准确率最高(法甲比赛场次不够,样本量不够大)。
英超:奥巴梅扬效率取胜,阿奎罗最接近平衡生产力和效率
标准:19-20赛季英超射门超过40次的球员
横轴:每 90 分钟的射门次数
纵轴:真实投篮命中率
点大小:进球总数
颜色:每次射门预期进球数(射门机会选择)
(由于我们将点的大小设置为球门总数,因此较小的点实际上可以忽略,我们只需要查看较大的点)
奥巴梅扬的真实射门得分率最高,达到8.40%。注意颜色。奥巴梅扬长期踢边锋,射门环境不是特别好,每次射门的xg为0.158,比瓦尔迪低很多。在出场时间相近、射门次数略多的情况下,他只落后瓦尔迪一球,这得益于他较强的射门难度修正能力。直到最后一轮,奥巴梅扬还在用小角度射门来抬高射门准度:
(奥巴梅扬,xg0.15)
严格来说,本赛季英超缺少能够兼顾产量和效率的代表。纵轴上方的球员,每90分钟的射门次数都不足3次。如果非要说有谁能在质量和产量上都交出好成绩,恐怕就只有一个阿奎罗了。可惜的是,阿奎罗整个赛季只打了1559分钟。而这又和另一个现象息息相关——请注意右下角用红色阴影标注的人。热苏斯以每90分钟3.6次射门的频率和-6.73%的“惨不忍睹”的真实射门率,排在倒数第4位,成为了英超“高产量低效率”的代表。下方两张连续的黑图,就像是名为Si的队友在挑战快乐之王的宝座:
(两次射门,xg 分别为 0.44 和 0.35)
另外注意马内和瓦尔迪被蓝色圈出,利物浦被誉为本赛季英超射门最准的球队,但实际上前场射门表现不错的只有马内一人,萨拉赫和菲尔米诺的射门准度都不太好,尤其是菲尔米诺的真实射门得分率低至-5.57%,几乎和热苏斯一个水平。瓦尔迪是英超所有射门选择好(xg per shot高)的球员中,唯一射门准度突出的球员,事实上本赛季英超总共有9名球员的xg per shot超过0.20,除了瓦尔迪的真实射门得分率为6.62%外,真实射门得分率为正的只有拉卡泽特(1.04%)......
西甲:梅西效率高,本泽马实力不强
标准:19-20赛季西甲联赛射门次数超过40次的球员。其他要素与上表相同。
我们一再强调,有梅西和苏亚雷斯在,巴萨的进攻不会差。本赛季他们表现不佳的核心原因是防守而不是进攻。其实这个现象已经持续了很多年。结果巴托梅乌每年夏天都要花上一个亿在前场,真不知道他在想什么(最近看了一篇报道,说巴萨高层不太重视数据,好像给了我一些答案……)。
整个赛季,苏亚雷斯依然是西甲最精准的射手之一,像下面这样的射门不仅帮助球队拿到了足够的数据,还帮助球队把坏机会变成好机会,把坏机会变成进球。
(苏亚雷斯,预期进球数0.08)
梅西这两年真实射门得分率高,部分得益于他中年以后任意球技术提升,通常直接任意球的xg不会太高:
(梅西,预期进球数0.05)
不得不再说一遍:巴萨创造机会的能力远不如以前了。19-20赛季,他们在38场西甲联赛中的预期进球数与皇马相差无几,而大家也看得出来皇马的进攻几乎便秘了。巴萨之所以能比皇马多进那么多球,一个重要原因就是苏亚雷斯和梅西对他们的射门机会进行了强行纠正(当然,格列兹曼擅长这一点,所以即便是下滑,也有能力撑住)。
至于皇马,上赛季备受赞誉的本泽马其实职业生涯并没有真正意义上的“大年”,射门频率和真实射门得分率都只是西甲中上水平,他之所以能最终成为西甲第二射手,就是因为没有特别差的环节,而他的预期射门得分率也排在西甲中上水平,此外他出场3324分钟,最终积累了21个联赛进球。
过去五年,本泽马真正的“大年”是2015-2016赛季。那个赛季,皇马射门次数最多,而作为C罗的边锋,本泽马每90分钟可以得到4.15次射门。最终,他以7.02%的真实射门得分率(为当年西甲最高)在短短2037分钟内打进24球。人们之所以习惯性地忽略那个赛季的本泽马,而赞美上赛季的本泽马,纯粹是因为当时所有人的目光都集中在C罗身上,而皇马如今被贴上了“后C罗时代”的标签。
此外,武磊的表现也有些让人担忧,他-4.07%的真实射门率在西甲所有射门超过40次的球员中,仅排在倒数第5位。其实在复赛之前,武磊的真实射门率就曾达到过-1.32%,虽然依然不合格,但相比18-19赛季已经有所进步。但下图中的那次射门,确实扣分太多了。虽然我觉得这次对方门将的表现更为重要,但需要注意的是,如果样本足够大,我们可以粗略地认为“门将作弊”的概率对每个人来说都是相等的。武磊没有进球,这是真正的扣分。
(武磊,xg0.66)
意甲:C罗依然发挥出全部实力,亚特兰大表现出色
标准:19-20赛季意甲联赛射门次数超过40次的球员。其他要素与上表相同。
好吧,罗纳尔多还是那个罗纳尔多,控球率高,效率中等。不管你喜欢与否,以这种打法达到这种水平是别人无法模仿的。
怎么说呢?我们在算法中引入了射门难度,其实这对C罗的效率是有好处的。要知道,在传统的“射门转化率”算法下,C罗肯定是会一直排在中间甚至垫底的。但前面也说了,这种算法很不公平。外线射门的尝试确实有很低的得分概率,但也很难进球。作为一名足球数据爱好者,我并不提倡这种远距离的射门尝试,毕竟数据本身就倾向于鼓励射门选择的优化。但问题在于,当球队进攻处于劣势时,远射是一种令人向往的射门方式。而当引入射门难度后,C罗的远射其实并不会丢多少分。比如下图,C罗确实射偏了,但损失只有0.02:
(中锋罗纳尔多,xg0.02)
这里的问题是,C罗这几年一直呈现低开高走的趋势。如果我们算一下意甲20轮、25轮之后的数据,C罗的数据会好看很多。比如C罗整个联赛赛季的真实射门得分率只有2.06%,但算上最后25轮之后,就是3.71%。在不知道C罗赛前体能训练方式的情况下,这种现象目前外人还无法解释。
另外值得注意的是,亚特兰大贡献了两名能够平衡意甲输出和效率的球员:伊利契奇和穆里尔。之前跟大家提过,等赛季总结系列结束之后,我会把自己整理的先进数据免费放到直播间,到时候大家可以看看意甲的情况。本赛季真正的蓝黑军团其实挺遗憾的,攻防两端都是意甲xg最好的,战术上肯定比尤文更接近冠军。伊利契奇和穆里尔的存在,意味着他们可以把战术优势转化为进攻端的进球优势。伊利契奇本赛季甚至还干了这么一件“偷懒”的事情:
(伊利契奇,预期进球数0.07)
至于为什么会失败......我会在下一篇文章总结门将进阶数据的时候讲到。
德甲:莱万多夫斯基本可以发挥出色,但某队却产出两头“野兽”……
由于德甲联赛只有 34 轮,所以标准设置是射门次数超过 33 次的球员(其实应该设置为 35 次,但是我想加个 bug 角色)。其他元素和上一张图一样。
别误会,我上高中的时候,班里最优秀的学生都用“野兽”和“动物”这样的词来称呼。我们只是出于嫉妒才用这些词:他们不是人……
我们先来看莱万多夫斯基。请不要被这里的图片形状误导,注意左边的刻度——我想说的是,如果没有两个人人为地将纵轴顶端抬高,莱万多夫斯基绝对不应该出现在纵轴中间。莱万多夫斯基本赛季的真实射门得分率为 7.69%,这在西甲中绝对比其他人要好。从产量和效率的结合能力来看,莱万多夫斯基绝对值得今年争夺金球奖。说拜仁的一些进球是莱万多夫斯基打进的,并不为过:
(莱万多夫斯基,预期进球数0.04)
莱万多夫斯基为什么在纵轴上的位置这么低?注意顶部的绿色阴影——某支球队有两个野兽,太野蛮了……
桑乔,真实射门得分率17.08%;哈兰德,真实射门得分率16.52%……我怀疑,同队两位射神之间的纪录,在未来几年内是否能被打破。这两人的情况有些不同。桑乔被很多人误解,认为他是控球天才。其实,桑乔和很多年轻人一样,只做到“执念盘带”,不顾及控球质量。他的强项在于射门力量大,尤其是小角度低射:
(桑乔,进球数0.02)
哈兰德可以轻松地做到同样的事情,尽管由于位置更靠中,他的每次射门预期进球数更高:
(哈兰德,xg0.08)
那么你知道本赛季多特蒙德在桑乔和哈兰德的支持下,射门水平达到什么水平吗?
以下是五大联赛所有球队的射门图:
横轴:拍摄总数
纵轴:真实投篮命中率
点大小:目标数量
巴萨、拜仁等球队,在射门准度方面和多特蒙德相比根本不算什么。
结论
数据在不断发展和完善。我知道这个世界上有很多人都在用一种“固步自封”的心态说“如果这个算法真的靠谱,那为什么那么多联赛在评定金靴奖的时候不使用它呢?”很简单,只要查一下金靴奖这个概念出来多少年了?在金靴奖设立的年代,别说是xg这样的数据了,就连现在大家熟悉的“传球”、“抢断”这些数据都可能还没有。这就好比唐朝人打仗用弓箭皇马西甲每年点球数最多,我们现在还需要弓箭吗?数据只是工具,工具的目的永远不是工具本身,而是提高我们的创造力和认知水平。
当然,真实投篮命中率算法不可能完美无缺,这甚至是我在这篇文章中第二次说这句话了。但是,研究数据的人从来没有说过数据能反映一切客观事实。数据的意义在于,越先进就越贴近客观事实。它与看视频永远不会冲突,而是相辅相成。这次我做了一个四大联赛的数据图。世界上有谁能把一个赛季四大联赛的所有视频都仔细看完?绝对没有。但数据可以做到。
(半夜花花嚎叫)
华华专栏-足球也可以是一门科学