哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

小编 46 0

三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

长篇引言:什么是“预期进球数”,什么是“真实射门得分率”

在我之前的文章中,几乎每一篇与数据有关的,都会提到一个数据——“真实射门得分率”,评论区也有朋友问我这个数据究竟是怎么回事,我也有心做个科普。这其实涉及到一个问题:

如何量化球员射门能力?一直以来,媒体对该问题始终采取一种极为简单粗暴的方式:看进球数。进球数数据虽然简单,但存在档次差别之时仍旧很有意义。然而问题在于:我们无法从进球数当中,看出每次射门的难度如何,因而也就不清楚球员每次射门“克服难度”的能力。举例来说,下面两个进球,显然难度上大有差别,但在传统标准中,它们的价值是一样的,都是1个进球:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

当然,媒体会通过诸如“十佳球”之类的节目,给予谢尔维的世界波更高赞许。但每一脚射门的难度可能都存在差异,我们简单评选出10个,甚至100个“绝妙好球”,对于衡量大样本下多名球员的射门表现,远远不够。而且我们不清楚一名球员打进一脚世界波之余,又轰出了多少打空了的射门,或者附带了多少“保姆球”。因此,最好的方法,其实是量化每一脚射门的难度,从而给予射门质量本身更公正的评价。好消息是,我们拥有”预期进球“(Expected Goal,一般缩写为”XG“)这个数据。

事实上,这早就不是什么新鲜数据了,微博上很多博主甚至会在赛后第一时间更新每场比赛两队的预期进球数,当然他们大多会将之翻译成“进球预期值”(不过我自己看不出两种译法之间有什么本质差别)。其实这个数据存在很多版本,不同数据公司的算法存在细微差别,而且绝大多数具体算法是不公布的。微博上大多用的是Between the post网站的算法,其兄弟网站11tegen11则给出了一个大致的方向:它参考了射门位置(包括距离和角度)、射门前的传球情况(是否为传中、经过了多少脚传球、是否是断球后立即发起的进攻)、持球操作情况(是否经历了过人、是否过掉了守门员、是否属于OPTA界定的“绝佳机会”)等等因素,结合最近几十万次射门,用大数据计算出“在射门发生之前,这次射门的进球概率” ——注意,是射门发生之前,换言之,它量化的是“射门难度” 。比如刚才给出的两个进球:凯恩的门前补射,预期进球是0.77,而谢尔维的世界波,预期进球只有0.07。

当然,作为一个“射门前”的数据,预期进球数没法考虑一些意外情况,比如下面这球,由于防守方封堵特别严密,预期进球数只有0.01,但皮球反弹之后的诡异路线,竟然在门将毫无反应的情况下,飞向横梁:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

话说到这里,我们其实根本不用去纠结“没有公开的算法是否可信”这个问题,因为有可能即便数据公司想告诉你具体公式,他们也做不到——这种大数据算法有可能根本就没法形成一个具体公式。当这个数据产生之后,我们所要做的,是思考它究竟怎么用。其实它“量化射门难度”的根本性质,已经给我们指出了使用方向:有了难度量化,那么就一定有“克服难度能力”的量化,我们只需要在样本足够大的情况下,用每次射门的实际进球数同预期进球数做差,就可以得出一个球员“对射门难度的修正能力”。

因此,我自己得出了一个“真实射门得分率”的概念 ——之所以起这么个名字,纯粹是因为我不知道如何给它命名而已。其公式是:“真实射门得分率=(实际进球数-预期进球数)/射门数*100%”。 由于每次射门的实际进球数只有0和1两种可能性,而预期进球数,即便我们取小数点后两位,也有99种可能,因此这个算法中最大的变量在于预期进球数。显然,少量高难度射门造成的影响不会太大,然而一旦打进就是巨大加成;反过来说,总是进一些保姆球或者点球,那么最终真实射门得分率也不会太高。

当然,除了数量极少可以忽略的乌龙球之外,射门其实是足球场上取得进球的唯一方式;而足球又没有24秒规则,比赛双方的进攻机会很可能是不对等的,因此,开发出更多射门也很重要。对射手来说,产量与质量是最好能够兼顾的两个维度。所以,我们在进行量化时,也要注意射门次数的叠加——注意,对一个优秀射手来说,多射门是好的,尽管我们没法量化“产量”与“质量”之间的关系。此外,还有一个重要因素是“出场时间”。

接下来,我们用3张散点图,简单明了的看看本赛季英超(16轮)、西甲(15轮)与意甲(15轮),谁最能射。样本选择wyscout给出的射门榜前30。

第一张图,告诉你英超谁最能射

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)

英超其实大家普遍开火权都不是太多,最多的阿圭罗,每90分钟射门不过4.14次。整个联赛中,最能兼顾射门产量与质量的,还是瓦尔迪。严格来说此人射门并不十分频繁,只不过真实射门得分率达到了夸张的16.54%(上赛季的梅西不到8%),当然这个数据肯定会回调,但即便大幅下降,也仍旧是一个极高的数字。 加上其目前总出场时间长达1547分钟,最终累积出高达17个进球,也就不难理解了。

值得注意的是纵轴最顶端的阿里和谢尔维,他们能出现在这个榜单中,很大程度上是小样本、低门槛的情况下,导致的数据“失真”。 谢尔维打到现在射门只有19次,阿里更少,只有12次。极少数射门轰进一两个难度较大的,对真实射门得分率的加成实在太过恐怖。比如下面两球,阿里和谢尔维的射门,预期进球分别只有0.15和0.07:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

当然,这样的进球,尤其是谢尔维的进球,很难长期得到延续。当然还有一种可能是,谢尔维接下来很少射门,那么他的真实射门得分率就会一直停留在一个极高的水准上;但是,30轮候我们再去看,很可能二人会因为进球数太少,直接被排除在考量范畴之外。

此外这里要提醒大家两点:其一,最终决定进球数的,不仅仅是射门准星与开火权,第三个变量“出场时间”也很重要;其二,我们这个图针对的仅仅是射门量化,诸如持球推进、过人、传球等等进攻环节,并不在考虑范围之内。这两点其实存在一个共同的典型案例,就是孙兴慜。 韩国天王每90分钟射门次数与真实射门得分率其实比之上赛季都有所下降,而射门难度则基本持平。真正导致这赛季输出增加的,是他作为绝对主力,本赛季出场时间暴涨;同时,他所扛起的大量持球推进重任,则又与本图无关。

第二张图,告诉你西甲谁最能射

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)

西甲方面,梅西毫无疑问一枝独秀,产量最高之余,连质量都是榜单中的第2名。 这其中由以其18.00%的真实射门得分率最为恐怖——刚才我们提到谢尔维凭借少数射门打出超高的真实射门得分率,也不过19.16%而已,要知道,梅西的射门数可是2倍于谢尔维的。

事实上,梅西最终以一球优势力压本泽马暂居西甲射手榜首位,凭借的正是真实射门得分率上的巨大优势——二人每90分钟射门数相差无几且分居西甲前2位,出场时间上本泽马则大幅领先,梅西纯粹是高难度射门的把握度更高。

其实梅西此前尽管射门准星也不错,但也不至于高到这个程度。这两年之所以突然之间扶摇直上,原因我在《数据告诉你,梅西在转型后的升华》一文中已经说过,梅西这两年精进了禁区前的射门和任意球,尤其是后者,每打进一个都是巨大加成。比如下面这两球,预期进球数分别只有0.07和0.05,显然对梅西的真实射门得分率加成极大:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

另外值得关注的是苏亚雷斯与本泽马。两人单位时间内的开火频率与射门准星相差不多,导致二人进球数差3个的主要原因在于,本泽马出场时间比苏亚雷斯多出300分钟。但如果我们对比二人进5年来的数据,就会发现他俩其实是一个上行,一个下行。 我们把二人近4年来的数据做成散点图,分别做一分析:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)

显然,总体而言苏亚雷斯确实是在衰退的,15-16赛季是其兼顾“质”、“量”的典范,那个赛季MSN组合也算得上风光无限。而随着内马尔出走,苏亚雷斯的所能够获得的射门机会直线下降,其自身的射门准星,即便不看数据,这两年的回调也是看得见的。事实上相对而言,他在本赛季还算是状态有所回升,这也是场面上看得见的。

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)

本泽马的情况则不同,此人同样在15-16赛季达到兼顾质与量的巅峰,然而随即便迅速滑落,尤其是17-18赛季,他飘在外面搞什么“策应”宁死不进禁区的做法,其实是连球队带自己一块坑,要知道当时贝尔已经失去主力位置,C罗一个人在禁区内孤立无援,本泽马再“拉空禁区”已经毫无意义。加之本身就不擅远射,最终射门次数与射门准星创下“双低”。然而本泽马的聪明之处就在于十分擅长做自我总结,自18-19赛季起,他仿佛一夜之间意识到“我是中锋”,结合C罗离队的契机打开封印,一个劲往禁区里钻,禁区内触球频率创下新高的同时,也把射门产量与质量通通打了上去。

此外还有一个人必须要提一句的人——格里兹曼。格里兹曼此前几个赛季一直是真实射门得分率方面的超级大神,放眼世界足坛,恐怕没人比格里兹曼更理解“中产高效”这句话的含义。此人几乎不会尝试任何难度极大的射门,但中等难度的射门一旦放在眼前,基本上手到擒来,鸭子煮到三成熟就觉不会再让它飞走。然而本赛季环境突变,格里兹曼动辄在左边路靠着不很擅长的爆发力讨生活,在要求他用左脚维持超高的真实射门得分率已经有些强人所难。饶是如此,此人打出5.07%的真实射门得分率,倘若能维持到赛季结束,也依然是一个不错的数据了。

第三张图,告诉你意甲谁最能射

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

(横轴为每90分钟射门次数,纵轴为真实射门得分率,圆点越大,代表出场时间越长)

意甲方面,目前自能兼顾产量与质量的无疑是射手榜上的头名因莫比莱,他在纵轴上看上去不那么领先,纯粹是因为特奥和若奥·佩德罗在小样本下打出了过高的准星而已。 而且,因莫比莱和瓦尔迪相似的一点是是出场时间不少,开火权、准星与时间3个维度共同作用之下,打出超高的进球数也就自然不在话下了。此人远射不多,射门分布多在禁区之内,原本这对于真实射门得分率的累积并不十分有利,毕竟所有的射门距离球门都很近,意味着预期进球数会提升。但因莫比莱本赛季有一项绝活是:善于在封堵之下射门,这对于真实射门得分率的正面加成不容忽视。比如下面这球,预期进球数只有0.11:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

另一个焦点人物自然是C罗。我知道他目前的境况不是很好,从图上看,这赛季他在联赛中的表现也确实有些“高产低效”,真实射门得分率甚至已经跌入负值。 这里必须要说的是,尽管偶尔来上一两脚远射,对真实射门得分率不会产生太大影响,但如果如此尝试多了,累计起来就会成为相当大的负面因素。本赛季C罗的射门选择确实显得有些不太合理,远射实在是太多了些。这里我们给出C罗本赛季到目前为止,联赛中的射门分布图:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

实话实说,这里面的远射实在太多了些,有的甚至分布在边路,这些选择确实是有待商榷的。像下面这两脚射门,预期进球数分别只有0.02甚至0.00(对你没看错)。的确,一旦打进的话加成极大;但偶尔为之没问题,尝试的太多就是另一回事了:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

其实C罗蛮可以主动做一些调整,比如多去门前抢点 ——千万不要小看了门前抢点对真实射门得分率的积累作用,要知道,决定每次射门预期进球数的不仅仅是距离球门的距离,角度以及接到传球的方式甚至射门部位,都会产生极大影响。下面这球虽然距离球门很近,但防守球员的对抗干扰结合角度封堵,加之又是边路传中和头球(通常这两个元素会被认为不很利于进球),最终与其进球数只有0.09。C罗打进了,那就是巨大加成:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

当然,我不是说一名球员的存在应该为某一项高阶数据服务,而是说:这脚射门既然被一个参考过去几十万次射门的大数据算法界定为进球概率只有区区9%,那就说明这种射门的难度其实非常大。而C罗恰恰又非常擅长此道。那么,他更为合理的做法显然是充分发挥长处,多去门前抢点。

不过,需要注意的是,C罗最近几年的生涯呈现出极为诡异的走势,似乎年过而立之后,他开始有意调整自己在一个赛季中的体能分配——联赛开局阶段,C罗的射门准星基本没好过,后面会有所回调;更重要的是,他在欧冠当中的表现,要比联赛好得多。 我们把C罗最近5个赛季以来联赛和欧冠上的真实射门得分率,做成柱状图进行对比:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

说实话,C罗欧冠和联赛上的差别真不是一星半点的大。这里我不想用什么“关键时刻大心脏”之类毫无十几根据的词汇去描述,因为一来联赛同样关键,二来我们没有球员身体激素分泌数据,根本没有研究球员心态变化的一手资料,三来如果将所谓的关键时刻全部筛选出来,样本会小到失去量化意义。此时去谈心态,连隔岸观火多算不上。我只能根据这个履历去猜测:或许C罗本赛季依旧能够打出欧冠与联赛上的巨大反差。

事实上我们不管如何分析,都一定要注意一个客观事实:一个将所有球员都放在一起进行比较的数据模型,是不会考虑球员年龄的。C罗马上就要35岁了,倘若我们把这个年龄段的球员全部集中起来考核,大概率是我们连一张丰满的图都做不出来,因为多数人在这个时候,想进入榜单都是一件难事。其实我们每个人都知道,自己总有一天会老;会从一个热血青年,变成看着下一代茁壮成长,然后擦擦汗闷头继续工作,为老婆孩子多挣上百十块钱,将年轻时的诸多梦想暂时压抑起来——我们会老,职业生涯更短的运动员,为何不会?

所以,我一方面相信C罗一定能适当的把射门准星调回来,另一方面也清楚的知道,有些事其实可以用来研究,可以用来珍惜,但不太适合用来“黑”。我的偶像劳尔,在35岁的时候,已经去卡塔尔踢球了。

(花花午夜嚎叫)

4张高阶数据图告诉你,4大联赛哪个门将扑救又多又好

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

大约10天前,我发布了一篇用高阶数据“真实射门得分率”量化前锋的文章:《三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量》,可能是因为作图的缘故,有幸得到大家捧场。今天,我们用相似但不完全相同的方法,来量化一下英、西、意、德4大联赛的门将,看看哪个门将遭遇对手射正的考验最多,哪个门将在化解险情方面做得最好。

超长引言:什么是XCG?什么是“限制对手射门得分率”?

其实,类似概念本赛季初,我就已经在直播吧做过普及(详见高阶数据报告:如何量化门将能力?纳瓦斯比库尔图瓦强在哪?)只不过当时一来没有本赛季的数据作为近期样本,二来并没有采取散点图的作图方式,把每个联赛的所有门将放在一张图里,实现数据可视化阅读,因此只能就事论事的讨论几个名气较大的门将。我们知道,球员在场上的表现必然存在起伏,数据层面的体现也必然随之变化,时隔三个月后再来专门看看本赛季的门将表现,并且再度系统的和大家聊聊队门将的量化,实际上很有必要。事实上,如此量化并且以散点图呈现出来,应当定期去做,这样才能清晰把握各个门将的发展态势。

首先,本量化方式采用的核心数据,是“预期失球数”(Expected Conceded Goal,简称XCG)。 这是一个和“预期进球数”有点类似但又存在很大不同的追踪数据。它的考量对象不是每一脚射门,而是每一脚“射正”。 换言之,一脚看起来质量极高、命中门柱的射门,其XCG是0;而一脚绵软无力,被门将轻松化解的射门,其XCG则肯定超过0——这一数据的价值观在于:所有门将的所有扑救,针对的都是射正的球门。事实上基础的数据统计也是如此,“save”这个概念,记录的都是“扑出对方命中目标的射门”。

一旦一脚射门射正,那么数据公司就会根据多角度录像,结合多个因素,比如射门速度、角度、距离、射门方式等,参考过去几年几十万次命中目标的射门的结果,用大数据计算出这次射门的进球概率,这就是XCG。注意:XCG与XG(即预期进球数)最大的不同在于,前者量化的是“射门后”;而后者量化的是“射门前”。也就是说,前者是对一脚射门射门质量的量化;后者则是量化射门的难度。 这里我举个。先看下面两张图:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

如果我问你,上面两脚射门,哪一个更难?那恐怕是个人都会说萨拉赫的远射要难得多。但这么说的前提是,我们问题的全部内容是“对射门球员而言,哪一脚射门更难”,也就是说,如果我们在这个语境下量化射门难度,我们所量化的,实际上是“射门前”的进球概率。XG在这方面给出了符合常规认知的结论:斯特林的近距离推射,XG为0.25,即进球概率25%;而萨拉赫的远射,xg仅0.04,即进球概率4%。

然而,如果我们换个角度,站在门将的立场上,结论就完全不一样:不考虑选位因素的话,斯特林的射门显然太正,且球速并不快;萨拉赫的远射则是公认的“世界波”。于是,如果我们问“对门将而言,应对哪一脚射门更难”,那量化结果也必然会完全不同。XCG给出的结论是:斯特林的近距离推射,XCG是0.48;而萨拉赫的远射,XCG却高达0.59。换言之,一个门将扑出萨拉赫的射门,比化解斯特林的推射,更值得褒奖。这也是wyscout网站把XCG作为“门将数据”而非“前锋数据”的原因。

讲白了,XCG的目的是告诉你:门将所面对的每次命中目标的射门,其扑救难度有多大。XCG越高,扑救难度越大。

那么,有了XCG这个数据,我们该如何用它得出更进一步的结论?这里我“发明”了一个叫做“限制对手射门得分率”的概念,其核心目的是,计算“门将每次面对对手射正时,能够多大限度的降低对手的进球概率”。算法为:“限制对手射门得分率=(XCG-实际失球数)/对手射正数*100%”。显然,扑救难度越大,XCG越高,在这个算法中就越有优势。那些“神扑”,在这里的意义非常之大。

之所以“发明”一词带引号,是因为这个概念虽然确实是我自己提出的,但思路其实并不复杂,有可能国外甚至国内也有其他人也做过,我也欢迎大家去用这个算法分析更多联赛的数据。事实上已经有媒体用这个算法分析过中超门将了,当然,他们在用的时候,也确实注明了是我提出的。

以“限制对手射门得分率”为质的维度后,接下来就是“量”的衡量。这里我用的是“每90分钟对手射正次数”。 当然,你用“每90分钟扑救数”也可以,只是我更倾向于考量一个门将“遭受考验”的次数而非“尝试化解考验”的次数而已。每一个高阶数据都代表着数据创立者的价值观,欢迎大家提出更多算法,让还在起步阶段的足球数据应用,变得更好。

另外需要指出的是:这个算法的目标并不是量化“谁是更好的门将”,而只针对扑救水平。诸如“出击”、“选位”甚至“辅助传控”之类的环节,并不在这个算法的考量范畴之内。 并且算法中也有一些没法解决的问题(文中会给出具体案例)。但数据从来都不是一个“可以说明一切问题”的绝对标准,它只是“具有重大意义”的工具。譬如螺丝刀永远不能用来代替钳子,但有了螺丝刀,你可以配合钳子,做出更好的产品。数据与录像从来都不冲突,它是对录像的补充。 所谓“不用数据,看球的都知道”,更多是抬杠,而非求知。

一 英超

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

横轴为“限制对手射门得分率”,纵轴为“对手每90分钟射正次数”,圆点越大,出场时间越长。这里我把纵轴做成了“量”,把横轴做成了“质”,是因为“量”的维度数据离散性相对更强,做成这种形状更有利于手机阅读。

此处一个令人有些遗憾的是:英超到目前为止最能兼顾“质”和“量”的门将——洛里——已经重伤。此人受伤前在队内的意义,可能丝毫不亚于孙兴慜。其实洛里长期以来都多少有点被低估,上赛季他的“限制对手射门得分率”是比这赛季还要更高的7.98%,是排在阿利松之后的英超第二门神,只不过每90分钟仅被对手射正3.86次,比起这赛季而言,经受的考验要少得多。而洛里这赛季被射正次数突然攀升,很大程度上也是拜热刺开局阶段难以解释的低迷防守所赐,球队动不动在中场一通逼抢失败后,没几个人回追补防,导致对手在极具威胁的地带形成射门。这也给足了洛里表演机会。比如下图,xcg高达0.61:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

另外,英超今年出现了一个比较特殊的现象:横轴最顶端的两大门神——小舒梅切尔和西班牙鬼才瓜伊塔,看起来都打出了极为恐怖的“限制对手射门得分率”,但这其中却有一定的运气成分,尤其是瓜伊塔,超过10%的惊人数据下,有一些“扑救”其实是非常偶然的。我们来看下面两个图:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

两次射门的XCG都是高的吓人的0.80——要知道射正的点球也才0.81,而且,舒梅切尔和瓜伊塔也确实没让对手攻破城池,但问题是,这两次射门并不是他们扑出来的,而是队友在门线上给挡出来的。这就是XCG在统计时存在的问题,它并不考虑“扑救”这个动作是否完整发生,只是考虑射门到底有没有命中目标。 当然,如果样本足够大,这个缺点其实是可以忽略不计的,但问题是,我们很难讲现在的样本是否够大,尤其是在将一些出场时间较少的门将纳入考量范畴之后。

当然,这并不是说,舒梅切尔和瓜伊塔能够打出这样的数据,就是全凭运气。他们本赛季也确实有过非常精彩的扑救,下面两次射正,XCG分别为0.67和0.70。能化解这样的射门,所取得的加成是非常可观的:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

最后值得注意的是:一些名气极大的门将,本赛季几乎各种滑铁卢。这其中阿利松出场时间太少,未来回调空间还很大。但德赫亚、艾德森和凯帕就比较尴尬了。比如德赫亚,此人自18年世界杯开始突然之间从神界坠落人间,下来就一直很不稳定。下面两球,XCG分别只有0.18和0.36,漏掉这两球对德赫亚的负面影响非常大。他曾经赖以成名的惊人反应速度如今有所退步,而扑远射似乎也没怎么进步。

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

另一个值得关注的人是凯帕,以今年这个情况来看,切尔西创纪录的转会费至少目前是绝难值回票价了,说凯帕是英超最差门将都不为过。不过这里面一样有一定的运气因素——折射。来看下面两球:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

这两次射门其实都有变线,这对门将来说是极大考验。然而这两脚射门的XCG却分别只有0.04和0.08。我知道这很不公平,但问题是:目前没有任何数学建模可以准确反映这种折射变线的影响,你甚至说不清楚,射门后皮球在飞行过程中碰到防守球员,对门将到底有利还是不利 ——它确实让门将刚开始对球路的判断落空,确实让门将猝不及防;但问题是,折射也会减慢皮球的飞行速度,也有可能让一脚本来冲着死角去的射门,变成一个奔着门将去的抛物线。这就是当前已XCG为核心的一切算法都没法回避的问题。同样,足够大的样本会无限淡化这种运气成分的影响,但当样本没那么大时,这个运气因素,依然无法忽略。

2 西甲:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

横轴为“限制对手射门得分率”,纵轴为“对手每90分钟射正次数”,圆点越大,出场时间越长。

本赛季西甲基本上印证了那句话:弱队出门将。处于右上角最“光辉”区域的费尔南德斯与雷纳,分别效力于莱万特和马洛卡,两队分别是对手预期进球数(XG)西甲前两名的球队。尤其莱万特防守如同纸糊,如今能排在西甲第9,费尔南德斯可谓居功至伟。

而这俩队本赛季的一大特色在于,经常放给对手一大堆射门。这也是我一直主张不要用什么狗屁“零封”数据来衡量门将的原因之一:像雷纳和费尔南德斯这样的门将,一场比赛动不动要被对手疯狂射正十几次,所遭受的考验比豪门门将两三场的都多,以“零封”作为标准,本身就是对他们工作量上巨大区别的无视。 费尔南德斯本赛季已经被5支球队射正超过10次,而雷纳,则在代表马洛卡对阵巴萨时,被对手疯狂射正20次……指望他们“零封”对手,实在有些强人所难。反过来说,一旦引入XCG进行计算,那么即便丢球,我们也能够最大限度的认可门将的扑救水平。

比如下图:其实是皇马在一个回合内两次射门(中间的一脚算做了传球),第一次被扑出,第二次进球。这次费尔南德斯丢球了吗?当然丢球了。但谁能说他表现不好?维尼修斯两次射门,XCG分别高达0.68和0.66;费尔南德斯的“限制对手射门得分率”,在这回合中取得了巨大加成:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

另外值得注意的是三大豪门的门将:我只能说,在今年不大的样本下,西甲门将真的彻底变天了……库尔图瓦一扫多少个赛季以来以及本赛季初的颓势(你没看错,此人哪怕在切尔西时表现也不好,在马竞时期太过久远,数据没法查了),打出了近年来的最佳表现。而特尔施特根与上赛季排名欧洲前2的门神奥布拉克,本赛季却有些凉。这其中,皇马与马竞整体防守较好,门将经受的考验并不多;特尔施特根被射正的次数则相对多些。

具体而言,三人的情况又各不相同。

库尔图瓦方面,其实是很值得皇马球迷期待的,因为其限制射门对手得分率,是在本赛季初过后取得进步,最终出现了一个相对稳定的上升趋势:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

库尔图瓦最大的进步在于,他在面对对手反击时,表现的非常不错。结合皇马后防线站位经常比较靠前这一情况,库尔图瓦的这种表现,算得上是对球队的补充。下面两次射门,XCG分别为0.60和0.70,库尔图瓦能扑出来,无论对个人数据还是团队成绩,都是相当大的正面加成:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

奥布拉克方面,本赛季确实在小样本下存在一定程度的退步,尤其是一些中等难度的球,被奥布拉克很不应该地放掉了。比如下面这球,XCG只有0.37,以奥布拉克的水准,是不大应该放掉的:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

当然,奥布拉克作为西甲被射正频率第二低的门将,扑救样本仍旧有些小。随着样本增大,不排除他后续回调的可能。

最后是特尔施特根,此人同样也有些“点背”:他很多丢球,其实是视线受阻了。比如下面两球,xcg分别只有0.04和0.15,被打进球门对特尔施特根而言极为不利。从后续反应来看,特尔施特根应该是没有能够在第一时间看到皮球飞行轨迹的。

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量 哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

这就又涉及到XCG的另一个问题了:我们都知道视线被阻挡,对门将而言是极为不利的。但是,本方后卫在阻挡门将视线的同时,也封堵了对手的射门角度。 而封堵角度,在摄像机上是很容易清晰看出并予以量化的;但视线是否被阻挡,阻挡了多少?又该怎么判断? 现有技术条件下,这一点其实是根本没法深入考量的。特尔施特根也就是吃了这个亏。至于如何避免这种情况,还是那句话,任何高阶数据所最为需要的,都是足够大的样本。

3 意甲:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

意甲最大的看点颇有些令人唏嘘:尤文,就这样实现了门将的薪火相传——什琴斯尼是意甲最能够兼顾“质”与“量”的门将之一,而布冯,则可能是最差的……

实际上什琴斯尼这两年或多或少有些生活在布冯盛名的阴影之下,他与洛里相仿,都在上赛季打出了比本赛季还要好的水准,但本赛季由于球队整体防守下滑,导致表现机会增加。上赛季什琴斯尼打出了7.39%的超高“限制对手射门得分率”,只不过每90分钟被对手射正的次数只有2.92次;本赛季这一数据飙升到5.08次——光从这看,很多尤文球迷不满萨里,也确实是有原因的……

至于布冯,本赛季的表现真的是不能不令人感慨:即便是门将这个特殊位置,人也终究斗不过岁月。下图这脚射门,XCG只有0.17,布冯眼看已经扑住,却还是让皮球滚入网窝,这在他年轻——我说的年轻,可能是38岁以前——是不可想象的。

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

另外,令米兰球迷感情复杂的唐纳鲁马,本赛季的表现其实是不太合格的。当然,米兰的问题绝不仅仅是唐纳鲁马,他甚至根本不是米兰排名靠前的问题。这同样是一个令人唏嘘的是:曾几何时拥趸无数的豪门,如今千疮百孔。此时再去纠结一个唐纳鲁马,其实已经意义不大了。

4 德甲:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

德甲最受关注的球队当然是拜仁,恰好,门将位置也刚好是拜仁最近的一个很有趣的看点——照现在的态势发展,我真心觉得,几年前的剧情又会再次上演。拜仁会从沙尔克撸来一个相当优秀的门将,只不过这次顶替的,是上一次从沙尔克撸来的门将……

是的,诺伊尔本赛季出场时间不短,扑救表现却不甚理想,“限制对手射门得分率”是尴尬的-3.76%;与此相对的是,努贝尔却打出了体面的2.26%的“限制对手射门得分率”。下面这脚射门,XCG只有0.06,诺伊尔漏掉这种射门,相对其盛名而言实在有些不应该:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

当然,我承认诺伊尔在传控和覆盖面积上,仍旧是门将中的佼佼者。但问题是,如果最核心的本职工作做不好,是不是传控领域的加成,还那么重要?要知道,不是每个教练都像瓜迪奥拉一样如此看中传控,以本赛季展现出的扑救水准,诺伊尔是没法说自己一定能在任何情况下都坐稳主力的。相对而言,努贝尔这赛季的表现则显得“朝气十足”。下图两次射门,第一次扑救难度倒是不大,但紧接着对手第二次射正,XCG高达0.74,努贝尔的反应速度与身体素质,在连续的第二次扑救中,展现的淋漓尽致:

哔哩哔哩:球队高阶数据 三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量

其实,任何足球场上的位置都没有绝对稳固一说,逆水行舟不进则退是最为常见的现象。诺伊尔如果真被努贝尔代替,也大可不必觉得意外。

有一个事实可能会出乎大家意料:门将位置看似稳定,只是因为过去的“失球”、“零封”数据欺骗性太强(再次呼吁把所谓的“零封”数据彻底废弃掉,最多当做噱头) ,豪门门将动不动一整场不出汗,失球数当然少。以这种数据衡量,做到“看起来状态稳定”并不难;而屡屡建下奇功的弱队门将,则多有“哇这人开挂了”然后就被遗忘的经历。我们引入XCG来量化门将扑救水准,其用意也是颠覆这种欺骗性极强的传统评价体系。而如果你把一个门将近几个赛季的“限制对手射门得分率”给罗列出来,就会发现门将想维持稳定发挥有多难——这比前锋维系射门准星、中场维持传球成功率,难度大得多。

遗憾的是,XCG这项数据诞生的时间就不长,Wyscout更是只保留最近4个赛季的数据,诸如卡西利亚斯、布冯这些门将的限制对手射门得分率,我们已经无从查起。但足球数据的应用,本身就更多的是要着眼于未来。引入一个全新的分析工具,最大的意义在于修正过去的方法论,而不是验证过去的某个具体观点。

(花花午夜嚎叫)