卡塔尔世界杯激战正酣,残酷的淘汰赛已拉开大幕。本届世界杯还创造了一项新的记录:国际足联(FIFA)稍早前指出,此次全球6个大洲都有球队跻身16强,在世界杯历史上尚属首次。在刚刚过去的小组赛阶段,亚洲球队的表现堪称亮眼,特别是日本队被分在了“死亡之组”E组中,赛前几乎没人看好他们的出线前景,更是没有人想到他们能以小组第一的身份晋级。
作为“亚洲之光”,日本队与世界强队正面交锋的实力有目共睹,这也让接下来的比赛充满了悬念。比如在本届世界杯的1/8决赛中,日本将与克罗地亚一战。从数据上看,日本队世界排名第24位,历史最好成绩仅是16强,但球员相对年轻,球队上下展现出了极强的凝聚力和斗志,把握机会的能力令人印象深刻;克罗地亚世界排名第12名,是上一届的亚军,中前场组合绝对顶级,但球员年龄偏大,从小组赛的表现来看,黄金一代的锋芒已不如昔。
是日本队再次反败为胜,奉献淘汰赛的首个“冷门”,还是克罗地亚队继续闪耀,复刻2018年的奇迹?不少人都有各自的理解和预测。
图源:零点有数
对于世界杯比赛结果的预测是最让人津津乐道的话题之一,比如当年名扬四海的章鱼保罗,曾猜中8场世界杯比赛结果,还有著名的“乌鸦嘴”球王贝利,也贡献了许多金句,希望病房中的他一切顺利。
如果说上面两位预测是靠玄学,那科技公司、咨询机构、投行的预测就“较真”得多。早在2014年巴西世界杯,谷歌、微软、百度等科技公司就开始采用人工智能预测胜负,到2018年俄罗斯世界杯时更是“八仙过海各显神通”,比如华为云据说就成功预测了64场比赛中的40场,准确率可谓惊人。
今年的卡塔尔世界杯,零点有数也来凑个热闹,争当一把“预言帝”,用算法来实现“神预测”(或者“打脸”)。
图源:零点有数
01
选择基础数据,构建模型框架
想要预测比赛结果,首先要做的是选择基础数据以用于构建模型框架。涉及足球比赛,特别是世界杯场次的预测非常多,常用的维度比如球队的参赛纪录、胜负记录、教练和球员数据、竞猜赔率,甚至点球记录等。考虑到信息获取的难易度,最终确定选取两项最重要的指标作为测算依据,分别是:历史赛事得分数据,包括比赛时间、参赛队伍、进球数等数据;FIFA男足世界排名历史数据,包括排名、累计积分、发布时间等数据。
02
对数据做预处理
预处理主要分为三步走:第一步是筛选,以双方近4年的历史赛事数据作为标尺;第二步是校验,将历史赛事得分数据与FIFA世界排名数据做一致性处理;第三部则是拼接:对于分析的目标赛事,匹配该场比赛时间之前两支球队的最新FIFA排名。
图源:零点有数
03
构造相关复合型指标
接着对各项数据对于模型的预测能力进行逐一分析。初步构造的变量包括但不限于:
●主客队最新FIFA排名的差值(比如伊朗与美国的差值为4);
●当前比赛日前(比如11月30日),在所有历史比赛日期中,主客队FIFA排名平均值的差异;最近的5场比赛中,主客队FIFA排名平均值之间的差异;
●当前比赛日前,在所有历史比赛中,主客队平均进球数之间的差异;最新的5场比赛中,主客队平均进球数之间的差异;
●当前比赛日前,在所有历史比赛中,主客队平均比赛得分之间的差异;最新的5场比赛中,主客队平均比赛得分之间的差异;
初步构造完成后,根据变量的概率分布特征,对生成的变量进行筛选。例如,对于获胜或失利的比赛,如果某项变量的概率分布差异明显,则认为该变量对模型具有一定程度的预测能力,反之,则预测能力较弱。经过对各项变量的不断重复计算,最终找出可用于预测比赛结果的变量组合。
图源:零点有数
04
选取合适的模型
下一步,选取合适的模型。将选出的变量数据分成训练集和测试集,对每一模型,调整其参数设置,如学习速率、最大深度等,比较不同模型在测试集和训练集上的表现。对于本次世界杯比赛的胜负预测,经反复比较,确定选用Logistic Regression(逻辑回归)、Gradient Boosting(梯度提升)、Random Forest(随机森林)、LightGBM等模型进行测试。最终,根据测试表现结果和复杂程度,选择Logistic Regression(逻辑回归)和Gradient Boosting(梯度提升)作为主要模型。从本届世界杯开赛以来各场的实际结果来看,Gradient Boosting(梯度提升)模型的预测准度相对更高。
图源:零点有数
05
使用最优模型,预测比赛结果
最后,使用最优模型,对比赛结果进行预测。争取世界杯每场比赛的胜利绝非易事,除了球队的硬实力外,球员的伤病、裁判执法的尺度乃至于临门一脚的运气都可能对结果产生意想不到的影响,因此,点有数利用优化后的模型,继续提升模型准确率。
正所谓实践是检验真理的唯一标准,模型准不准要用结果说话。在小组赛进程中我们截取了前16场比赛进行验证,零点有数的基础预测模型共“猜中”11场,准确率为68.8%,模型优化后,准确率直接上升到81.3%——摩洛哥vs克罗地亚、韩国vs乌拉圭的两场“意外”平局都实现了精准预测。在淘汰赛阶段,模型也成功预测了荷兰、阿根廷、英格兰和法国等传统强队的晋级。
对于日本和克罗地亚这场比赛,零点有数的预测模型判断“格子军团”克罗地亚队成功晋级(获胜概率58%),继续闪耀在卡塔尔的球场之上。日本队虽败犹荣,他们用实力证明了亚洲足球的快速发展,相信在未来的世界大赛中,亚洲球队也能“群星闪耀”。
总而言之,算法千变万化,预测只是提供了观察比赛的一个角度,足球比赛总是充满悬念,而这种不确定性恰恰是任何算法都难以解释的。终场哨声吹响前,一切皆有可能,这正是比赛的意义和魅力所在。
注:本文绝不构成任何投资建议,零点有数真诚建议各位放下功利心,轻松看待每场比赛,享受足球纯粹的快乐!
特别声明:所有资讯或言论仅代表发布者个人意见,全直播仅提供发布平台,信息内容请自行判断。