2022年卡塔尔世界杯的第一轮小组赛,已经在众多惊诧、悲伤、惊喜的情绪中结束,而仅仅是第一轮的小组比赛,不断爆出的冷门就足以使人大跌眼镜了:

连续34场世界大赛不败的潘帕斯雄鹰——阿根廷,1-2负于世界排名51的沙特;

四届世界杯冠军得主的德意志战车——德国队,1-2负于从未进过8强的日本;

让无数强队忌惮的南美洲天蓝军团——乌拉圭,0-0被称为世界杯鱼腩的韩国队逼平;

自从揭幕战上卡塔尔打破了“世界杯揭幕战东道主必胜”的铁律,就预示了2022年卡塔尔世界杯注定是一场不平凡的大戏,也许世界杯冠军的宝座上会迎来又一位新王。

欢喜的背面一定是悲伤,此时一定有无数的球迷为自己的球队欢欣鼓舞,也一定有无数的球迷正在黯然神伤,最终究竟谁能捧起大力神杯,是众星璀璨的新人、还是老骥伏枥的旧主,没有人能猜得出,但我们或许可以从足球数据预测中窥得一二。

自从现代足球逐渐商业化之后,无数人开创了大数据分析模型来试图预测足球比赛的胜负,然而因为足球比赛的影响因素比吃饭喝水要复杂的多,球队阵容、球员能力、球员状态、球员心理、球队战术、球队磨合度、球队配合度等等,每一个因素的风吹草动,都会牵一发而动全身,影响最终的结果,预测的结果可能会与现实大相径庭。

这个大数据分析模型看起来复杂难懂,其实它有着朴素且美丽的魔力,能够“准确”预测几乎所有事件的发生概率,它的原理则更为简单,可以用几句话就解释清楚:

那么,这个事件就可以用泊松分布的公式进行解释,以足球预测为例,我们可以以“某队在一场比赛中进球”为事件,用K表示我们期望球队进几个球(事件发生多少次),用λ表示在一场比赛的时间内发生事件的平均数,这个我们可以通过每个球队世界杯上每场比赛的场均进球即可,最后得到一个概率图形,进而得出一个球队进1个球的概率、进2个球的概率、进N个球的概率分别是多少:

而正是因为足球是复杂多变的,不能仅仅用场均进球来估计结果,因此我们通过球队的场均进球、场均失球、场均胜率、场均败率、场均平率等数据来综合估算出一个球队的实力,当然这个模型就各有各的算法,我们就取最简单的“攻击力”模型。

首先就是解决数据的问题,好在所有国家队的数据都可以从网上进行下载,然后在excel中计算出每个球队进球的泊松概率:

然后我们将数据导入到专业的数据分析软件FineBI中,进行进一步的数据清洗和处理,首先就是对数据进行数据合并,按照世界杯小组赛的分组将不同的数据进行合并,组建出“某队对战某队”的数据格式,然后利用我们的“攻击力”模型,导入数据函数新建出几个数据列,表示球队的进攻力指数:

具体过程这里就不赘述了,数据清洗阶段结束后就要对数据进行可视化分析了,利用FineBI的可视化操作界面可以很轻松的组合出我们想要的数据,比如身价对比、夺冠对比、净胜球对比等等,最终美化一下就可以呈现出这样的效果:

最重点的是我们根据“进攻力指数”估算出了每个球队的进攻强度,然后利用泊松概率就可以算出每场比赛球队最可能的比分,这里我们用场均进球展示:

表中像卡塔尔这种第一次参加世界杯的国家,因为缺少历史数据参考,因此只能根据亚洲成绩将攻击力人为地设定一个值,所以是比实际实力要虚高的。

我们可以以G组为例,表格中的数据展示,喀麦隆对瑞士的净胜球大概率为-0.57,而瑞士对喀麦隆的净胜球大概率为0.71,即双方差距1.28个球;而现实结果中,瑞士与喀麦隆的成绩是1:0,与足球数据预测的相差无几;

足球数据预测,阿根廷对沙特的净胜球大概率为3.29,比分预测为3:0,而实际结果是1:2落败;

德国对日本的净胜球大概率为2.48,比分预测为2:0,而实际结果是1:2落败;

乌拉圭对韩国的净胜球大概率为1.06,比分预测为1:0小胜,而实际结果确实0:0被韩国逼平;

根据其他专业机构的预测数据现实,赛前沙特战胜阿根廷的胜利不足1%,然而种种因素却造就了本届世界杯上最大最大的冷门,也让阿根廷人品尝了亚洲足球的苦果。

用这个大数据分析模型继续推导可以模型出最终淘汰赛的最终结果,这里因为系统还需要优化就没有继续推导,但是在finebi里计算了一下,结果显示巴西本届世界杯夺冠的概率是最大的,概率与前几天疯狂流传的大数据机构预测机构相差不多:

加纳平均年龄只有24岁,绝对的青春风暴;而西班牙也只有25岁,这支斗牛士军团正在更新换代的关键期,以加维为代表将继续扛起伊比利亚足球的大旗;

巴西、比利时、阿根廷、克罗地亚的平均年龄都在27岁以上,阵中老将非常多,如内马尔、德布劳内、莫德里奇、梅西、迪马利亚等足球历史上闪耀的明星,都已进入了职业生涯末期,世人最不肯见英雄迟暮,但他们都将为了自己一生的理想而拼尽最后一秒。

数据是冰冷的,足球是温暖的,数据预测并不能取代和代表现实,赢负胜败并不全部,真正让我们着迷的是场上的22名球员、与场下的教练、球迷一起为追求理想而不断敲开紧闭的大门,奋力揭开幸运女神身上冰冷的面纱,而这正是足球、正是世界杯的魅力所在。

很显然在目前的信息时代,借助类似于FineBI的这些工具,可以让企业加速融入企业数据分析的趋势。备受市场认可的软件其实有很多,选择时必须要结合实际的情况。一般的情况下,都建议选择市面上较主流的产品,比较容易达到好的效果,目前企业数据分析BI软件市场占有率前列的,就是帆软BI软件——FineBI。

实时数仓和离线数仓都是数据仓库的不同类型,用于存储和管理企业的数据,但它们在数据处理和使用的时间、速度以及用途方面有明显的区别。 在介绍实时数仓…

老大难的数仓治理 “年年数据要治理,数据年年治不好”。 数仓治理的老大难,通常是跟着业务需求快跑,要不是数据零散在各个团队,或者是大家的研发规范有不同…

要说最近最火的东西,那必然是“首跳1620得金牌”的谷爱凌和“一墩难求”的冰墩墩。 已经实现“一户两墩”,正在冲击“一户三墩”的“青蛙公主”谷爱凌,属实在这次冬奥…

好久不写数据中台了,但是我发现大家都很感兴趣,今天就从数据中台的建设方针来解决各位的疑惑。 横向规划即在数据中台规划初期,需要打通企业各个业务系,打…

数据可视化应用是数据信息内在价值的终极展现方式,它运用各种数据图表将杂乱无章的数据信息有逻辑性的呈现在大家眼前,让用户寻找规律,发现问题,进而具体…

本文接上期《谈谈关于数据建模的思考(一)》,继续聊聊数据仓库模型! 数仓项目系列: 《详解数据仓库的…

数据仓库工程师就等于sql工程师?大错特错!一个好的数仓工程师,会的东西是非常非常多的,就拿报表来说,因为每个部门的数据口径都是不一样的,且分析维度也…

今天来说说大数据和商业智能这个行业的新职位:商业分析。 国内互联网领域,毫无争议是最主要就业方向。科技公司有最多的数据,而且很重视数据方面的应用。基…

随着信息分析系统的进步,企业业务规模的扩大,原有独立的业务系统模式在一定程度上成为了企业进一步搭建大数据软件平台的阻碍,也为企业的一体化信息分析系…

我经常在文章中讲,做数据分析离不开统计学知识,它为我们的数据分析提供理论基础,然而很多数据分析师在学习统计学知识时感到头疼,看了很多统计学的书籍,…

近两年,随着各行各业的数字化建设加快,数据分析的风刮的越来越大,除了专业的数据分析岗位,其他很多业务岗位也都开始要求有具备数据分析能力,比如财务岗…

数据可视化页面这么火的概念,你真的了解它是什么吗?本文对数据可视化页面进行全解析,包括数据可视化页面是什么,怎么制作,以及推荐用哪些工具系统制作。 …

简单好用,人人可用的企业级数据分析工具及BI平台!开启先进的分析与决策!

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注