作为全球最受欢迎的体育运动,自然会吸引全世界无数球迷的目光。本文将对世界杯历史数据进行可视化分析。数据集是FIFA官方数据整理的基础数据表,本文数据集来源于天池。本文将对数据集WorldCupMatches进行数据可视化。该数据集包含了1930-2014年共20届世界杯赛事信息,涉及的信息可见“变量介绍”部分。
一 变量介绍
Year: 比赛(所属世界杯)举办年份
Datetime:比赛具体日期
Stage:比赛所属阶段,包括小组赛、16进8、半决赛、决赛等
Stadium:比赛体育场
City:比赛举办城市
Home Team Name:主队名
Away Team Name:客队名
Home Team Goals:主队进球数
Away Team Goals:客队进球数
Attendance:现场观众数
Half-time Home Goals:上半场主队进球数
Half-time Away Goals:上半场客队进球数
Referee:主裁
Assistant 1:助理裁判1
Assistant 2:助理裁判2
RoundID:比赛所处阶段ID,和Stage字段对应
MatchID:比赛ID
Home Team Initials:主队名字缩写
Away Team Initials:客队名字缩写
二 数据分析
2.1 每年现场观众人数最多比赛
opar=par(no.readonly=TRUE)
par(pin=c(7,10),mar=c(4.5,7,2,6))
bar5 <- barplot(c2$max_attendance,horiz=TRUE,
axes=F,col="#E64B35CC",
cex.names=0.8, #名称大小,即日期大小
space=0, #每个条的宽度。值越大越细,值越小越粗
main="历届比赛中最受欢迎的场次",cex.main=1.5,
xlim=c(0,190000),xlab="现场观众人数(单位:万)",ylab="年份")
axis(side=1,at=seq(0,190000,19000),labels=seq(0,19,1.9))
axis(side=2,at=0.5:20.5,labels=c2$Year,las=2)
text(rep(0,length(c2$Year)),bar5,
labels=paste0("比赛队伍:",c2$team,"\n","现场观众人数:",c2$max_attendance),pos=4,cex=1)
par(opar)
2.2 历届比赛中观众人数最多的比赛
opar=par(no.readonly=TRUE)
par(pin=c(7,8),mar=c(4,13,1,2))
bar6 <- barplot(new_order_WorldCupMatches$Attendance,horiz=T,
axes=F,names.arg="",space=0,
col=brewer.pal(n,"Set3"),cex.main=1.5,
xlim=c(0,190000),
main="历史最受欢迎的前十场比赛",xlab="现场观众人数")
axis(side=1,at=seq(0,190000,19000),las=1,font=1,
cex.axis=1,lwd=2,line=0)
axis(side=2,at=0.5:9.5,labels=new_order_WorldCupMatches$team,
las=2,cex.axis=1,font=2)
lab1 <- paste("team:",new_order_WorldCupMatches$team,"\n",