#=========================================================================
# Jeu de données "decathlon" (code et commentaires rapides des sorties)
#=========================================================================
library(FactoMineR)
data(decathlon)
head(decathlon)
## 100m Long.jump Shot.put High.jump 400m 110m.hurdle Discus Pole.vault
## SEBRLE 11.04 7.58 14.83 2.07 49.81 14.69 43.75 5.02
## CLAY 10.76 7.40 14.26 1.86 49.37 14.05 50.72 4.92
## KARPOV 11.02 7.30 14.77 2.04 48.37 14.09 48.95 4.92
## BERNARD 11.02 7.23 14.25 1.92 48.93 14.99 40.87 5.32
## YURKOV 11.34 7.09 15.19 2.10 50.42 15.31 46.26 4.72
## WARNERS 11.11 7.60 14.31 1.98 48.68 14.23 41.10 4.92
## Javeline 1500m Rank Points Competition
## SEBRLE 63.19 291.7 1 8217 Decastar
## CLAY 60.15 301.5 2 8122 Decastar
## KARPOV 50.31 300.2 3 8099 Decastar
## BERNARD 62.77 280.1 4 8067 Decastar
## YURKOV 63.44 276.4 5 8036 Decastar
## WARNERS 51.77 278.1 6 8030 Decastar
# l'ACP est réalisée avec:
# les résultats aux 10 épreuves du décathlon en variables actives
# les deux variables quantitatives Rank et Points en illustratives
# la variable qualitative Competition en illustrative
pca.deca <- PCA(decathlon, quanti.sup = 11:12, quali.sup = 13, graph=FALSE)
# Etude du nombre d'axes à retenir
round(pca.deca$eig, digit=3)
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 3.272 32.719 32.719
## comp 2 1.737 17.371 50.090
## comp 3 1.405 14.049 64.140
## comp 4 1.057 10.569 74.708
## comp 5 0.685 6.848 81.556
## comp 6 0.599 5.993 87.548
## comp 7 0.451 4.512 92.061
## comp 8 0.397 3.969 96.030
## comp 9 0.215 2.148 98.178
## comp 10 0.182 1.822 100.000
# Commentaires rapides : si l'on se base sur le critère de Kaiser, il y a 4 valeurs propres > 1, donc il faut conserver
# 4 axes factoriels pour la suite de l'étude.
# On pourra regarder les plans factoriels 1-2 et 3-4 par exemple.
# Le plan principal 1-2 permet de récupérer 50,09% de l'information (inertie ou variance expliquée).
# Le plan 3-4 permet d'expliquer environ 25 d'inertie (ou variance) supplémentaire.
# En conservant les 4 premiers axes factoriels, on récupère donc près de 75% de l'information.
# Du point de vue des variables, quelles informations ressortent sur les plans 1-2 et 3-4 ?
plot(pca.deca, choix="var",main="Correlation circle")
plot(pca.deca, choix="var",axes=c(3,4),main="Correlation circle")
# Quelle est la qualité de représentation de "High.jump" sur le plan 1-2 ?
# Sur quel plan factoriel, la variable "High.jump" serait-elle la mieux représentée ?
round(pca.deca$var$cos2,digit=3) # affiche les cosinus carres des variables
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 100m 0.600 0.035 0.034 0.001 0.091
## Long.jump 0.550 0.119 0.033 0.010 0.001
## Shot.put 0.388 0.358 0.001 0.036 0.012
## High.jump 0.327 0.123 0.067 0.018 0.309
## 400m 0.462 0.324 0.017 0.001 0.008
## 110m.hurdle 0.557 0.052 0.009 0.085 0.027
## Discus 0.305 0.368 0.002 0.067 0.011
## Pole.vault 0.003 0.033 0.479 0.304 0.109
## Javeline 0.077 0.100 0.152 0.507 0.093
## 1500m 0.003 0.225 0.612 0.026 0.024
# Graphiques des individus sur les plans 1-2 et 3-4
# (individus colorés selon la compétition)
plot(pca.deca, choix="ind", habillage= 13)
plot(pca.deca,choice="ind",axes=c(3,4), habillage= 13)
# Pour voir la qualité de représentation des individus sur les axes factoriels :
round(pca.deca$ind$cos2,digits=3) # affiche les cosinus carres des individus
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## SEBRLE 0.112 0.106 0.122 0.246 0.089
## CLAY 0.124 0.027 0.373 0.010 0.317
## KARPOV 0.160 0.020 0.332 0.299 0.055
## BERNARD 0.049 0.100 0.104 0.646 0.017
## YURKOV 0.038 0.499 0.165 0.084 0.172
## WARNERS 0.022 0.482 0.100 0.059 0.170
## ZSIVOCZKY 0.011 0.182 0.250 0.400 0.000
## McMULLEN 0.053 0.008 0.027 0.354 0.010
## MARTINEAU 0.284 0.022 0.038 0.021 0.178
## HERNU 0.306 0.031 0.091 0.014 0.007
## BARRAS 0.472 0.025 0.000 0.109 0.026
## NOOL 0.394 0.277 0.128 0.003 0.049
## BOURGUIGNON 0.857 0.002 0.095 0.015 0.005
## Sebrle 0.695 0.080 0.004 0.161 0.006
## Clay 0.711 0.032 0.002 0.103 0.050
## Karpov 0.852 0.000 0.000 0.069 0.001
## Macey 0.423 0.092 0.295 0.047 0.081
## Warners 0.530 0.366 0.082 0.009 0.003
## Zsivoczky 0.130 0.207 0.332 0.099 0.116
## Hernu 0.238 0.115 0.242 0.005 0.121
## Nool 0.009 0.249 0.191 0.504 0.000
## Bernard 0.455 0.001 0.072 0.263 0.015
## Schwarzl 0.002 0.472 0.174 0.041 0.021
## Pogorelov 0.051 0.105 0.320 0.054 0.166
## Schoenbeck 0.004 0.000 0.170 0.267 0.226
## Barras 0.000 0.026 0.498 0.076 0.092
## Smith 0.061 0.090 0.216 0.101 0.326
## Averyanov 0.019 0.382 0.013 0.000 0.021
## Ojaniemi 0.026 0.109 0.025 0.086 0.046
## Smirnov 0.057 0.275 0.369 0.078 0.041
## Qi 0.061 0.034 0.368 0.013 0.092
## Drews 0.005 0.811 0.095 0.036 0.003
## Parkhomenko 0.094 0.361 0.082 0.194 0.007
## Terek 0.043 0.027 0.453 0.001 0.101
## Gomez 0.012 0.210 0.250 0.001 0.233
## Turi 0.252 0.019 0.028 0.002 0.000
## Lorenzo 0.471 0.203 0.183 0.007 0.038
## Karlivans 0.544 0.012 0.016 0.221 0.019
## Korkizoglou 0.058 0.270 0.423 0.090 0.041
## Uldal 0.757 0.007 0.020 0.000 0.183
## Casarsa 0.337 0.596 0.000 0.022 0.025