#=========================================================================
# Jeu de données "decathlon" (code et  commentaires rapides des sorties)
#=========================================================================
library(FactoMineR)

data(decathlon)
head(decathlon)
##          100m Long.jump Shot.put High.jump  400m 110m.hurdle Discus Pole.vault
## SEBRLE  11.04      7.58    14.83      2.07 49.81       14.69  43.75       5.02
## CLAY    10.76      7.40    14.26      1.86 49.37       14.05  50.72       4.92
## KARPOV  11.02      7.30    14.77      2.04 48.37       14.09  48.95       4.92
## BERNARD 11.02      7.23    14.25      1.92 48.93       14.99  40.87       5.32
## YURKOV  11.34      7.09    15.19      2.10 50.42       15.31  46.26       4.72
## WARNERS 11.11      7.60    14.31      1.98 48.68       14.23  41.10       4.92
##         Javeline 1500m Rank Points Competition
## SEBRLE     63.19 291.7    1   8217    Decastar
## CLAY       60.15 301.5    2   8122    Decastar
## KARPOV     50.31 300.2    3   8099    Decastar
## BERNARD    62.77 280.1    4   8067    Decastar
## YURKOV     63.44 276.4    5   8036    Decastar
## WARNERS    51.77 278.1    6   8030    Decastar
# l'ACP est réalisée avec:
  # les résultats aux 10 épreuves du décathlon en variables actives
  # les deux variables quantitatives Rank et Points en illustratives
  # la variable qualitative Competition en illustrative

pca.deca <- PCA(decathlon, quanti.sup = 11:12, quali.sup = 13, graph=FALSE)  

                                                   
# Etude du nombre d'axes à retenir    
                     
round(pca.deca$eig, digit=3) 
##         eigenvalue percentage of variance cumulative percentage of variance
## comp 1       3.272                 32.719                            32.719
## comp 2       1.737                 17.371                            50.090
## comp 3       1.405                 14.049                            64.140
## comp 4       1.057                 10.569                            74.708
## comp 5       0.685                  6.848                            81.556
## comp 6       0.599                  5.993                            87.548
## comp 7       0.451                  4.512                            92.061
## comp 8       0.397                  3.969                            96.030
## comp 9       0.215                  2.148                            98.178
## comp 10      0.182                  1.822                           100.000
# Commentaires rapides : si l'on se base sur le critère de Kaiser, il y a 4 valeurs propres > 1, donc il faut conserver
# 4 axes factoriels pour la suite de l'étude.
# On pourra regarder les plans factoriels 1-2 et 3-4 par exemple.
# Le plan principal 1-2 permet de récupérer 50,09% de l'information (inertie ou variance expliquée).
# Le plan 3-4 permet d'expliquer environ 25 d'inertie (ou variance) supplémentaire.
# En conservant les 4 premiers axes factoriels, on récupère donc près de 75% de l'information.

# Du point de vue des variables, quelles informations ressortent sur les plans 1-2 et 3-4 ?

plot(pca.deca, choix="var",main="Correlation circle")

plot(pca.deca, choix="var",axes=c(3,4),main="Correlation circle")

# Quelle est la qualité de représentation de "High.jump" sur le plan 1-2 ?
# Sur quel plan factoriel, la variable "High.jump" serait-elle la mieux représentée ?

round(pca.deca$var$cos2,digit=3) # affiche les cosinus carres des variables
##             Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 100m        0.600 0.035 0.034 0.001 0.091
## Long.jump   0.550 0.119 0.033 0.010 0.001
## Shot.put    0.388 0.358 0.001 0.036 0.012
## High.jump   0.327 0.123 0.067 0.018 0.309
## 400m        0.462 0.324 0.017 0.001 0.008
## 110m.hurdle 0.557 0.052 0.009 0.085 0.027
## Discus      0.305 0.368 0.002 0.067 0.011
## Pole.vault  0.003 0.033 0.479 0.304 0.109
## Javeline    0.077 0.100 0.152 0.507 0.093
## 1500m       0.003 0.225 0.612 0.026 0.024
# Graphiques des individus sur les plans 1-2 et 3-4
# (individus colorés selon la compétition)

plot(pca.deca, choix="ind", habillage= 13)

plot(pca.deca,choice="ind",axes=c(3,4), habillage= 13)

# Pour voir la qualité de représentation des individus sur les axes factoriels :

round(pca.deca$ind$cos2,digits=3) # affiche les cosinus carres des individus
##             Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## SEBRLE      0.112 0.106 0.122 0.246 0.089
## CLAY        0.124 0.027 0.373 0.010 0.317
## KARPOV      0.160 0.020 0.332 0.299 0.055
## BERNARD     0.049 0.100 0.104 0.646 0.017
## YURKOV      0.038 0.499 0.165 0.084 0.172
## WARNERS     0.022 0.482 0.100 0.059 0.170
## ZSIVOCZKY   0.011 0.182 0.250 0.400 0.000
## McMULLEN    0.053 0.008 0.027 0.354 0.010
## MARTINEAU   0.284 0.022 0.038 0.021 0.178
## HERNU       0.306 0.031 0.091 0.014 0.007
## BARRAS      0.472 0.025 0.000 0.109 0.026
## NOOL        0.394 0.277 0.128 0.003 0.049
## BOURGUIGNON 0.857 0.002 0.095 0.015 0.005
## Sebrle      0.695 0.080 0.004 0.161 0.006
## Clay        0.711 0.032 0.002 0.103 0.050
## Karpov      0.852 0.000 0.000 0.069 0.001
## Macey       0.423 0.092 0.295 0.047 0.081
## Warners     0.530 0.366 0.082 0.009 0.003
## Zsivoczky   0.130 0.207 0.332 0.099 0.116
## Hernu       0.238 0.115 0.242 0.005 0.121
## Nool        0.009 0.249 0.191 0.504 0.000
## Bernard     0.455 0.001 0.072 0.263 0.015
## Schwarzl    0.002 0.472 0.174 0.041 0.021
## Pogorelov   0.051 0.105 0.320 0.054 0.166
## Schoenbeck  0.004 0.000 0.170 0.267 0.226
## Barras      0.000 0.026 0.498 0.076 0.092
## Smith       0.061 0.090 0.216 0.101 0.326
## Averyanov   0.019 0.382 0.013 0.000 0.021
## Ojaniemi    0.026 0.109 0.025 0.086 0.046
## Smirnov     0.057 0.275 0.369 0.078 0.041
## Qi          0.061 0.034 0.368 0.013 0.092
## Drews       0.005 0.811 0.095 0.036 0.003
## Parkhomenko 0.094 0.361 0.082 0.194 0.007
## Terek       0.043 0.027 0.453 0.001 0.101
## Gomez       0.012 0.210 0.250 0.001 0.233
## Turi        0.252 0.019 0.028 0.002 0.000
## Lorenzo     0.471 0.203 0.183 0.007 0.038
## Karlivans   0.544 0.012 0.016 0.221 0.019
## Korkizoglou 0.058 0.270 0.423 0.090 0.041
## Uldal       0.757 0.007 0.020 0.000 0.183
## Casarsa     0.337 0.596 0.000 0.022 0.025