Pourquoi se casser la tête avec l'analyse factorielle au juste ?
Avant de plonger dans les matrices, il faut se rappeler pourquoi on fait ça. L'analyse factorielle, qu'on parle d'Analyse en Composantes Principales (ACP) ou d'Analyse Factorielle Exploratoire (AFE), c'est avant tout une technique de réduction de dimension. Imagine que tu as 50 questions dans ton questionnaire de satisfaction. Si certaines questions (disons, "Êtes-vous satisfait de la rapidité du service ?" et "Le temps d'attente vous a-il semblé court ?") mesurent fondamentalement la même chose — la perception de la rapidité —, il est inutile de les analyser séparément. L'analyse factorielle trouve ces structures latentes, ces fameux facteurs sous-jacents qui expliquent la majorité de la variance de tes données. C'est un gain de clarté phénoménal, car au lieu de gérer 50 variables, tu pourrais n'en gérer que 5 ou 6 facteurs interprétables.
C'est une question de parcimonie, je pense. On cherche l'essence. Si tu travailles avec des données très riches, par exemple en psychométrie où tu mesures des traits de personnalité, tu ne veux pas des centaines de corrélations confuses. Tu veux savoir si tes données se structurent autour des cinq grands facteurs classiques, ou si tu as découvert quelque chose de nouveau. Le "pourquoi" est donc de transformer une masse de données brutes en un modèle simplifié mais fidèle à la réalité observée.
La première chose à regarder : les valeurs propres et la variance expliquée
Quand le logiciel crache son tableau initial, la première chose qui saute aux yeux, ce sont souvent les valeurs propres (ou Eigenvalues). C'est là qu'on décide combien de facteurs on va garder. C'est une étape cruciale car si tu en gardes trop, tu n'as pas réduit la dimension ; si tu en gardes trop peu, tu perds trop d'information. La règle empirique la plus citée, c'est la règle de Kaiser : on ne garde que les facteurs dont la valeur propre est supérieure à 1. Je trouve cette règle un peu brutale, mais elle sert de point de départ solide, surtout quand on débute.
Une valeur propre de 1 signifie que ce facteur explique autant de variance qu'une variable originale standardisée. Si c'est en dessous, je me dis que ce facteur n'apporte pas grand-chose de plus que ce que tes variables individuelles apportent déjà. Ensuite, regarde le tableau de la variance cumulée expliquée. Si tes trois premiers facteurs expliquent 65% de la variance totale, c'est souvent considéré comme très acceptable. Si après 10 facteurs, tu n'atteins que 40%, il y a un souci, soit dans tes données, soit dans ton modèle d'extraction. Tu vois, il faut toujours se demander : "Est-ce que cette quantité d'information expliquée est suffisante pour mon objectif ?" C'est ça, la subtilité.
Décoder la matrice des saturations : le cœur du réacteur
Une fois que tu as décidé de garder, disons, quatre facteurs, tu passes à la matrice des saturations (ou coefficients de corrélation entre les variables originales et les facteurs extraits). C'est là que le travail d'interprétation commence vraiment, et c'est souvent là que les gens bloquent. Chaque cellule de cette matrice te dit à quel point une variable est liée à un facteur donné. Plus le chiffre est proche de +1 ou de -1, plus la variable est fortement associée à ce facteur.
Personnellement, j'ai remarqué qu'il est essentiel de fixer un seuil de signification. Certains statisticiens disent qu'il faut ignorer tout ce qui est en dessous de 0.4. Moi, je suis souvent plus strict, surtout si j'ai beaucoup de variables ; je préfère voir des saturations au-dessus de 0.5 ou même 0.6 pour être sûr que la liaison est robuste. Si une variable a une forte saturation sur le Facteur A (disons 0.75) et une saturation faible sur tous les autres (par exemple, 0.05 sur le Facteur B), c'est une bonne nouvelle : elle est clairement définie par ce facteur A.
Le danger survient quand une variable sature fortement sur plusieurs facteurs, c'est ce qu'on appelle la "communauté" faible ou la "pollution" des facteurs. C'est souvent le signe qu'il faut revoir la structure, ou que les facteurs que tu as extraits sont trop proches conceptuellement.
L'importance cruciale de la rotation : rendre les facteurs lisibles
Tu peux extraire tes facteurs sans rotation, mais franchement, le résultat est souvent un cauchemar à interpréter. La rotation, c'est comme tourner un cube jusqu'à ce que ses faces soient alignées avec les axes du monde réel. Le but est d'atteindre ce qu'on appelle la simplicité structurale : chaque variable doit saturer fortement sur un seul facteur et faiblement sur tous les autres. C'est l'idéal théorique.
Tu as deux grandes familles de rotation. D'abord, la Varimax, qui est orthogonale (les facteurs sont supposés indépendants). C'est la plus utilisée si tu penses que tes concepts sont totalement séparés. Ensuite, il y a les rotations obliques, comme Oblimin ou Promax. Je préfère souvent les rotations obliques en sciences sociales, car je doute rarement que mes facteurs soient parfaitement orthogonaux. Par exemple, la "satisfaction au travail" et la "motivation intrinsèque" sont probablement liées, non ? Utiliser une rotation oblique permet de capturer cette corrélation entre les facteurs eux-mêmes, ce qui donne souvent une solution plus réaliste de tes données.
Les pièges classiques : quand l'interprétation déraille
L'analyse factorielle n'est pas magique. Si tu mets n'importe quoi dedans, tu obtiendras n'importe quoi en sortie. Une erreur courante, c'est de ne pas vérifier les communalités. Celles-ci te disent quelle proportion de la variance de chaque variable est expliquée par l'ensemble des facteurs que tu as retenus. Si une variable a une très faible communalité (genre 0.20), cela signifie que tes facteurs extraits n'arrivent pas vraiment à expliquer cette variable. Selon moi, il faut sérieusement envisager de la retirer de l'analyse, car elle ne participe pas au même construit latent que les autres.
Un autre piège, c'est la tentation de nommer un facteur juste parce que deux variables saturent dessus, même si le sens commun n'est pas là. Par exemple, si le Facteur 1 est défini par "Satisfaction avec la couleur du logo" (0.72) et "Temps passé sur le site" (0.68). Qu'est-ce que ça veut dire ? Rien de très pertinent, probablement. Il faut que le nom que tu donnes au facteur raconte une histoire cohérente avec la théorie ou la réalité du terrain. Si les saturations ne forment pas un concept clair, il faut retourner à la case départ et peut-être essayer une autre méthode d'extraction ou une autre rotation.
Faut-il toujours chercher une solution simple et combien de facteurs retenir ?
C'est la question philosophique de fin de soirée. Combien de facteurs ? Si Kaiser te dit 4, mais que graphiquement (le fameux scree plot, le graphique des valeurs propres) il semble y avoir un coude net après 3 facteurs, que fais-tu ? Je suis personnellement très sensible au scree plot. Je cherche le point où la courbe devient presque plate. Si le coude est à 3, je vais tester une solution à 3 facteurs et voir si l'interprétation est propre, même si Kaiser m'autorisait 4. Si la solution à 3 est beaucoup plus nette et interprétable que celle à 4, je prends 3. La simplicité interprétative bat souvent la maximisation de la variance expliquée.
Il faut aussi se souvenir que l'analyse factorielle est sensible à la méthode d'extraction. Si tu utilises l'analyse en composantes principales (ACP), tu expliques toute la variance. Si tu utilises l'analyse factorielle par maximum de vraisemblance, tu ne cherches à expliquer que la variance commune (la communauté). L'ACP est souvent plus descriptive, alors que l'AFE est plus inférentielle. Choisir la bonne méthode dépend de ton objectif final, et je pense qu'il faut savoir les distinguer pour ne pas mélanger les interprétations.
En conclusion, lire son analyse factorielle, c'est un exercice d'équilibriste entre la rigueur statistique (valeur propre > 1, saturations > 0.5) et l'intuition métier. Ne te fie jamais aveuglément au logiciel. Garde toujours à l'esprit que tu es en train de créer un résumé de tes données. Ton travail, c'est de t'assurer que ce résumé est à la fois statistiquement valide et conceptuellement parlant. La prochaine fois que tu lances une analyse, regarde d'abord la variance expliquée, puis plonge dans les saturations après rotation, en te demandant toujours : "Est-ce que ce facteur a un nom que je peux vraiment donner ?"

