jeudi 1 janvier 2015
Interpréter les distances entre les textes - Analyse factorielle des correspondances et problèmes de visualisation
Par jml, jeudi 1 janvier 2015 à 19:53 :: Voeux présidentiels
L'analyse factorielle pratiquée sur la partition année ne montre pas de rupture lexicale particulière entre le message de décembre 2014 et ce qui précède.
Selon la segmentation opérée par les outils logiciels utilisés (Lexico3 ou TextObserver), selon l'unité choisie (texte ramené à la casse minuscule pour Lexico3, casse originale pour TextObserver), la configuration factorielle varie légèrement. Ce ne serait sans doute pas le cas sur un corpus plus important quantitativement, d'autant plus que la partition choisie (partition par année et donc par texte) rend l'analyse factorielle relativement peu stable. En effet plus les parties du corpus sont nombreuses, plus la valeur propre des axes s'amoindrit. Dans notre cas la valeur propre du premier axe n'est que de 7%. Il convient donc de ne pas sur interpréter ces configurations factorielles mais bien de les considérer comme des pistes de recherche. Une autre précaution consiste à croiser cette méthode à d'autres mesures de proximité du vocabulaire (voir à ce propos le billet du 2013/01/05/49-comment-le-discours-de-franois-hollande-se-situe-t-il-par-rapport-ses-prdcesseurs).
La partition par locuteur est beaucoup plus stable puisque le nombre des parties du corpus est plus faible. L'analyse factorielle n'est pas constituée d'une cinquantaine d'axes comme c'est le cas sur la partition par année mais de 7 (sept présidents de la République dont on cherche à examiner les oppositions majeures en termes d'emploi du stock lexical).
Ce ne sont donc que des régularités dans les configurations factorielles produites au moyen des différents outils que nous chercherons à examiner ici.
Sur les deux analyses factorielles produites par Lexico3 et TextObserver, sur la partition par année F. Hollande se situe dans son époque (proche des années Sarkozy en vert sur le graphique et des années Chirac, en bleu) , signe probable d'une évolution du discours politique qui entraîne une diminution de l'individuation des voeux que l'on observait de façon très nette sur les états précédents du corpus.
En effet, à mesure qu'évolue le corpus des voeux présidentiels, l'individuation des messages que l'on pouvait observer jusqu'en 2007 encore très nettement, tend à disparaître. La configuration factorielle ne laisse entrevoir désormais que trois groupes de textes: le premier représentant la période du général de Gaulle, le second les voeux de Mitterrand, Pompidou VGE, le troisième les voeux de Chirac, Sarkozy, Hollande. Peut-être doit on y voir une évolution de discours politique qui tend à lisser le contraste des ethos et des personnalités. [insérer AFC TextObserver points constants]
Fin 2011 (après le dernier message de Sarkozy) l'analyse factorielle pratiquée sur la forme graphique et sur une partition par année laissait encore entrevoir plusieurs groupes de textes (ceci était confirmé par l'analyse de la connexion lexicale pratiquée sous Hyperbase, non sans quelques nuances que nous avions commentées).
Au centre les messages de Mitterrand, d'un côté de l'axe les messages du général de Gaulle, de l'autre ceux de Chirac, groupées de façon homogène, puis ceux de Pompidou et VGE répartis de façon plus erratique. Les messages de Sarkozy, plutôt proches pour certains de ceux de Chirac, ne formaient pas u groupe de texte très homogène.
On notait déjà en effet à cette époque que les voeux de Sarkozy ne s'organisaient pas dans une zone homogène du plan factoriel mais semblaient au contraire évoluer au fil du temps, peut-être au gré de l'événementiel.
Désormais, l'ajout des trois messages de Hollande transforment la représentation factorielle.
Les propositions de visualisation introduites dans TextObserver permettent de mettre en évidence des zones correspondant aux textes des locuteurs successifs de notre corpus. (En bleu foncé les années De Gaulle, en rose les années Pompidou/ Giscard, en blanc les années Mitterrand, en cyan les années Chirac, en vert les années Sarkozy et en jaune les années Hollande).
Notons que cette proposition transforme légèrement en grossissant les points la lecture de l'analyse factorielle, de même que l'échelle qui diffère légèrement de celle utilisée sous Lexico3. (La taille des points n'est pas ici proportionnelle à la taille des parties du corpus)
Cette représentation permet de saisir assez aisément l'évolution du discours sur l'ensemble de la période. Les années De Gaulle conserver une cohérence et une singularité par rapport aux autres textes du corpus.
Le changement d'échelle, le grossissement des points, et l'observation de masses colorées correspondant aux différents locuteurs permettent de dégager quelques éléments saillants:
On retiendra notamment les deux périodes chiraquiennes (confirmées par l'analyse arborée pratiquée sous Hyperbase) [1997-2002]-[2002-2006], deux périodes Sarkozy (qui, lorsque l'on zoome forment plutôt un arc) et les textes de Hollande qui ne forme pas non plus un nuage complètement cohérent mais se divisent en deux partie: 2012 d'une part et 2013-2014 qui sont très proches de la second période de Chirac.
L'analyse factorielle des correspondances représentant les trois premiers axes permet d'affiner quelque peu cette représentation pour montrer des affinités textes à texte. Ce visuel, ici figé, est beauocup plus riche d'information lorsqu'on le manipule directement avec l'outil TextObserver puisque on exploite alors toute la richesse de la visualisation tridimensionnelle, nommant en interagissant avec l'interface.
Enfin les représentations "extrudées" de la même analyse factorielle permettent de saisir à la fois la taille des textes et les proximités ou oppositions.
Ainsi, selon cette représentation le discours de décembre 2014 est proche de 2013, mais aussi de 2004 (Chirac) on interprétera ces proximités en terme de lexique partagé.


