voeux

Aller au contenu | Aller au menu | Aller à la recherche @JML_textopol

jeudi 1 janvier 2015

Interpréter les distances entre les textes - Analyse factorielle des correspondances et problèmes de visualisation

L'analyse factorielle pratiquée sur la partition année ne montre pas de rupture lexicale particulière entre le message de décembre 2014 et ce qui précède.
Selon la segmentation opérée par les outils logiciels utilisés (Lexico3 ou TextObserver), selon l'unité choisie (texte ramené à la casse minuscule pour Lexico3, casse originale pour TextObserver), la configuration factorielle varie légèrement. Ce ne serait sans doute pas le cas sur un corpus plus important quantitativement, d'autant plus que la partition choisie (partition par année et donc par texte) rend l'analyse factorielle relativement peu stable. En effet plus les parties du corpus sont nombreuses, plus la valeur propre des axes s'amoindrit. Dans notre cas la valeur propre du premier axe n'est que de 7%. Il convient donc de ne pas sur interpréter ces configurations factorielles mais bien de les considérer comme des pistes de recherche. Une autre précaution consiste à croiser cette méthode à d'autres mesures de proximité du vocabulaire (voir à ce propos le billet du 2013/01/05/49-comment-le-discours-de-franois-hollande-se-situe-t-il-par-rapport-ses-prdcesseurs).
La partition par locuteur est beaucoup plus stable puisque le nombre des parties du corpus est plus faible. L'analyse factorielle n'est pas constituée d'une cinquantaine d'axes comme c'est le cas sur la partition par année mais de 7 (sept présidents de la République dont on cherche à examiner les oppositions majeures en termes d'emploi du stock lexical).
Ce ne sont donc que des régularités dans les configurations factorielles produites au moyen des différents outils que nous chercherons à examiner ici.
Sur les deux analyses factorielles produites par Lexico3 et TextObserver, sur la partition par année F. Hollande se situe dans son époque (proche des années Sarkozy en vert sur le graphique et des années Chirac, en bleu) , signe probable d'une évolution du discours politique qui entraîne une diminution de l'individuation des voeux que l'on observait de façon très nette sur les états précédents du corpus.

En effet, à mesure qu'évolue le corpus des voeux présidentiels, l'individuation des messages que l'on pouvait observer jusqu'en 2007 encore très nettement, tend à disparaître. La configuration factorielle ne laisse entrevoir désormais que trois groupes de textes: le premier représentant la période du général de Gaulle, le second les voeux de Mitterrand, Pompidou VGE, le troisième les voeux de Chirac, Sarkozy, Hollande. Peut-être doit on y voir une évolution de discours politique qui tend à lisser le contraste des ethos et des personnalités. [insérer AFC TextObserver points constants]

Fin 2011 (après le dernier message de Sarkozy) l'analyse factorielle pratiquée sur la forme graphique et sur une partition par année laissait encore entrevoir plusieurs groupes de textes (ceci était confirmé par l'analyse de la connexion lexicale pratiquée sous Hyperbase, non sans quelques nuances que nous avions commentées).
Au centre les messages de Mitterrand, d'un côté de l'axe les messages du général de Gaulle, de l'autre ceux de Chirac, groupées de façon homogène, puis ceux de Pompidou et VGE répartis de façon plus erratique. Les messages de Sarkozy, plutôt proches pour certains de ceux de Chirac, ne formaient pas u  groupe de texte très homogène.
On notait déjà en effet à cette époque que les voeux de Sarkozy ne s'organisaient pas dans une zone homogène du plan factoriel mais semblaient au contraire évoluer au fil du temps, peut-être au gré de l'événementiel.
Désormais, l'ajout des trois messages de Hollande transforment la représentation factorielle.
Les propositions de visualisation introduites dans TextObserver permettent de mettre en évidence des zones correspondant aux textes des locuteurs successifs de notre corpus. (En bleu foncé les années De Gaulle, en rose les années Pompidou/ Giscard, en blanc les années Mitterrand, en cyan les années Chirac, en vert les années Sarkozy et en jaune les années Hollande).
Notons que cette proposition transforme légèrement en grossissant les points la lecture de l'analyse factorielle, de même que l'échelle qui diffère légèrement de celle utilisée sous Lexico3. (La taille des points n'est pas ici proportionnelle à la taille des parties du corpus)

Cette représentation permet de saisir assez aisément l'évolution du discours sur l'ensemble de la période. Les années De Gaulle conserver une cohérence et une singularité par rapport aux autres textes du corpus.
Le changement d'échelle, le grossissement des points, et l'observation de masses colorées correspondant aux différents locuteurs permettent de dégager quelques éléments saillants:
On retiendra notamment les deux périodes chiraquiennes (confirmées par l'analyse arborée pratiquée sous Hyperbase) [1997-2002]-[2002-2006], deux périodes Sarkozy (qui, lorsque l'on zoome forment plutôt un arc) et les textes de Hollande qui ne forme pas non plus un nuage complètement cohérent mais se divisent en deux partie: 2012 d'une part et 2013-2014 qui sont très proches de la second période de Chirac.

L'analyse factorielle des correspondances représentant les trois premiers axes permet d'affiner quelque peu cette représentation pour montrer des affinités textes à texte. Ce visuel, ici figé, est beauocup plus riche d'information lorsqu'on le manipule directement avec l'outil TextObserver puisque on exploite alors toute la richesse de la visualisation tridimensionnelle, nommant en interagissant avec l'interface.
Enfin les représentations "extrudées" de la même analyse factorielle permettent de saisir à la fois la taille des textes et les proximités ou oppositions.
Ainsi, selon cette représentation le discours de décembre 2014 est proche de 2013, mais aussi de 2004 (Chirac) on interprétera ces proximités en terme de lexique partagé.



Voeux de Hollande pour 2015 - Exploration textométrique

Une expérience de catégorisation permet de caractériser le discours de présidents de la République et de porter sur ces messages de vœux un éclairage particulier.
La catégorisation - ici morphosyntaxique - consiste à attribuer à chaque mot du texte une étiquette correspondant à sa catégorie grammaticale (partie du discours ou "POS").
L'étiqueteur utilisé ici est Treetager mais TexObserver utilisé ici pour interroger le corpus accepte tout autre jeu de données.

L'analyse factorielle, pratiquée sur ces catégories produit la configuration suivante.

(légende : En bleu foncé les caractéristiques de De Gaulle, en rose et violet les caractéristiques de Pompidou et de Giscard, en blanc celles Mitterrand, en cyan celles de Chirac, en vert celles de Sarkozy et en jaune celles de Hollande)

Les oppositions qui sont mises au jour ne portent plus sur le lexique mais sur des caractéristiques morphosyntaxiques.
En termes de sous-emploi ou de sur emplois, les locuteurs successifs se caractérisent de la façon suivante.
De Gaulle:
Sur utilise la ponctuation faible (pun) les participes présent (ver:ppre), la catégorie "sym" qui correspond au signe %, sur utilise les adjectifs, les verbes au conditionnel et les prépositions (prp). Il sous utilise ce qui est nécessairement sur-utilisé chez les autres locuteurs, la norme étant endogène.
Ces éléments relèvent à la fois de phénomènes stylistiques et argumentatifs .

Répartition des participes présent par locuteur

L'emploi des conditionnels chez De Gaulle relève d'un procédé argumentatif:
Répartition des verbes au conditionnel par locuteur

Chez l’initiateur de la cinquième République les contextes sont très majoritairement ancrés dans l’opposition passé/présent ou dans l’antinomie virtuel/réel.
Quelques exemples:
En 1960, le président met en garde contre un éventuel refus de la consultation sur l’autodétermination de l’Algérie.
« Car s'il arrivait, par malheur, que la réponse du pays fût ou négative, ou indécise en raison d'une faible majorité, ou marquée par beaucoup d'abstentions »
« Quelles conséquences entraîneraient cette impuissance et cette division », « quelle excitation en recevraient, d'une part les chercheurs d'aventures, d'autre part les tenants de la subversion ! Quel prurit agiterait les clans du doute, de la hargne et du dénigrement ! En Algérie, de quel découragement seraient saisis les raisonnables, de quelle impulsion les furieux ! Dans le monde, quelles conclusions désastreuses en seraient tirées quant à la capacité de la France d'assumer la responsabilité des affaires qui la concernent ! »
Et engeant une manière de plébiscite personnel :
« Et à moi-même, vous le savez bien, quel coup serait ainsi porté, m'empêchant de poursuivre ma tâche. »
Mais il invite également
« La communauté de souche française d'Algérie à s'arracher décidément aux troubles et aux chimères qui la couperaient de la nation, et non seulement à accepter ce que le pays va décider, mais à en faire son affaire et à se saisir de la chance nouvelle qui s'offre à sa valeur et à son énergie. »
Il est intéressant de s’attarder encore un instant sur ce message car à l’éventualité d’un « non » à cette consultation, qui se conjugue au conditionnel répond la quasi certitude d’un « oui », qui allie alors subjonctif et présent c’est une construction parfaitement parallèle qui sert ici l’argumentation du locuteur :
« au contraire, que le référendum soit positif et éclatant, voilà la nation, son gouvernement, son parlement, son administration, son armée, bien fixés sur la route à suivre et sur le but à atteindre. Voilà les algériens bien éclairés sur leur avenir. Voilà l'étranger bien prévenu que la France sait ce qu'elle veut. Me voilà moi-même raffermi et plus fort pour servir de guide au pays et pour élargir la porte de la paix et de la raison. »
Ainsi, le conditionnel porte une valeur argumentative. Chez De Gaulle en particulier il est utilisé pour évoquer les incidences de ce qui se serait passé si...nous n’avions pas choisi la cinquième République, ce qui se passerait si, les Français ne répondaient pas favorablement à tel ou tel appel du chef de l’État.

Répartition des adjectifs par locuteur

Le rapprochement Chirac/Sarkozy/Hollande que l'on a pu noter sur les analyses factorielles des correspondances peut en partie s'expliquer par ce sous-emploi des formes adjectivales, bien que l'on retrouve ce même profil chez VGE. Il convient de noter un facteur ne peut expliquer à lui seul l'ensemble de la configuration factorielle. On peut toutefois s'interroger sur cette diminution sensible des emplois adjectivaux - diminution confirmée par une mesure des spécificités portant sur la partition par date - dans laquelle on pourrait voir une réduction du discours où les inclinations littéraires de De Gaulle, Pompidou et Mitterrand (VGE ayant délibérément choisi la connivence avec les Français dans ses messages de voeux et donc une certaine forme de simplicité), laisseraient place à un format plus communicationnel). D'autres mesures (longueur des phrases, disparition du subjonctif au profit du présent de l'indicatif) semblent aller dans le même sens.

Pompidou

Pompidou se caractérise notamment par un suremploi des verbes à l'impératif: (ver:impe)
Soyons capables, ayons confiance, sachons mesurer...


VGE

Les spécificités des catégories morphosyntaxiques de la partie Giscard
montre un sur emploi dans l'utilisation des pronoms personnels (en réalité 1ere du singulier et deuxième du pluriel) et de déterminants possessifs (adjectifs possessifs) et de conjonctions de coordination.
Il sous utilise en revanche les adjectifs, les noms et les adverbes.
Mitterrand

Mitterrand sur-utilise les verbes au futur de l'indicatif
Cet emploi relève d'une dimension quelque peu pédagogique du discours de Mitterrand:
Exemple: "Dans six mois, nous présiderons la commission européenne"

On note également une sur utilisation des données chiffrées (num)
Chirac

La caractéristique la plus remarquable du discours chiraquien est la sur-utilisation des verbes à l'infinitif (ver:infi)
On notera ici le manque de finesse de l'étiquetage qui occulte chez Mitterrand le sur emploi de l'indéfini "on" et la sur-utilisation de déterminant "une" chez Chirac, sur emploi qui n'est pas indifférent ("Construire une Europe, une solidarité, une démocratie"...)

Ce sur-emploi des formes infinitives entre dans la réalisation d'énoncés dont la valeur est souvent mobilisatrice ou déontique:
Exemples:
"Nous devons construire une France plus accueillante", "nous devons nous adapter", "je veux susciter...", "nous devons garantir"...

Sarkozy, dont on a vu à l'occasion d'autre analyses qu'il se rapprochait pour partie de Chirac partage cette caractéristique.
L'examen de la partition par année permet de vérifier qu'il s'agit là d'une constante et non du poids d'un message particulier.

L'emploi est banal chez Hollande.
Sarkozy

Sarkozy sur utilise les pronoms relatifs et les verbes au présent de l'indicatif (ver:pres) caractéristique qu'il partage avec F. Hollande:

Hollande

sur-utilise les pronoms démonstratifs (ce, ceux, celle, celles)