L'utilisation des mots en isme dans les voeux présidentiels.

La recherche par expressions régulières permet d'extraire des empans textuels ou de réaliser des concordances. On s'intéresse ici aux formes graphiques qui se terminent par le suffixe "isme".
La figure ci-dessous présente les concordances de cette expression chez Chirac.


Un calcul de spécificités permet d'évaluer en terme de sur-emploi ou de sous emploi la distribution de cette forme (ou groupe de forme) dans chaque partie du corpus.


Si Chirac est le champion de l'utilisation des mots en "isme" sur l'ensemble de la période, ainsi qu'en atteste l'histogramme des spécificités ci-dessus il est évident qu'on ne peut considérer de la même façon les emplois de substantifs tels que totalitarisme, illettrisme, terrorisme ou encore dynamisme.
Néanmoins, ce sur-emploi peut être le signe d'une propension à la nominalisation.  
Une autre expression portant sur les données étiquetées par TreeTager permet de calculer la distribution des substantifs chez les locuteurs successifs du corpus  voeux et de vérifier cette hypothèse.
L'histogramme qui en résulte montre que d'autres locuteurs sur-utilisent les noms: DG, Mitterrand, puis Chirac.


L'utilisation d'une autre expression régulière permet d'identifier les contextes d'utilisation des mots en isme, istes, iste, et istes.
.*isme|.*iste|.*istes|.*isme

Concordances chez DeGaulle:


chez Pompidou:


chez VGE:


chez Mitterrand:


chez Chirac:


chez Sarkozy:


chez Hollande:


Les concordances par partie montrent que les emplois sont très différents d'un locuteur à l'autre. Chez Hollande notamment, à une exception près les mots en "isme" ou en "iste" renvoient, de façon assez attendue aux événements récents.

Analyses arborées - TreeCloud

http://www.treecloud.org

A partir de ces concordances, élargies à 40 mots à gauche et 40 mots à droites, dont nous ne retenons que les emplois nominalisés, une série d'expérimentations menées au moyen du logiciel TreeCloud permet d'examiner les réseaux de cooccurrences qui se construisent autour de ces formes, pour l'ensemble du corpus, et pour chacun des trois derniers présidents de la République.
La distance est calculée à partir de l'indice de Jacquard. Pour une meilleure lisibilité des graphes, un certain nombre de mots est exclu de l'analyse. (anti-dictionnaire par défaut).
Les couleurs utilisées sur les figures matérialisent la chronologie en suivant une échelle qui va du plus ancien (en rouge) au plus récent (en bleu).


Arborée des distance sur l'ensemble du corpus - Distance de Jacquard avec anti-dictionnaire
L'analyse arborée produite à partir des concordances de l'ensemble du corpus représente ainsi les cooccurrences entres les mots apparaissant de les fenêtres contextuelles choisies (40 mots à gauche et 40 mots à droite).
Les mots les plus anciens (pays, confiances, moderne et guerre) sont supplantés - dans les seules concordances retenues car il ne s'agit pas ici de l'ensemble du corpus-  par les mots terrorisme, Europe règles...Les mots monde, liberté, France, compatriotes, solidarité, rang, droit, justice, à en croire le code couleur apparaissent à mi parcours.
La proximité sur le graphe des feuilles terminales de l'arbre traduit le lien de cooccurrence entres les mots (leur co-fréquence).
Ainsi les mots compatriotes, chers, République et chance, dans les contextes ainsi extraits apparaissent fréquemment ensemble, de même que les mots racisme, antisémitisme, laïcité, combat.
Ces représentations impliquent pour être interprétées finement que l'on maîtrise la lecture de ces graphes du calcul mobilisé et des différentes transcriptions telles que distances, couleur. Cette analyse ne peut se faire qu'en effectuant de retours constants au texte.


Arborée des distance s des concordances de la partie Chirac - Distance de Jacquard avec anti-dictionnaire
Arborée des distance s des concordances de la partie Sarkozy - Distance de Jacquard avec anti-dictionnaire
Arborée des distance s des concordances de la partie Hollande - Distance de Jacquard avec anti-dictionnaire