Pour une textométrie multimédia ou TAD 2.0
Par jml, mercredi 9 juin 2010 à 11:14 :: General :: #29 :: rss
TAD (Traitement Automatisé des Discours)
Pour une textométrie multimédia ou TAD 2.0 (En cours de rédaction...)
Après la lexicométrie qui envisageait de déstructurer le texte en segmentant un corpus en unités minimales, créant des index, des concordances, proposant des AFC portant sur le lexique, la textométrie, qui s’est intéressée, toujours au texte mais dans une perspective où l’unité n’était plus seulement le mot ou la catégorie, ou encore le lemme mais pouvait être une cooccurrence, un segment, un paragraphe, tout motif textuel, empan, beaucoup plus souple et beaucoup plus large que la simple unité lexicale, nous proposons de définir une Textométrie Multimédia ou T.A.D (traitement automatisé du discours) 2.0.
Ce T.A.D 2.0 doit être appréhendé selon plusieurs points de vue :
Le point de vue technologique : il s’agit d’aborder les corpus au moyen d’outils logiciels évoluant avec le WEB et le WEB 2.0, sur le plan de l'ergonomie des interfaces, de l'interactivité, de l’innovation des visualisations. C'est ainsi que nous proposons d'implémenter le multimédia dans les outils lexicométriques ou textométriques, jusqu'ici peu évolués en la matière.
- L’implémentation du mouvement dans les visualisations multidimensionnelles ou longitudinales/contrastives lorsque cela fait sens, est un premier apport du multimédia. Que se passe-t-il, sur un corpus de vœux des présidents de la République en France, lorsque, sur un corpus de 1959 à 2011, nous ajoutons l’année 2002, puis 2003, puis 2004, et ainsi jusqu’à 2009 ? Nous suggérons que le mouvement peut aider à saisir des phénomènes que nous n'aurions pu observer qu’avec difficulté.
Une première expérimentation est produite à l’adresse suivante (http://textopol.org/contrib2010.php) qui était à l’origine la page illustrative d’une contribution pour les JADT 2010. Dans cet exemple (AFC en mouvement) nous avons extrapolé la configuration 1959-2001 vers 1959-2009 mais une version plus évoluée mettra en évidence toutes les positions intermédiaires. Voir aussi le blog de Textopol qui permet de prendre connaissance de toutes les étapes de la recherche. Pour mettre en évidence ce que nous appelons le mouvement lexical, d’un corpus nous construisons, grâce à ces nouveaux outils des scénarios multidimensionnels ou scénarios graphiques.
Navigation et ergonomisation des résultats.
Une autre implémentation du multimédia consiste à proposer, sur les analyses factorielles des correspondances dans un premier temps, puis sur d’autre modèles de représentation, de nouveaux modes de navigation.
- Le premier mode de navigation est de proposer de mettre en œuvre le troisième axe de l’analyse factorielle des correspondances et donc une visualisation tridimensionnelle de cette configuration. Il convient d’insister sur le caractère optionnel de cette fonctionnalité. En effet, il est des cas où l’AFC 2D est à même de faire émerger des signatures ou des motifs comme le temps lexical ou effet Guttman, mais il en existe bien d’autres, que la 3D ne ferait qu’occulter. Il convient donc de prévoir cette possibilité.
Troisième implémentation du multimédia : la navigation entre les partitions d’un corpus. Cette implémentation peut se scinder en deux cas de figure. La première partie consiste à faciliter le passage d’une partition à l’autre, par zoom ou par clic, dans un premier temps, mais il conviendra de réfléchir à toutes les interfaces actuellement disponibles. (Ecrans tactiles, Smartphones, bornes interactives, tablettes PC, Ipad…)
Si nous conservons l’exemple de notre corpus présidentiel, cette première proposition consiste à passer de la partition locuteur à la partition en années et ainsi de permettre le passage entre une analyse factorielle pratiquée sur une partition en 6, à une autre AFC pratiquée sur une partition en 60 (années). En haut à droit de notre interface, une sorte de carte, nous permettra d’afficher la vue précédente. Lorsque nous sommes sur la partition années nous voyons la partition locuteurs, lorsque nous sommes sur la partition locuteurs nous voyons l’autre partition.
Second cas de figure, un peu plus complexe : permettre de zoomer sur une partie donnée : Ici, reprenons l’exemple de notre corpus rituel : Nous partons d’une AFC par locuteur, agençant les présidents De Gaulle, Pompidou, VGE, Mitterrand, Chirac, Sarkozy, en 3 D de préférence, mas rien n’empêche l’utilisateur de passer de la 3D à la 2D. Nous examinons donc dans un premier temps les oppositions de ces points sur notre plan factoriel tridimensionnel, nous voyons que DG semble s’opposer à l’ensemble de ses successeurs, que Mitterrand, globalement est plutôt central, mais est-ce le fait d’un seul texte ? Comment les différents messages de nos locuteurs évoluent-ils ? Approchons-nous de Mitterrand et zoomons : à un moment donné, le point correspondant à Mitterrand laisse place à 14 points de dimensions plus réduites, étiquetés 1981, à 1995. Nous avons zoomé sur le locuteur Mitterrand jusqu’à accéder à un sous-corpus, pour observer l’agencement, chez ce seul locuteur des différents discours. Zoomons encore, sur l’année 1995 par exemple et nous découvrons l’index des mots les plus fréquents cette année là, ou encore la cooccurrence généralisés des mots pleins les mieux répartis. L’AFC précédente permettait-elle aussi d’aller jusqu’à la trame du texte, mais non pas sur des sous corpus, mais sur l’ensemble du texte, considéré comme un tout.
L’utilisateur ne souhaite pas faire disparaître les points qui correspondent aux locuteurs : il peut désactiver l’option zoom et choisir l’option transparence. Sur sa configuration factorielle, 6 points s’agencent en trois dimensions. En transparence, à l’intérieur de chaque point on entrevoit d’autres points qui correspondent aux années propres à chaque locuteur et l’on peut ainsi saisir les évolutions, les ruptures, des sous corpus. Car dans ces transparences bien sûr, chaque locuteur n’est comparé qu’à lui-même. Autre possibilité, l’utilisateur conserve la version zoom, mais la partie droite, en haut de notre interface permet de visualiser la configuration par locuteurs, la carte générale, alors qu’il zoome sur un sous corpus.
Nous avons pu évoluer à l’intérieur, ou presque du discours présidentiel, sur une dimension tenant compte de la forme graphique, mais nous pouvons, à tout moment et selon le traitement qui a été appliqué au corpus, accéder aux dimensions catégorie syntaxique, sémantique, lemme…Nous pouvons aussi, au moyen d’un curseur afficher les points les plus contributifs des axes…
Dans cette conception du T.AD, l’AFC devient l’interface par laquelle on accède au corpus. (l’AFC ou les autres modes de représentation que nous aurons implémentés).
Les supports et l’objet d’étude
La textométrie multimédia au TAD 2.0 c'est aussi s'autoriser à analyser et à archiver le données du web, internet dispositifs en ligne, réseaux sociaux, multisupports, sans crispation et ni la prétention de traiter à la fois du texte, de l'image et du son, ce que la lexicométrie n'a jamais fait sauf expériences de codages, s'agissant de l'audiovisuel.
Sans crispation à l'égard de l'instabilité du web; pourquoi devrait-on sur le web plus qu'ailleurs prétendre à l'exhaustivité?
Commentaires
Aucun commentaire pour le moment.
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.