Textopol > Enseignement > Séminaire doctoral > Archives 2004-2005
Programme des séances 2004 - 2005
Les programmes détaillés de chaque journée seront mis à jour régulièrement, les exercices réalisés mis en ligne d'une fois sur l'autre afin que chacun puisse, si besoin est, s'y référer.
>> Séance 1: - 23 octobre 2004 -En ligne >> Séance 2: - 27 novembre 2004 -En ligne >> Séance 3: - 11 décembre 2004 -En ligne >> Séance 4: - 8 janvier 2005 -En ligne >> Séance 5: - 12 février 2005 -En ligne >> Séance 6: - 12 mars 2005 -En ligne >> Séance 7: - 16 avril 2005-En ligne >> Séance 8: - 14 mai 2005-
En ligne
Informatique textuelle
Séance 1, samedi 23 octobre 2004 à 9h30, CMC 227.
9h30-12h30
1. Les objectifs du séminaire ; espace de travail ; accès, MDP, et mode de travail.
2. Les outils : logiciels et bases de données. Visite de CORDIAL et HYPERBASE.
3. Le site Textopol (JM Leblanc)
4. Cours d’informatique textuelle (1)
14h-16h5. Exercices
- Constitution (recueil et préparation) d’un corpus test : les débats Bush-Kerry (octobre 2004)
- Traitement du corpus-test par CORDIAL
- Taitement du corpus-test par HYPERBASE
Documents:
- Instructions pour le recueil et la constitution de corpus lexicométriques (PDF) (HTML)
- Exercice 1.1 : Recueil, et traitements du corpus test Bush-Kerry 2004 (PDF) (HTML)
>> Séance 2
Informatique textuelle
Séance 2, samedi 27 novembre 2004 à 9h30, CMC 227.
9h30-11h
- Rappel et résumé de la première séance :
- Espaces de travail, quantification et lexicométrie, principes et objectifs.
- Corrigé de l’exercice 1 (première partie) : étiquetage et quantification du texte des débats Bush- Kerry par CORDIAL.
- Préparation du corpus BK pour différentes exploitations lexicométriques : Lexico, Hyperbase, Alceste.
11h15-12h45
- Prise en main d’HYPERBASE, traitement du corpus BK.
- Exploitation de la base BK : Fonctions documentaires et statistiques.
- Présentation et discussion d’un ouvrage récent utilisant HYPERBASE et CORDIAL (Mayaffre, 2004)
13h45-16h- Prise en main d’HYPERBASE, traitement du corpus BK.
- Corrigé de l’exercice 1 (deuxième partie)
- Travail sur les corpus personnels.
Documents:
- Exercice 1.2 : Préparation du corpus BK: Lexico, Hyperbase, Alceste (PDF) (HTML)
- Corpus Bush Kerry balisé pour Hyperbase : Base dynamique
>> Séance 3
Informatique textuelle
Séance 3, samedi 11 décembre 2004 à 9h30, CMC 227
9h30-11h- Résumé et discussion des premières séances : Rapport d’analyse et interprétation des résultats obtenus sur les trois débats Bush-Kerry (corpus BK6), sous CORDIAL et HYPERBASE.
- Prise en main de Lexico3 : expérimentations lexicométriques sur BK6.
11h15-12h45- Accès à FRANTEXT : corpus ; recherches simples ; langages réguliers et filtres grammaticaux
13h45-16h
- Exercices sur les filtres grammaticaux
- Travail sur les corpus personnels.
Documents:
- Corrigé de l'exercice 1.1 (PDF) (HTML)
- Projet de rapport sur BK6
- Protocole d'observation lexicométrique du corpus BK6 sous Hyperbase (PDF) (HTML)
- Exercices de filtres grammaticaux.(Fourni en séance)
- Présentation de la base FRANTEXT (PDF) (HTML)
- Exercices: prise en main de lexico 3 sur BK6
- 3.1 : Balisage, segmentation, rapport, graphiques de ventilation, concordances. (PDF) (HTML)
- 3.2 : Groupes de formes, segments répétés. (PDF) (HTML)
- 3.3 : Spécificités par partie et spécificités chronologiques. (PDF) (HTML)
- 3.4 : Analyse factorielle des correspondances. (PDF) (HTML)
- 3.5 : Topographie textuelle et cooccurrents spécifiques. (PDF) (HTML)
>> Séance 4
Informatique textuelle
Séance 4, samedi 08 janvier 2005 à 9h30, CMC 227
9h30-11h
A. Salem: La lexicométrie, topographies et genres textuels.
11h30-12h30
- Suite et fin des exercices de prise en main de lexico3.- Rapport d'analyse et suite de la discussion des résultats obtenus sur les débats Bush-Kerry (corpus BK6, BK3, BK2) sous CORDIAL, HYPERBASE, et LEXIC03.
13h30-16h
- Exercices sur les langages réguliers et filtres grammaticaux (FRANTEXT).
- Traitement des corpus personnels.
Documents:
>> Séance 5
Informatique textuelle
Séance 5, samedi 12 février 2005 à 9h30, CMC 3429h30-10h00
1. Cooccurrences et cooccurenceurs. WEBLEX les lexicogrammes. (PF).
- Les fonction documentaires
- Les fonctions statistiques
- Les fonctions cooccurrentielles (Lexicogrammes simples et récursifs)
10h00-11h002. Prise en main de WEBLEX. autour du corpus voeux (JML)
- Exercice 5.1 : L'examen de la forme Monde, Lexicogramme, répartition, spécificités.
Pause11h30-13h00
3. Prise en main du langage CQP sur le corpus terror. (PF et JML)Exercice 5.2 : Exploration des différentes couches du corpus, en surface (forme graphique) ou sur les catégories morpho-syntaxiques. .
- Le catégoriseur Cordial et son utilisation dans Weblex
- La recherche de motifs (formes graphiques ou catégories).
14h-16h30
4. Suite des exercices et travaux personnels
Documents :
Exercices :
- 5.1 : Le Monde dans les voeux présidentiels à travers les lexicogrammes récursifs. (PDF) (HTML)
- 5.2 : Recherche de motifs sous weblex et examen du corpus Terror
Documents :
Deux liens distincts vers le serveur Weblex:- 5.1 : http://weblex.ens-lsh.fr/wlx/
- 5.2 : http://lexico.ens-lsh.fr/local/lexploreur.html
>> Séance 6
Informatique textuelle
Séance 6, samedi 12 mars 2005 à 9h30, CMC 2279h30-12h30
1. La méthodologie Alceste.
- Distributions statistiques et distribution linguistique
- Cooccurrences et univers lexicaux
- UCI, UCE, Mots étoilés2. Prise en main d'Alceste
- Exercice Conversion du corpus BK6 de Lexico vers Alceste.
- Analyse du corpus BK6 sous Alceste : Les classes sémantico-thématiques du corpus, les U.C.E caractéristiques.13h30-16h30
3. Exposés de synthèse (JML, PF)
- Hyperbase, Alceste, deux approches lexicométriques. Exemples d'application sur le corpus des voeux présidentiels.4. Passage Alceste sur les corpus des participants.
Documents:
- Exercice 6.1 : Conversion du corpus BK Lexico, vers Alceste (PDF), (HTML)
- Corpus de travail balisage lexico: Base dynamique
- Bush Kerry balisé pour Alceste: Base dynamique
>> Séance 7
Informatique textuelle
Séance 7, samedi 16 avril 2005 à 9h30, CMC 227
Exploration textométrique de corpus multilingues
9h30-10h30
Exposé de Maria Zimina-Poirot Postdoc, (EA 2290 SYLED, Université Sorbonne Nouvelle Paris 3)
I. Ressources textuelles multilingues Gestion, accès au contenu linguistique…Domaines d’application. Exemples : le corpus parallèle (français/anglais) de la Convention de sauvegarde des Droits de l’Homme et des libertés fondamentales ; le Traité pour la Constitution Européenne (français/anglais)…
II. Textométrie multilingue Un nouveau courant de recherches interdisciplinaire…Exemples d’utilisations (pratique des segments répétés, classification automatique, spécificités, topographie bi-textuelle, etc.)
12h - 13h30
- Exercices: alignements des textes et repérages des unités lexicales
13h30 - 16h
-Comparaison et traitement du corpus multilingue Bush-Kerry
- Suite des travaux personnels
Documents:
- Ressources 7.1: http://www.cavi.univ-paris3.fr/ilpga/ed/student/stmz/ED268-PagePersoMZ_fichiers/stmz/page2.htm
Exercices :
- 7.1 : Analyse de corpus de textes juridiques (français/anglais) à l'aide d'outils de statistique textuelle - Lexico3. (Maria Zimina-Poirot).
- 7.2 : Analyse et comparaison du corpus Bush-Kerry multilingue
>> Séance 8
Informatique textuelle
Séance 8, samedi 14 mai 2005 à 9h30, CMC 227
9h30-12h30
I. Analyses lexicométriques, textométrie, et analyse de contenu assistée par ordinateur (autour du logiciel Tropes) .
Démonstration des diverses versions et fonctionnalités du logiciel.II. Prise en main de Tropes ( version restreinte) à travers un exercice de description des corpus B1 et K1 et une comparaison des résultats obtenus avec les logiciels lexicométriques
13h30 - 16h
- Bilan et tableau comparatif des logiciels utilisés durant l'année.
- Exploitation des expériences effectuées sur les débats électoraux Bush-Kerry.
Documents:
Ressources:
Exercices :
- 8.1 : Prise en main de Tropes sur le corpus Bush1-Kerry1