Textopol > Enseignement > Séminaire doctoral >Archives 2003-2004
Programme des séances
Les programmes détaillés de chaque journée seront mis à jour régulièrement, les exercices réalisés mis en ligne d'une fois sur l'autre afin que chacun puisse, si besoin est, s'y référer.
>> Séance 1: - Samedi 15 novembre 2003 -En ligne >> Séance 2: - Samedi 13 décembre 2003 -En ligne >> Séance 3: - Samedi 17 janvier 2004 -En ligne >> Séance 4: - Samedi 21 février 2004 -En ligne >> Séance 5: - Samedi 13 mars 2004 -En ligne >> Séance 6: - Samedi 3 avril 2004 -En ligne >> Séance 7: - Samedi 15 mai 2004 -En ligne
Informatique textuelle
Séance 1, samedi 15 novembre 2003 à 9h30, CMC 227.
9h30-12h301. Les objectifs du séminaire ; espace de travail ; accès, MDP, et mode de travail.
2. Les outils : logiciels et bases de données. Visite de CORDIAL et HYPERBASE.
3. Le site Textopol (JM Leblanc)
4. Cours d’informatique textuelle (1)
14h-16h5. Exercices
1. Constitution ( recueil et préparation ) d’un corpus test ( FSE03 )
2. Traitement du corpus-test par CORDIAL
3. Traitement du corpus-test par HYPERBASE
Documents:
- Instructions pour le recueil et la constitution de corpus lexicométriques (PDF) (HTML)
- Bibliographie sommaire (PDF) (HTML)
- Quelques liens (PDF) (HTML)
- Exercice 1.1 : Recueil, constitution, test d'un corpus. (FSE 2003) (PDF) (HTML)
- Corrigé de l'exercice 1.1 (PDF) (HTML)
- Corpus FSEO3, balisage Hyperbase. (Format txt) (Format rtf)
>> Séance 2 ( Samedi 13 décembre 2003 )
Informatique textuelle
Séance 2, samedi 13 décembre 2003 à 9h30, CMC 227.9h30-11h15h
1. Rappels (JML) :
- Les deux espaces de travail :
- Textopol : corrigé de l’exercice 1.1. Propriétés des logiciels.
- Programme de la Séance 2.- Saisie des textes et traitements des fichiers : FSE03 en divers formats. Lexico, Hyperbase, Alceste.
2. Traitement de FSE03 en HYPERBASE (PF et JML)
- Prise en main, fonctions documentaires et statistiques : recherches sur les mots, recherches sur les textes.
- Exercice guidé : Négations et modalités dans le corpus FSE 03.
- Présentation des résultats de l'analyse du corpus FSE03 ; vers une comparaison entre logiciels.3. Cours de lexicométrie 1-2 (PF) : Les visées multiples de l’IT dans les sciences du langage (Bibliographie).
- Distributions linguistiques vs distributions statistiques.
- Les ventilations statistiques : quelques propriétés zipféennes dans le tableau lexical entier (TLE).
- Approches distributionnelles de tableaux lexicaux partiels (TLP).
11h30-12h30- Inscriptions à la formation End-Note (JML un lundi à fixer).
- Prise en main : FRANTEXT : Base textuelle ; accès dictionnaires ; recherches élémentaires ; filtres et grammaires Frantext ; approches statistiques.
13h45-16h-Travail sur les corpus personnels.
- Recueils individuels sur FRANTEXT et autres base de données : banques textuelles et lexicographiques.
- Exercices : grammaires FRANTEXT.
Documents:
Exercices:
- 2.1 : Modaux et négations en HYPERBASE (FSE03) (PDF) (HTML)
- 2.2 : Grammaires Frantext (LE FEU) (PDF) (HTML)
Documents:
- Protocole d'observation (PDF) (HTML)
- Hyperbase, prise en main (PDF) (HTML)
- Guide d'interrogation de la base Frantext (ENS-LSH) (Lien hypertextuel): http://cid-cedille.ens-lsh.fr/
>> Séance 3 ( Samedi 17 janvier 2004 )
Informatique textuelle
Séance 3, samedi 17 janvier 2004 à 9h30, CMC 227.
9h30-11h00
1. Exposé de A. Salem, prof. Paris-3 : La lexicométrie et les topographies textuelles
11h30-12h302. Prise en main de Lexico 3
3. Exercices progressifs sur le corpus Voeux présidentiels (JM Leblanc)14h-16h
4. Exercices, prise en main de Lexico (suite)
5. Traitement des corpus personnels
Documents:
- Présentation de Lexico3 , programme des exercices. (PDF) (HTML)
Exercices:
- 3.1 : Balisage, segmentation, rapport, graphiques de ventilation, concordances. (PDF) (HTML)
- 3.2 : Groupes de formes, segments répétés. (PDF) (HTML)
- 3.3 : Spécificités par partie et spécificités chronologiques. (PDF) (HTML)
- 3.4 : Analyse factorielle des correspondances. (PDF) (HTML)
- 3.5 : Topographie textuelle et cooccurrents spécifiques. (PDF) (HTML)
>> Séance 4 ( Samedi 21 février 2004 )
Informatique textuelle
Séance 4, samedi 21 février 2004 à 9h30, CMC 227.
9h30-12h30
1. La méthodologie Alceste.
- Distributions statistiques et distribution linguistique
- Cooccurrences et univers lexicaux
- UCI, UCE, Mots étoilés
2. Prise en main d'Alceste
- Exercice 4.1. Conversion du corpus Majpres2 de Lexico vers Alceste.
- Analyse du corpus Majpres2 sous Alceste : Les classes sémantico thématiques du corpus, les U.C.E caractéristiques.
13h30-16h303. Exposés de synthèse (JML, PF)
- Hyperbase, Alceste, deux approches lexicométriques.
- Autour du JE présidentiel : Application des outils Lexico, Hyperbase, Weblex, et Alceste dans la recherche des cooccurrences. Exemples d'application sur le corpus des voeux présidentiels.
4. Passage Alceste sur les corpus des participants.
Documents:
Exercices:
- 4.1 : Conversion du corpus Majpres2 de Lexico vers Alceste (avec corrigé). (PDF) (HTML)
- 4.2 : Analyse du corpus Majpres2 sous Alceste. (PDF) (HTML)
Documents:
- Deux états du corpus Majpres2 (Lexico / Alceste). (Zip)
>> Séance 5 ( Samedi 13 mars 2004 )
Informatique textuelle
Séance 5, samedi 13 mars 2004 à 9h30, CMC 227.
9h30-12h30
1. Présentation de WEBLEX, outil lexicométrique évolué en ligne.
- Les fonction documentaires
- Les fonctions statistiques
- Les fonctions cooccurrentielles (Lexicogrammes simples et récursifs)2. Prise en main de WEBLEX.
- Exercice 5.1 : L'examen de la forme Europe, ses dérivés, ses composés, sa répartition, ses spécificités, ses cooccurrents. Sur le corpus MAJPLUR (1997-2000).
14h-16h30
3. Exploration des différentes couches du corpus, en surface (forme graphique) ou sur les catégories morpho-syntaxiques. .
- Le catégoriseur Cordial et son utilisation dans Weblex
- La recherche de motifs (formes graphiques ou catégories). Les expressions CQP
4. Travaux sur les corpus des participants.
Documents :
Exercices :
- 5.1 : L'examen de la forme Europe sur le corpus Maplur.
- 5.2 : Recherche de motifs sous weblex
Documents :
>> Séance 6 ( Samedi 3 avril 2004 )
Informatique textuelle
Séance 6, samedi 3 avril 2004 à 9h30, CMC 227.
Une chaîne de traitement lexicométrique sur Majpres
9h30-11h00
1.CORDIAL : logiciel associant trois types de fonctions :
- corrections de textes
- documentation lexicométrique de base : index, segments répétés, etc
- étiquetage: catégorisation morpho-syntaxique
Logiciel ayant pour finalité l'évaluation stylistique, lexicale, morphosyntaxique, stylistique, sémantique des textes.2. Lexico3 et Hyperbase :
3. ALCESTE, outil de construction des univers sémantiques textuels par extraction de classes d’énoncés cooccurentiels
4. WEBLEX, outil lexicométrique en ligne, développé autour de la notion de cooccurrence, traitant notamment des textes étiquetés.
11h-13h- Etablissement d’un tableau synoptique des propriétés comparées de logiciels.
- Etat des travaux das le domaine ( CD-Rom JADT 04)14h – 16h30
- Frantext catégorisé et la construction de grammaires
- Recueils de données
- Travaux personnels
Documents :
>> Séance 7 ( Samedi 15 mai 2004 )
Informatique textuelle
Séance 7, samedi 15 mai 2004 à 9h30, CMC 227.
Corpus multilingues et alignements textométriques
9h30-10h30
Exposé de Maria Zimina-Poirot (EA 2290 SYLED, Université
Sorbonne Nouvelle Paris 3)11h - 12h30
- Exercices: alignements des textes et repérages des unités
lexicales- Bilan de l'année autour d'un verre
13h30 - 16h
- Discussion document de synthèse : tableau comparatif des logiciels
lexicométriques
- Suite et fin des travaux personnels
Documents :
Exercices :
- 7.1 : Analyse de corpus de textes juridiques (français/anglais) à l'aide d'outils de statistique textuelle - Lexico3. (Maria Zimina-Poirot). (PDF)
Documents :
- Ressources : http://www.cavi.univ-paris3.fr/ilpga/ed/student/stmz/ED268-PagePersoMZ_fichiers/stmz/page2.htm