Instructions élémentaires pour
le recueil des textes et la constitution de corpus
lexicométriques (HYPERBASE, LEXICO, WEBLEX)
1. Saisie des données. Réaliser un scannage des textes si ceux-ci n'existent pas sous un format informatique;
2. Recueil des textes dans un format homogène. Récupérer le résultat du scannage ou de la saisie (téléchargement de fichiers pdf ; exportation de CD-ROM) à l'intérieur d'un logiciel de traitement de textes, WORD, format .doc, de préférence;
3. Corrections orthographiques. Corriger les fautes de saisie, coquilles, fautes d’accentuation, grâce au correcteur orthographique; pour les langues à accents orthographiques autoriser les majuscules accentuées (Menu outils /options /édition /majuscules accentuées) puis sauvegarder
4. Suppression des caractères et lignes inutiles. En
cas de téléchargement à partir de la Toile, le texte est souvent rempli de
caractères graphiques et de sauts de ligne indésirables. Il faut les supprimer
ou les remplacer par la fonction Remplacer
de Word. La démarche à suivre pour supprimer les interlignes est la
suivante :
- veiller à ce que les paragraphes
soient séparés par une ligne blanche;
- aller dans la fonction word
"Rechercher-Remplacer" dans le menu
Edition;
- remplacer les doubles sauts de lignes
(code suivant : ^p^p) par $$;
- remplacer les simples sauts de lignes
(^p) par un espace;
- remplacer $$ par ^p. Votre texte
normalement est désormais "propre".
(On peut faire précéder les paragraphes du signe §, balise utile pour
reconnaître les paragraphes)
5. Fusion des textes en un seul fichier et partition du corpus. Rassembler tous les textes en un seul fichier ; à l'intérieur du fichier, séparer chaque texte différent par une clé du type:
-Pour LEXICO (ou WEBLEX)
<loc= CGT1> : à gauche du signe = : le nom de la clé, trois lettres qui rappellent la nature de la partition; à droite du signe = : trois lettres qui rappellent l'émetteur du texte ou le thème de travail et un chiffre qui numérote le nombre de textes différents qui formeront la base, classés par exemple par ordre chronologique.
-Pour la version
HYPERBASE MAC la clé est de la forme
A la ligne
$$$gov=3D01$$$
A la ligne
Après le dernier texte du fichier, aller à la ligne et taper
&
-Pour la version
HYPERBASE WIN la clé sera de la forme
A la ligne
&&&gov=3D01&&&
A la ligne
6. Homogénéisation casse, police, lignes. Sélectionner tout le texte
puis
-aller dans le menu "format", sélectionner la commande "changer la casse", sélectionner la sous-commande "tout en minuscule";
-Changer la police de caractères, choisir la police "Courrier";
-Réduire la marge du texte pour que celui-ci ait des lignes
de 65
caractères environ;
7. Sauvegarde finale. Sauvegarder le fichier en un
format "texte seul (ou brut) avec saut de ligne" avec nom bref
rappelant le contenu du corpus : exemple : CGT.txt
8. Réalisation d’une note documentaire. Deux parties
- l’une explique le choix des textes, les hypothèses de travail, les sources, les caractèristiques extralinguistique
- l’autre recense les références de chacun des textes de la base et le sens des abréviations utilisées dans les clés (locuteur du discours, récepteur du discours, lieu, date, références NB. Cette note explicative comportant les méta information sur le corpus, ses conditions de saisie de recueil et de constitution peut être stockée sous hyperbase dans un fichier biblio, au format txt.