Transformation, conversion calibrage de données sous Word

 

Soit le fichier Document source.rtf partiellement balisé pour Hyperbase.

· 1. Transformer la balise locuteur de telle sorte que le corpus soit exploitable par Lexico.

Utiliser pour ce faire les fonctions de recherche et de remplacement de Word.

Rappel : Les clés utilisées par Lexico doivent respecter la syntaxe suivante :

<typeclé=nomclé>

Exemple : <locuteur=ferry> ou <date=2002/06/12>

- Aucun espace entre les chevrons. Les intitulés des types de clés doivent être rigoureusement identiques. Consulter le fichier " atrace.txt " en cas de problème.

· 2. Compter les balises locuteur.

 

· 3. Insérer une balise date en utilisant les indications notées sur la ligne suivant la balise locuteur. Exemple : LCI, entretien du 12/06/2002

Cette balise devra être précédée d’un saut de ligne.

· 4.Modifier la mise en forme des balises afin qu’elles apparaissent en caractères non gras.

· 5.Supprimer les commentaires, méta info et interventions des journalistes qui ne doivent pas être prises en compte lors de la segmentation. Cette opération pourra s’effectuer en deux temps.

· 6.Sauvegarder le fichier au format texte seul dans le répertoire de travail de Lexico.

Toutes ces manipulations sont à effectuer au moyen de la fonction " rechercher/remplacer " de Word. Certains cas de figure nécessitent d’utiliser les caractères génériques et expressions régulières ainsi que les caractères spéciaux.

Pour utiliser un opérateur comme simple caractère, on le fera précéder d’un anti-slash (\). Par exemple pour rechercher une balise ouvrante on saisira " \< "dans la Zone rechercher

- Quelques exemples d’opérateurs disponibles sous word :

Le passage à la ligne se note " ^p "

Pour rechercher n’importe quel caractère : ?

Pour rechercher de 1 à n caractères quelconques : ?*

Pour rechercher un chiffre : [0-9]

Pour rechercher une lettre : [A-Z]

Pour rechercher exactement n occurrences d’un chiffre : [0-9]{n}

Au moins n occurrences d’un chiffre : [0-9]{n ;}