Retour à la page d'accueil du site perso
Logiciels

Pour l'analyse du corpus deux logiciels ont été utilisés : Lexico 3 et Hyperbase 6.0, ainsi que 3 scripts élaborés par des IM (Ingénierie Multilingue).

Le traitement du corpus :

Après la collecte des textes, nous avons procédé à une annotation morphosyntaxique. Cela consiste à répertorier les catégories grammaticales présentes dans le corpus, à l'aide du logiciel libre TreeTagger1. Une manipulation2fut nécessaire afin que le logiciel puisse reconnaître le portugais.

Le corpus a été balisé selon les règles de la TEI (cf. Elaboration du corpus) afin de pouvoir effectuer plusieurs traitements. Pour faciliter le balisage, un script, élaboré par Séverine Guillaume, a permis d'encadrer chaque paragraphe de balises "<p></p>", marquant respectivement, le début et la fin d'un paragraphe (cf. Annexes 6). Même s'il a fallu ensuite reprendre le balisage pour faire apparaître des balises plus spécialisées comme "<head></head>" par exemple, ce programme a permis un gain de temps substantiel. Une fois le texte TEI conforme, ce fut au tour d'Aurélien LAUF, puis d'Egle Ramdani de traiter le corpus, ainsi que les annotations morphosyntaxiques, et ainsi procéder à l'analyse DTM (cf. Annexes 7). Malheureusement le logiciel DTM n'a pu être utilisé car le corpus présentait des erreurs lors du traitement final.

L'analyse du corpus :

Lexico 3 est un logiciel d'analyse statistique développé par l'équipe universitaire SYLED (Systèmes Linguistiques, Énonciation et Discursivité) et le CLA2T (Centre de Lexicométrie et d'Analyse Automatique des Textes) de l'Université de la Sorbonne Nouvelle-Paris 3. Il permet d'obtenir des résultats en « segments répétés », qui donnent la fréquence d'apparition de segments ou d'unités lexicales issus du corpus. Il permet également d'avoir des « cartes de sections » afin de bien distinguer la représentation selon le découpage choisi (par année, par partie, par textes...) pour l'étude du corpus. Il existe une fonction permettant de faire des analyses statistiques. Les analyses factorielles sont également disponibles.
Hyperbase 6.0 est un logiciel de traitement documentaire et statistique de corpus textuel. Son utilisation a surtout été utile pour les factorielles, car une erreur de lecture du fichier des facteurs nous en prive dans Lexico 3. Il est possible de connaître le nombre d'occurrences contenues dans le corpus. On peut également y faire des recherches par substantifs, adjectifs ou autres, afin d'afficher des listes et ainsi obtenir des représentations factorielles. Les facteurs 1-2 (Hyperbase en édite 3 : 1-2, 2-3 et 1-3) sont les seuls à apparaître dans l'analyse, car plus explicites. Nous avons également procédé à des représentations graphiques des mots issus des listes, lorsqu'elle étaient intéressantes pour l'analyse du corpus.


1.Système d'étiquetage automatique des catégories grammaticales des mots avec lemmatisation et possible tokenisation, www.limsi.fr 2.Effectuée par Séverine Guillaume.

Johanna BONAPARTE © | Master 2 Professionnel | Traductique et gestion de l'information | Inalco | Année 2007