Retour à la page d'accueil du site perso
Phase d'élaboration du corpus

L'analyse du corpus a été effectuée à l'aide des logiciels d'analyse Lexico 3, puis Hyperbase 6.0, intéressant pour le nombre de factorielle qu'il peut établir entre les termes et les textes.

En ce qui concerne Lexico 3, le corpus a été nettoyé selon la configuration requise par le logiciel. Des expréssions régulières ont été utilisées pour procéder au nettoyage du corpus dans TextPad. Sous Hyperbase, 3 corpus ont été constitués. Un regroupant les articles, un autre les rapports, et un troisième la totalité des textes (35). Ce découpage s'explique d'abord par des problèmes techniques rencontrés lors de la création de la base dans Hyperbase 6.0. Cependant ce mode d'analyse a permis de dégager certaines particularités du corpus, notamment au niveau de la nature des textes, puisque ce sera notre axe d'analyse. La disparité des documents qui composent le corpus d'article de presse rend aussi nécessaire une analyse préalable, afin de comprendre les singularités qui se présenteraient lors de l'analyse du corpus complet. Nous saurons donc si ce découpage est intéressante et peut apporter un plus à l'analyse.


La segmentation de lexico 3 est assez compliquée, car des erreurs peuvent apparaître lors du formatage et ainsi empêcher le traitement du corpus. Il faut donc consulter le fichier "atrace.txt", généré lorsque le logiciel détecte les erreurs, afin de corriger le corpus. Ces erreurs sont souvent dues à des balises non formatées Lexico 3. Le nettoyage du corpus est une tâche longue et exhaustive. La patience et la rigueur sont donc de mise.

Le formatage permettant l'utilisation de Hyperbase fut tout aussi problématique. La création de la base regroupant les 35 textes a été, plusieurs fois, interrompue lors de la 2ème étape (Importation et formatage des textes), ce qui conduisit à l'élaboration de 3 corpus : celui des articles, celui des rapports et celui des tous les textes, après avoir consulter le fichier d'aide présent dans le logiciel.


La TEI

Le corpus a été balisé selon la norme TEI, afin de procéder à l'analyse DTM. La TEI (Text Encoding Initiative) permet de stocker électroniquement des informations. Elle est utilisée pour l'échange de données textuelles. La TEI s'appuie sur le XML, mais possède tout de même sa propre norme. Pour qu'un balisage soit correctement effectué, il doit être TEI conforme. L'indexation des textes a nécessité un choix de balise conforme aux documents originaux. Cette étape est la plus longue de la TEI et une bonne connaissance du XML est indispensable.

La DTM

DTM (Data and Text Mining) est un logiciel d'analyse statistique de données quantitatives et textuelles. Il a été élaboré par Ludovic Lebart, Directeur de recherches au C.N.R.S. Il permet de faire des factorielle beaucoup plus élaborées que Hyperbase 6.0 par exemple. Cependant l'analyse de ces factorielles n'est pas aisée. Nous avons là trois factorielles, une ne contenant que les textes, une seconde qui ne contient que les variables, obtenues grâce à l'annotation morphosyntaxique, et une troisième les deux derniers paramètres. Le peu de temps passé sur DTM n'a pas permis d'obtenir une analyse complète, cependant vous trouverez ces trois factorielles répertoriées dans le lien ci-dessous.

[ Lien vers factorielles DTM ]

Liens

Lien vers le Corpus sur le réchauffement global :

Corpus Johanna BONAPARTE

[ Cliquez ]

Liste des textes :

Tableau Excel

[ Cliquez ]

Johanna BONAPARTE © | Master 2 Professionnel | Traductique et gestion de l'information | Inalco | Année 2007