Annotation XML de sources multilingues en
Histoire
Principes
de l'annotation d'un corpus historique
L'annotation
de sources et de corpus est une façon d'en améliorer
la connaissance et l'interprétation pour mieux répondre
à des objectifs de précision, de généralisation
ou de comparaison. Le système d'annotation retenu est
fondé sur le langage XML
(eXtensible Markup Language).
Rendre
questionnable une source textuelle en la transcrivant sous
la forme d'un tableau Excel ou d'une base Access demande à
l'historien de prendre des décisions à un moment
où il n'a le plus souvent qu'une connaissance partielle
de sa source.
C'est ce qui se passe par exemple quand l'historien crée
les champs (colonnes) de sa base et qu'il doit alors définir
des catégories sémantiques. Certaines d'entre
elles peuvent rapidement s'avérer inadéquates
au fur et à mesure qu'il améliore la connaissance
de sa source et qu'il conçoit de mieux en mieux la
nature des questions pertinentes. Il lui faut alors revenir
sur sa transcription. C'est ce qu'il fait quand il regroupe
ou au contraire subdivise des champs de sa base.
L'annotation permet au contraire de fabriquer des catégories
sémantiques de façon progressive ce qui a pour
effet de pouvoir les rendre plus intéressantes et les
relier de plus en plus directement à un questionnement
de plus en plus perspicace.
Un
exemple d'annotation d'un corpus historique :
les publications du CRH (1966-1998)
DAUPHIN, Cécile & GRONOFF, Jean-Daniel & KARPE,
Raymonde. 2005. La vitrine du Centre de recherches
historiques: les publications. in (Les
cahiers du Centre de recherches historiques,
n°36, octobre 2005, pp 165-188. )
Ce
corpus de
5700 références a été compilé
par Cécile Dauphin (CRH-EHESS) à partir
des rapports quadriennaux produits par le Centre de Recherche
Historique (EHESS) à partir de 1970. Ce corpus
a été annoté avec le système d'annotation
automatique Word-HRML et avec le système d'annotation automatique expérimental HCorpus-HRML écrit
en langage C par Jean-Daniel Gronoff (1998-2000). Ces
moyens d'annotation ont respecté la même syntaxe
afin de pouvoir adapter la transcription des différentes
sources aux procédures de catégorisation imposées
par le questionnement sous la forme d'un tableau Access (cf.
description de la méthodologie et présentation de quelques
résultats).
Autres références:
- MALRIEU, Denise. & GRONOFF, Jean-Daniel. 1999. "Associations
libres et mémoire sémantique: que nous apprend l'approche morphologique? Un retraitement du corpus de
Kent et Rosanoff".in ( Les Cahiers de Lexicologie, vol 75-1999-2) .
- GRONOFF,
Jean-Daniel. 2000. " De la rhétorique des sources à la sémantique d'un corpus. Les enjeux de l'informatisation d'un corpus historique de références bibliographiques. Rapport de travail sur le corpus des publications du CRH". Paris: EHESS-LDH. 4 pages.
- GRONOFF, Jean-Daniel. 2003. " European Project TRUST.
Synthetical representation of the multilingual performance
of the Trust Search Engine". European
Project TRUST (IST-1999-56416).
Multilingual Semantic And Cognitive
Search Engine for Text Retrieval Using Semantic Technologies.
- GRONOFF, Jean-Daniel. 2003. "Construction de systèmes
de questionnement de réseaux de noms. Le logiciel HCorpus et le langage HRML:
représentations de liens nominaux dans une source de 5000
références bibliographiques". Paris:
EHESS-LDH. 16 pages (Publ. interne).
- GRONOFF, Jean-Daniel. 2003. "Construction de systèmes de questionnement de réseaux
de noms. The SHEP.Bibliography Test." Paris:EHESS-LDH. [Questionnement de plus de 1100 références bibliographiques publiées en 1976 par Jacques Léonard pour sa thèse Les médecins de l'Ouest au XIXe siècle". (Publ. interne), 12 pages. ]
- GRONOFF, Jean-Daniel. 2004. "Croisement de données biographiques et bibliographiques. Le mixage de sémantiques
par annotation HRML.". Paris: EHESS-LDH. [Note de présentation du logiciel HCorpus . 39 pages)
Récupération automatisée de sources documentaires
numériques textuelles sous forme de bases de données relationnelles
La philosophie du balisage sémantique
des corpus a pour objectif de permettre une interrogation
sémantique de corpus de textes conservés en
l'état. Le balisage permet toutefois de construire
de manière dynamique des bases de données relationnelles
correspondant aux corpus. Un certain nombre de méthodologies
ont été explorées pour réaliser
et automatiser ces manipulations.
Ce travail se fonde sur en premier lieu
sur la bibliothèque de Macros réalisée
par J.D. Gronoff en 2002 : outils
HRML Public Tools For Word (HeuRistics Markup Language,
HeuRistique par Marqueurs Linguistiques). Elle permet de reconnaître
automatiquement les propriétés graphiques ou
structurelles les plus usuelles d'un document codé
avec Word. Ces propriétés sont recodées
depuis la fenêtre du document sous forme de balises
insérées au fil du texte. Elles peuvent ainsi
être prises en compte dans les activités automatisées
de correction et de sémantisation, ainsi que dans les
processus d'homogénéisation de sources.
En second lieu, une bibliothèque supplémentaire
de macros a été développée par
P. Cristofoli pour affiner la reconnaissance d'informations
supplémentaires (dates, expressions régulières,
etc.) et surtout de hiérarchiser et référencer
l'ensemble des informations contenues dans les textes.
L'utilisation de l'ensemble de ces outils associé à
une stratégie cohérente de traitement de l'information
sémantique adaptée à la source permet
de constituer des fichiers tabulaires exploitables. Le travail
d'automatisation nécessite en effet d'étudier
finement les régularités formelles et sémantiques
présentes dans les fichiers Word source (régularité
dans la succession des informations, dans leur forme d'énonciation,
dans leur mise en forme spécifique, ...). Les stratégies
de traitement, notamment l'ordonnancement des opérations,
dépendent fortement de cette première analyse.
Les fichiers obtenus peuvent à leur tour faire l'objet
d'un traitement (automatisé ou non) afin d'organiser
au mieux les différents types d'informations présents
dans les documents Word originaux ainsi que les relations
qu'ils entretiennent. Ces opérations aboutissent généralement
à la constitution de bases de données relationnelles.
Ces procédures ont notamment été
appliquées pour transformer les documents Word décrivant
l'ensemble des généalogies
du Val de Bagne (publication papier) en base de données
relationnelle (40 000 enregistrements). Elles ont aussi été
utilisées dans plusieurs autres projets de récupération
de sources textuelles formalisées: procès verbaux
des élections des enseignants à l'EHESS, Almanach
des adresses parisiennes en 1789,...)
Textes et travaux réalisés:
- Jean-Daniel Gronoff, HRML
Outils pour Word (HRML Public Tools for Word). Programmes
et description, 1p. , Paris, 2002.
- Cristofoli Pascal, Récupération des tableaux généalogiques
du Val de Bagne. Du document Word à la base de données généalogiques:
la reconnaissance syntaxique et morphologique des informations
généalogiques. Multigr. , 56 p. , Paris, octobre 2005.
- Cristofoli Pascal, Balisage sémantique d'un texte par
reconnaissance syntaxique et morphologique des informations
- Dictionnaire de Macros de balisage. Multigr. , 40p.
, Paris, octobre 2005.
- Cristofoli Pascal, Les noms et les adresses des Almanachs
de 1789. Du texte à la base de donnée. Note technique,
1p. , Paris, 2006.
- Cristofoli Pascal, Note technique sur La récupération
des informations textuelles sur les élections des enseignants
à l'EHESS - Enquête sur les élections des enseignants à l'EHESS
(1986-2005), 1p. , Paris, 2007.