EHESS - Laboratoire de démographie et d'histoire sociale - Thèmes - Méthodologies sémantiques

Méthodologies sémantiques pour les sciences humaines et sociales
  • Annotation de corpus
  • Récupération automatisée

Annotation XML de sources multilingues en Histoire

Principes de l'annotation d'un corpus historique

L'annotation de sources et de corpus est une façon d'en améliorer la connaissance et l'interprétation pour mieux répondre à des objectifs de précision, de généralisation ou de comparaison. Le système d'annotation retenu est fondé sur le langage XML (eXtensible Markup Language).

Rendre questionnable une source textuelle en la transcrivant sous la forme d'un tableau Excel ou d'une base Access demande à l'historien de prendre des décisions à un moment où il n'a le plus souvent qu'une connaissance partielle de sa source.
C'est ce qui se passe par exemple quand l'historien crée les champs (colonnes) de sa base et qu'il doit alors définir des catégories sémantiques. Certaines d'entre elles peuvent rapidement s'avérer inadéquates au fur et à mesure qu'il améliore la connaissance de sa source et qu'il conçoit de mieux en mieux la nature des questions pertinentes. Il lui faut alors revenir sur sa transcription. C'est ce qu'il fait quand il regroupe ou au contraire subdivise des champs de sa base.
L'annotation permet au contraire de fabriquer des catégories sémantiques de façon progressive ce qui a pour effet de pouvoir les rendre plus intéressantes et les relier de plus en plus directement à un questionnement de plus en plus perspicace.

Un exemple d'annotation d'un corpus historique :
les publications du CRH (1966-1998)

DAUPHIN, Cécile & GRONOFF, Jean-Daniel & KARPE, Raymonde. 2005.  La vitrine du Centre de recherches historiques: les publications. in (Les cahiers du Centre de recherches historiques, n°36, octobre 2005, pp 165-188. )

Ce corpus de 5700 références a été compilé par Cécile Dauphin (CRH-EHESS) à partir des rapports quadriennaux produits par le Centre de Recherche Historique (EHESS)  à partir de 1970. Ce corpus a été annoté avec le système d'annotation automatique Word-HRML et avec le système d'annotation automatique expérimental HCorpus-HRML écrit en langage C par Jean-Daniel Gronoff (1998-2000). Ces moyens d'annotation ont respecté la même syntaxe afin de pouvoir adapter la transcription des différentes sources aux procédures de catégorisation imposées par le questionnement sous la forme d'un tableau Access (cf. description de la méthodologie et présentation de quelques résultats).

Autres références:
- MALRIEU, Denise. & GRONOFF, Jean-Daniel. 1999. "Associations libres et mémoire sémantique: que nous apprend l'approche morphologique? Un retraitement du corpus de Kent et Rosanoff".in ( Les Cahiers de Lexicologie, vol 75-1999-2) .
- GRONOFF, Jean-Daniel. 2000. " De la rhétorique des sources à la sémantique d'un corpus. Les enjeux de l'informatisation d'un corpus historique de références bibliographiques. Rapport de travail sur le corpus des publications du CRH". Paris: EHESS-LDH. 4 pages.
- GRONOFF, Jean-Daniel. 2003. " European Project TRUST. Synthetical representation of the multilingual performance of the Trust Search Engine". European Project TRUST (IST-1999-56416). Multilingual Semantic And Cognitive Search Engine for Text Retrieval Using Semantic Technologies.
- GRONOFF, Jean-Daniel. 2003. "Construction de systèmes de questionnement de réseaux de noms. Le logiciel HCorpus et le langage HRML: représentations de liens nominaux dans une source de 5000 références bibliographiques". Paris: EHESS-LDH. 16 pages (Publ. interne).
- GRONOFF, Jean-Daniel. 2003. "Construction de systèmes de questionnement de réseaux de noms. The SHEP.Bibliography Test." Paris:EHESS-LDH. [Questionnement de plus de 1100 références bibliographiques publiées en 1976 par Jacques Léonard pour sa thèse Les médecins de l'Ouest au XIXe siècle". (Publ. interne), 12 pages. ]
- GRONOFF, Jean-Daniel. 2004. "Croisement de données biographiques et bibliographiques. Le mixage de sémantiques par annotation HRML.". Paris: EHESS-LDH. [Note de présentation du logiciel HCorpus . 39 pages)

Récupération automatisée de sources documentaires numériques textuelles sous forme de bases de données relationnelles

La philosophie du balisage sémantique des corpus a pour objectif de permettre une interrogation sémantique de corpus de textes conservés en l'état. Le balisage permet toutefois de construire de manière dynamique des bases de données relationnelles correspondant aux corpus. Un certain nombre de méthodologies ont été explorées pour réaliser et automatiser ces manipulations.

Ce travail se fonde sur en premier lieu sur la bibliothèque de Macros réalisée par J.D. Gronoff en 2002 : outils HRML Public Tools For Word (HeuRistics Markup Language, HeuRistique par Marqueurs Linguistiques). Elle permet de reconnaître automatiquement les propriétés graphiques ou structurelles les plus usuelles d'un document codé avec Word. Ces propriétés sont recodées depuis la fenêtre du document sous forme de balises insérées au fil du texte. Elles peuvent ainsi être prises en compte dans les activités automatisées de correction et de sémantisation, ainsi que dans les processus d'homogénéisation de sources.
En second lieu, une bibliothèque supplémentaire de macros a été développée par P. Cristofoli pour affiner la reconnaissance d'informations supplémentaires (dates, expressions régulières, etc.) et surtout de hiérarchiser et référencer l'ensemble des informations contenues dans les textes.
L'utilisation de l'ensemble de ces outils associé à une stratégie cohérente de traitement de l'information sémantique adaptée à la source permet de constituer des fichiers tabulaires exploitables. Le travail d'automatisation nécessite en effet d'étudier finement les régularités formelles et sémantiques présentes dans les fichiers Word source (régularité dans la succession des informations, dans leur forme d'énonciation, dans leur mise en forme spécifique, ...). Les stratégies de traitement, notamment l'ordonnancement des opérations, dépendent fortement de cette première analyse. Les fichiers obtenus peuvent à leur tour faire l'objet d'un traitement (automatisé ou non) afin d'organiser au mieux les différents types d'informations présents dans les documents Word originaux ainsi que les relations qu'ils entretiennent. Ces opérations aboutissent généralement à la constitution de bases de données relationnelles.

Ces procédures ont notamment été appliquées pour transformer les documents Word décrivant l'ensemble des généalogies du Val de Bagne (publication papier) en base de données relationnelle (40 000 enregistrements). Elles ont aussi été utilisées dans plusieurs autres projets de récupération de sources textuelles formalisées: procès verbaux des élections des enseignants à l'EHESS, Almanach des adresses parisiennes en 1789,...)

Textes et travaux réalisés:
- Jean-Daniel Gronoff, HRML Outils pour Word (HRML Public Tools for Word). Programmes et description, 1p. , Paris, 2002.
- Cristofoli Pascal, Récupération des tableaux généalogiques du Val de Bagne. Du document Word à la base de données généalogiques: la reconnaissance syntaxique et morphologique des informations généalogiques. Multigr. , 56 p. , Paris, octobre 2005.
- Cristofoli Pascal, Balisage sémantique d'un texte par reconnaissance syntaxique et morphologique des informations - Dictionnaire de Macros de balisage. Multigr. , 40p. , Paris, octobre 2005.
- Cristofoli Pascal, Les noms et les adresses des Almanachs de 1789. Du texte à la base de donnée. Note technique, 1p. , Paris, 2006.
- Cristofoli Pascal, Note technique sur La récupération des informations textuelles sur les élections des enseignants à l'EHESS - Enquête sur les élections des enseignants à l'EHESS (1986-2005), 1p. , Paris, 2007.


Responsables
Jean-Daniel Gronoff
Pascal Cristofoli


Associés:
Maroula Sinarellis,
Lena KORMA (doct. Paris I)

 

Dernière mise à jour : 30 mars, 2010