PAGE (XML)

Un article de Wikipédia, l'encyclopédie libre.

PAGE (Page Analysis and Ground truth Elements) est un standard XML pour l'encodage de documents numérisés[1]. Comparable au format ALTO, il permet de rendre compte de l'organisation et de la structure d'une page et de ses contenus.

PAGE XML peut être utilisé afin de décrire :

  • le contenu des pages (régions, lignes de texte, mots, glyphes, ordre de lecture, contenu du texte, ...)
  • l'évaluation de l'analyse de la mise en page (profils d'évaluation, résultats d'évaluation, ...)
  • le découpage de l'image du document (grilles de découpage)

Le format est développé par le Pattern Recognition & Image Analysis Lab (PRIMA), au sein de l'Université de Salford à Manchester.

Ce schéma a été conçu pour être utilisé conjointement de techniques de segmentation et de transcription automatique (OCR et HTR) : en effet, PAGE vise à prendre en charge chacune des différentes étapes de la chaîne de traitement pour l'analyse de documents images (de l'amélioration de l'image à l'analyse de la mise en page en passant par l'OCR).

Le schéma PAGE XML est notamment utilisé comme format d'export et d'import par logiciels de transcription automatique tels qu'eScriptorium[2] et Transkribus[3]. C'est également un format d'export utilisé par Kraken, un système OCR clé en main optimisé pour les documents en caractères historiques et non-latins[4].

Structure globale[modifier | modifier le code]

Le format PAGE donne un cadre pour décrire les caractéristiques des images (bordures d'images, distorsions géométriques, corrections correspondantes, binarisation, etc.), ainsi que la mise en page et le contenu des pages[5] :

<?xml version="1.0" encoding="UTF-8"?>
<PcGts xmlns="http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15"
       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
       xsi:schemaLocation="http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15
       http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15/pagecontent.xsd">
    <Metadata></Metadata>
    <Page imageFilename="SimplePage.png" imageWidth="800" imageHeight="600">
        <ReadingOrder></ReadingOrder>
        <TextRegion></TextRegion>
            </Page>
</PcGts>

Tous les formats sont définis par un schéma XML, hébergé officiellement sur primaresearch.org.

Liens externes[modifier | modifier le code]

Notes et références[modifier | modifier le code]