Dans data/ on trouve des données qui ont été créées pour entraîner un modèle uniquement pour la transcription dans en-têtes des répertoires de notaires. Le but était de pouvoir annoter les en-têtes a posteriori avec un minimum d'erreurs étant donnée leur caractère répétitif.
Un caractère spécial (⠊
) est utilisé pour pouvoir facilement les distinguer du reste du texte écrit à la main. A l'époque de cette annotation, il n'était pas possible de typer les lignes de texte. Aujourd'hui, on pourrait se passer de ce caractère spécial et simplement signalement un sous-type ":print" à ces lignes en s'alignant sur l'ontologie SegmOnto.