Skip to content

Corpus réalisé dans le cadre de mon travail de recherche intitulé « Le modèle des espèces non vues appliqué à la littérature chevaleresque en langues ibériques ».

License

Notifications You must be signed in to change notification settings

carolisteia/iberian_lit_chivalry_unseen_species_model

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Le Modèle des Espèces Non Vues Appliqué à la Littérature Chevaleresque Ibérique

Titre du GIF

Description

Ce dépôt contient le travail effectué dans le cadre d'un mémoire de Master en Humanités Numériques intitulé "Le modèle des espèces non vues appliqué à la littérature chevaleresque dans la Péninsule Ibérique". Ce projet explore des méthodes quantitatives et computationnelles pour estimer la richesse et la diversité des textes médiévaux, en utilisant des modèles statistiques adaptés.

Ce projet de recherche s'inspire de l'article "Forgotten Books: The Application of Unseen Species Models to the Survival of Culture", coécrit par Mike Kestemont et Folgert Karsdorp (et al.), publié dans la revue Science en 2022. Cet article présente les résultats d'une étude approfondie menée sur la littérature épique et chevaleresque, couvrant six langues différentes.

Une présentation du projet est disponible sur la vidéo explicative ci-dessous : Aperçu de la vidéo

Les auteurs de cette étude partent d'un constat : parmi la multitude d'artefacts culturels créés à l'origine, seule une infime partie nous est parvenue. Cela pose une question fondamentale : comment estimer la quantité d'œuvres qui ont été perdues ? Afin d'estimer ces pertes quantitativement, les auteurs proposent l'application d'un modèle statistique sur un ensemble de données littéraires.

La richesse et la variété de la production culturelle passée sont souvent sous-estimées, un phénomène que les auteurs définissent comme un biais de sous-estimation. Pour corriger ce biais et estimer les pertes culturelles, le modèle des espèces non observées est utilisé. Ce modèle, inspiré de l'écologie et plus spécifiquement des études de biodiversité, établit une analogie pertinente entre deux domaines apparemment éloignés.

Dans ce cadre, les œuvres littéraires sont considérées comme des espèces en écologie, et les copies de manuscrits sont comparées à l'observation de ces espèces. Ainsi, le même modèle statistique peut être appliqué pour estimer les pertes. Les auteurs utilisent l'estimateur Chao1, nommé en l'honneur de la biostatisticienne Anne Chao, pour évaluer combien d'espèces (ou d'œuvres) n'ont pas été observées, en tenant compte du faible nombre d'observations.

En conséquence, les espèces (ou œuvres littéraires) qui existent dans l'ensemble mais qui n'ont pas été observées – désignées par $f0$ – peuvent être calculées. Ce calcul repose sur le nombre d'espèces observées une seule fois (les singletons) et deux fois (les doubletons) dans un ensemble de taille $n$. À cela, on ajoute les œuvres uniques repérées dans un ensemble de $n$ documents, notées $fSobs$, afin de déterminer la richesse originelle des œuvres. Grâce à cet estimateur, il est possible non seulement de calculer le nombre d'œuvres littéraires perdues, mais également d'estimer la richesse totale initiale d'une population littéraire.

En utilisant cette approche, ce projet vise à apporter une nouvelle compréhension de la diversité et de la transmission culturelle des œuvres médiévales, tout en quantifiant les pertes subies au fil des siècles dans le domaine de la littérature chevaleresque ibérique.

Contenu

  • /docs/ : Documentation du projet, y compris le mémoire complet et des articles pertinents pour approfondir la compréhension des concepts employés.
  • /data/ : Textes sources et échantillons utilisés pour l'analyse, comprenant des extraits de la littérature chevaleresque ibérique.
  • /notebooks/ : Notebooks pour réaliser les analyses des données.
  • /outputs/ : Résultats des analyses, comprenant des graphiques et des fichiers de sortie démontrant la diversité estimée et la probabilité de textes perdus.
  • README.md : Ce fichier, offrant une vue d'ensemble du projet, les objectifs, la méthodologie et les instructions pour répliquer l'analyse.

Instructions

Pour exécuter les scripts, veuillez installer les dépendances listées dans requirements.txt. Exécutez les notebooks dans /notebooks/ pour répliquer les analyses. Le code utilisé dans ce travail a été repris du dépôt du projet Forgotten Books, qui s'appuie largement sur le package open-source copia, co-développé par Mike Kestemont et Folgert Karsdorp. Pour plus d'information, consulter la documentation.

>>> pip install copia

Contributions

Les contributions sont les bienvenues, qu'il s'agisse d'ajouter de nouveaux textes au corpus ou de fournir des retours sur le travail effectué.

Auteurs

License

Ce travail est sous licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International.

Pour plus d'informations, consultez le texte complet de la licence ici : Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International.

CC BY-SA 4.0

About

Corpus réalisé dans le cadre de mon travail de recherche intitulé « Le modèle des espèces non vues appliqué à la littérature chevaleresque en langues ibériques ».

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published