Tutoriel : Extraction d'informations d'un fichier GEDCOM avec l'IA

 Ce tutoriel fournit une explication détaillée de la procédure utilisée, adaptée aux débutants en généalogie. 

Il commence par expliquer le contexte, puis détaille chaque étape du processus en utilisant des analogies simples. Les exercices pratiques à la fin encouragent les apprenants à réfléchir plus profondément sur le code et à envisager des applications pratiques.

Tutoriel : Extraction d'informations d'un fichier GEDCOM avec l'IA :

Introduction

En généalogie, nous travaillons souvent avec des fichiers GEDCOM*. Ces fichiers contiennent des informations sur les individus et leurs relations familiales. Aujourd'hui, nous allons apprendre comment extraire des informations spécifiques de ces fichiers, en utilisant comme exemple la recherche de personnes portant un nom de famille particulier.

Contexte :

Imaginons que vous ayez un grand arbre généalogique sous forme de fichier GEDCOM, et que vous vouliez trouver tous les membres de la famille "Giraudy". C'est exactement ce que notre code fait !

Procédure étape par étape avec CLAUDE 3.5 Sonnet :

Étape 1 : Comprendre la structure du fichier GEDCOM

Un fichier GEDCOM est comme un grand livre, où chaque personne a sa propre page. Sur cette page (qu'on appelle une balise <INDI>), on trouve des informations comme le nom, la date de naissance, etc.

Étape 2 : Rechercher les individus

Notre code commence par chercher toutes ces "pages" individuelles dans le grand livre. C'est ce que fait cette ligne :

indi_elements = re.findall(r'<INDI>(.*?)</INDI>', xml_content, re.DOTALL)

Étape 3 : Extraire les noms

Pour chaque "page" trouvée, nous cherchons spécifiquement le nom de la personne. C'est comme si on cherchait le titre sur chaque page. Voici comment on fait :

name_match = re.search(r'<NAME>(.*?)</NAME>', indi)

Étape 4 : Filtrer les noms Giraudy

Maintenant que nous avons le nom, nous vérifions s'il contient "Giraudy" ou "Giraudi" (car les noms peuvent parfois être écrits différemment). Si oui, nous le gardons dans notre liste.

if "GIRAUDY" in name.upper() or "GIRAUDI" in name.upper():
giraudy_names.append(name)

Étape 5 : Afficher les résultats

Enfin, nous affichons tous les noms que nous avons trouvés dans une jolie liste numérotée.


Exercices pratiques :

  1. Exercice de compréhension : Essayez d'expliquer à un ami pourquoi nous utilisons upper() quand nous comparons les noms.

  2. Exercice de modification : Comment modifieriez-vous le code pour chercher un autre nom de famille, par exemple "Dupont" ?

  3. Exercice d'extension : Pensez à d'autres informations que vous pourriez vouloir extraire pour chaque personne (par exemple, la date de naissance). Comment adapteriez-vous le code pour cela ?

Conclusion :

Ce tutoriel vous a montré comment extraire des informations spécifiques d'un fichier GEDCOM. C'est une compétence très utile en généalogie, car elle vous permet de naviguer efficacement dans de grands arbres généalogiques et de trouver rapidement les informations qui vous intéressent.

Le code :


import re

def extract_giraudy_names(xml_content):

    indi_elements = re.findall(r'<INDI>(.*?)</INDI>', xml_content, re.DOTALL)

    giraudy_names = []

    

    for indi in indi_elements:

        name_match = re.search(r'<NAME>(.*?)</NAME>', indi)

        if name_match:

            name = name_match.group(1)

            if "GIRAUDY" in name.upper() or "GIRAUDI" in name.upper():

                giraudy_names.append(name)

        return giraudy_names

giraudy_list = extract_giraudy_names(document_content)

print("Liste des personnes avec le nom Giraudy ou Giraudi:")

for i, name in enumerate(giraudy_list, 1):

    print(f"{i}. {name}")


# Extraction et analyse de données généalogiques à partir de fichiers GEDCOM

## Contexte

Vous êtes un généalogiste amateur qui vient de recevoir un fichier GEDCOM contenant un vaste arbre généalogique familial. Votre tâche est d'extraire des informations spécifiques de ce fichier et de les analyser pour répondre à des questions généalogiques précises.

## Objectifs d'apprentissage

1. Comprendre la structure et le contenu d'un fichier GEDCOM

2. Apprendre à utiliser Python pour extraire des données de fichiers GEDCOM

3. Développer des compétences en analyse de données généalogiques

4. Appliquer des techniques de programmation pour résoudre des problèmes généalogiques concrets

## Tâches principales

### 1. Extraction de données de base

- Écrivez un script Python pour extraire tous les individus portant le nom de famille "Giraudy" ou ses variantes (comme "Giraudi").

- Pour chaque individu trouvé, extrayez également leur date de naissance et de décès, si disponibles.


### 2. Analyse des relations familiales

- Modifiez votre script pour identifier les relations parent-enfant parmi les individus Giraudy.

- Créez une fonction pour trouver tous les descendants directs d'un individu Giraudy spécifique.


### 3. Analyse temporelle

- Calculez la durée de vie moyenne des individus Giraudy par siècle.

- Identifiez la période où le nom Giraudy était le plus répandu dans l'arbre généalogique.


### 4. Analyse géographique

- Si les lieux de naissance et de décès sont disponibles, tracez les mouvements géographiques de la famille Giraudy au fil du temps.


### 5. Visualisation des données

- Créez un arbre généalogique simplifié des Giraudy en utilisant une bibliothèque de visualisation Python (comme Graphviz).


Family tree layout with Dot/GraphViz - Stack Overflow :

https://stackoverflow.com/questions/2271704/family-tree-layout-with-dot-graphviz?newreg=38ac1f567f474192b5a60fb8b01ec98f


## Défis supplémentaires


1. Gestion des erreurs : Comment gérer les incohérences dans les données, comme des dates de naissance postérieures aux dates de décès ?

2. Performance : Optimisez votre code pour traiter efficacement de très grands fichiers GEDCOM (>100 000 individus).

3. Interface utilisateur : Créez une interface en ligne de commande simple permettant à l'utilisateur de choisir quelles analyses effectuer.


## Questions de réflexion


1. Quels défis éthiques pourriez-vous rencontrer en travaillant avec des données généalogiques ? Comment les aborderiez-vous ?

2. Comment pourriez-vous adapter votre code pour travailler avec d'autres formats de données généalogiques ?

3. Quelles autres analyses intéressantes pourriez-vous effectuer sur ces données généalogiques ?


## Ressources supplémentaires


- Documentation sur le format GEDCOM : [lien vers la spécification GEDCOM]

- Tutoriels Python pour le traitement de fichiers XML : [lien vers des tutoriels pertinents]

- Bibliothèques Python utiles pour la généalogie : [liste de bibliothèques recommandées]

## Livrable final

Préparez un rapport détaillant votre approche, vos résultats, et vos réflexions sur le processus. Incluez des extraits de code commentés, des visualisations de données, et des suggestions pour des analyses futures.


----------------------------------------------

Ce prompt plus complet couvre un large éventail d'aspects de l'extraction et de l'analyse de données généalogiques à partir de fichiers GEDCOM. Il guide l'apprenant à travers une série de tâches progressivement plus complexes, encourageant l'application pratique des compétences acquises et la réflexion critique sur les défis et implications éthiques du travail avec des données généalogiques.

Le prompt est structuré pour permettre une approche progressive, commençant par des tâches de base d'extraction de données, puis passant à des analyses plus complexes et à la visualisation. Les défis supplémentaires et les questions de réflexion encouragent les apprenants à penser au-delà des tâches immédiates et à considérer les implications plus larges de leur travail.

----------------------------------------------


GEDCOM* : Un fichier GEDCOM (GEnealogical Data COMmunication) est un format utilisé pour sauvegarder et partager des arbres généalogiques. Si vous n’avez pas de logiciel de généalogie sur votre ordinateur, vous n’avez pas besoin d’un fichier GEDCOM. Cependant, vous pouvez toujours récupérer et conserver une sauvegarde de votre arbre au format GEDCOM (.ged), par exemple, pour le partager avec un proche ou l’importer dans un logiciel de généalogie si vous décidez d’en utiliser un. N’oubliez pas de sauvegarder périodiquement votre arbre au format .gw (Geneweb) pour une sécurité accrue. Si cela vous intéresse, vous pouvez trouver plus d’informations sur la norme GEDCOM :

https://www.guide-genealogie.com/guide/gedcom.html

TRAVAUX Tests | Trello

https://trello.com/b/kcqqO420/travaux-tests


LAB GENEALOGIE - Public - www.erolgiraudy.eu/ 

P. Erol GIRAUDY sur la Généalogie de mes familles Giraudy et Ottomane de Turquie et du Comté de Nice.



PIERRE EROL GIRAUDY 




Aucun commentaire:

Enregistrer un commentaire

Phi-4

Phi 4 est un modèle ouvert de 14B à la pointe de la technologie de Microsoft. Un modèle ouvert de paramètres qui fonctionne ...