Affichage des articles dont le libellé est OCR. Afficher tous les articles
Affichage des articles dont le libellé est OCR. Afficher tous les articles

mardi 9 juillet 2024

Analyse du document "AI Language Model Comparison Cheatsheet" avec l'IA

Analyse du document "AI Language Model Comparison Cheatsheet" avec l'IA CLAUDE :

Je dois préciser que je suis parti d'un document au format PDF, l'IA CLAUDE m'a fourni ces résultats à la suite à d'un prompte, voici le document en question :

SCAN+OCR.

Et le prompte :  ceci implique le scan du document et son OCR, c'est fait automatiquement par l'IA.

Voici AI Language Model Comparison Cheatsheet, m'analyser ce document m'en faire un résumer, et me comparer les solutions entre elles, puis faire un graphique de type histogramme et finalement réaliser un résumer avec des commentaires sur les choix possibles, le tout en français.
Me faire une analyse plus technique et la commenter avec des arguments comparatifs entre ces usages de ces solutions.

Résumé du document traduit en français : 

Ce document compare différents grands modèles de langage (LLM) d'IA, notamment GPT-4, Claude 3 Opus, Gemini Pro, Mistral Large, Falcon LLM, 70B LLaMA 3, ERNIE 3.0 Titan et Grok-1. Il fournit des informations sur leur classement Elo, la taille de leur fenêtre contextuelle, leur date de sortie, leur niveau de censure, les interfaces disponibles, leur facilité d'utilisation, leurs cas d'usage recommandés et leur prix.

CLAUDE 3.5 OPUS en mode projet.

CLAUDE 3.5 OPUS en mode projet.


Histogramme, voir le code en fin de cette page.

https://claude.site/artifacts/5d38b952-c144-42c6-ade1-5b10050ffcba

Code de l'histogramme fourni par CLAUDE.

Rendu du rapport dans l'IA CLAUDE, il est ci-après :

Comparaison des solutions :

• GPT-4 et Claude 3 Opus ont les meilleurs classements Elo (1252 et 1255) et des fenêtres contextuelles de taille moyenne. Ils sont modérément censurés et coûtent 20$.

• Gemini Pro a un bon classement (1204), une grande fenêtre contextuelle et est intégré à Google. Il coûte également 20$.

• ERNIE 3.0 Titan est très prometteur avec un classement de 1220 mais a une forte censure.

• 70B LLaMA 3 a un bon rapport efficacité/taille avec un classement de 1210 pour seulement 8 pages de contexte. Il est open source et gratuit.

• Mistral Large et Falcon LLM sont plus basiques, avec des classements de 1157 et 1028. Ils sont gratuits et adaptés à des usages légers.

• Grok-1 est amusant pour des réponses humoristiques et des tweets, à prix abordable (8$).

Histogramme comparant les modèles de langage d'IA :


Résumé et commentaires : 

GPT-4 et Claude 3 Opus semblent être les choix les plus performants et polyvalents, si le budget le permet. Gemini Pro est aussi une excellente option, surtout pour une intégration avec les outils Google.

Pour une utilisation open source gratuite, 70B LLaMA 3 offre un excellent compromis performance/coût. ERNIE 3.0 Titan est très prometteur mais sa forte censure peut être un frein.

Pour des besoins plus légers ou ludiques, Mistral Large, Falcon LLM et Grok-1 peuvent convenir, avec l'avantage d'être gratuits ou peu chers.

Le choix final dépendra des besoins spécifiques (tâches, budget, intégrations nécessaires, contraintes éthiques) de chaque utilisateur. Mais ce comparatif permet d'y voir plus clair parmi les nombreuses solutions de LLM disponibles et d'orienter la décision.

------------------- 

Voici une analyse plus technique des différents modèles de langage présentés, avec des arguments comparatifs sur leurs usages :

Performance et taille des modèles :

GPT-4 et Claude 3 Opus ont les meilleures performances (Elo de 1252 et 1255) avec une taille raisonnable (24-150 pages de contexte). Ils sont adaptés à des tâches générales exigeantes.

ERNIE 3.0 Titan et Gemini Pro suivent de près (Elo 1220 et 1204), Gemini Pro ayant une fenêtre de contexte plus large (750 pages), ce qui le rend intéressant pour traiter de longs documents.

LLaMA 3 a un excellent ratio performance/taille (Elo 1210 pour seulement 8 pages de contexte), ce qui en fait un choix efficace pour de l'inférence rapide.

Spécialisations et intégrations :

• Claude 3 se distingue pour la rédaction créative et le traitement de longs fichiers. Son API permet une intégration facile.

• Gemini Pro, avec son intégration native à Google, est idéal pour une utilisation dans cet écosystème. Ses capacités de résumé en font un bon outil pour synthétiser l'information.

• Mistral Large propose des réponses sur mesure et modérées, utile pour des applications contrôlées.

• Grok-1 est orienté vers la génération de contenu amusant et de tweets, une niche intéressante.

Considérations éthiques :

La plupart des modèles ont une modération "Moderate", ce qui permet de les utiliser dans de nombreux cas.

Cependant, ERNIE 3.0 a une censure élevée ("High"), ce qui peut limiter son usage pour certaines applications nécessitant de la liberté d'expression.

À l'inverse, le niveau "Low" de Mistral, LLaMA 3 et Grok-1 les rend moins adaptés pour du contenu public non filtré.

Accessibilité et coût :

1. LLaMA 3 et Falcon LLM sont open source et gratuits, un avantage pour la recherche et les projets à faible budget.

2. GPT-4, Claude 3 et Gemini Pro ont un coût modéré (20$) qui reste abordable pour un usage professionnel, au vu de leurs performances.

3. Mistral Large et Falcon LLM, bien que limités, ont l'avantage d'être gratuits pour des tests et usages basiques.

4. Grok-1 est économique (8$) pour son usage spécialisé en contenu humoristique.

En résumé, le choix d'un modèle dépendra des priorités :

• Pour la performance pure : GPT-4, Claude 3, ERNIE 3.0

• Pour traiter de longs documents : Gemini Pro, Claude 3

• Pour une intégration Google : Gemini Pro

• Pour une inférence économe en ressources : LLaMA 3

• Pour des usages spécifiques : Mistral Large (modération), Grok-1 (humour)

• Pour de l'open source gratuit : LLaMA 3, Falcon LLM

Une combinaison de plusieurs modèles, en fonction des tâches, peut être optimale. Par exemple :

1. GPT-4/Claude 3 pour les tâches critiques nécessitant une haute performance

2. Gemini Pro pour le traitement de longs documents dans l'écosystème Google

3. LLaMA 3 pour une inférence rapide et peu coûteuse

4. Grok-1 pour générer du contenu engageant sur les réseaux sociaux

Cette approche permet de tirer parti des forces de chaque modèle de manière complémentaire.

Histogramme comparant le coût d'utilisation des modèles de langage d'IA :

Le graphique montre que :

• GPT-4, Claude 3 et Gemini Pro ont le coût d'utilisation le plus élevé à 20$. Cela reflète leurs performances de pointe et leurs larges capacités.

• Grok-1 a un coût intermédiaire de 8$. C'est un bon rapport qualité-prix pour son usage spécialisé en génération de contenu humoristique et de tweets.

• Mistral Large, Falcon LLM, LLaMA 3 et ERNIE 3.0 ont un coût d'utilisation nul (gratuit). C'est un avantage significatif pour les projets à faible budget, la recherche académique et l'expérimentation. 

○ Parmi ces modèles gratuits, LLaMA 3 se distingue par son excellent ratio performance/coût. Son faible coût d'inférence le rend très intéressant pour un déploiement à grande échelle.

○ Mistral Large et Falcon LLM, bien que plus limités en performance, permettent de tester et prototyper gratuitement des applications basées sur les modèles de langage.

En termes de rapport performance/coût :

• LLaMA 3 est le gagnant incontesté, offrant d'excellentes performances gratuitement.

• GPT-4, Claude 3 et Gemini Pro offrent les meilleures performances absolues, à un coût raisonnable pour un usage professionnel.

• Grok-1 est un bon compromis pour sa spécialisation.


Voici une synthèse du document "AI Language Model Comparison Cheatsheet" avec une analyse comparative des différents modèles de langage, un histogramme et des recommandations sur les choix possibles.

Résumé du document :

La fiche de comparaison présente les caractéristiques clés de 8 grands modèles de langage d'IA : GPT-4, Claude 3, Gemini Pro, Mistral Large, Falcon LLM, LLaMA 3, ERNIE 3.0 et Grok-1. Elle inclut leur classement Elo, la taille de leur fenêtre contextuelle, leur date de sortie, leur niveau de censure, les interfaces disponibles, leur facilité d'utilisation, leurs meilleurs usages et leur prix.

Comparaison des modèles :

- Performance : GPT-4 et Claude 3 ont les meilleurs scores Elo (1252 et 1255), suivis de près par ERNIE 3.0 (1220) et Gemini Pro (1204). LLaMA 3 a un excellent ratio performance/taille (1210 pour 8 pages de contexte).

- Fenêtre contextuelle : Gemini Pro et Claude 3 gèrent de longs contextes (750 pages), idéal pour traiter des documents complets. Les autres ont des fenêtres plus réduites (7.5 à 150 pages).

- Spécialisations : Claude 3 excelle en rédaction créative, Gemini Pro en intégration Google et synthèse, Mistral Large en réponses modérées, Grok-1 en contenu humoristique.

- Facilité d'utilisation : La plupart sont notés "Moderate", sauf Mistral Large, LLaMA 3 et Grok-1 qui sont "Low" (plus techniques).

- Prix : GPT-4, Claude 3 et Gemini Pro coûtent 20$. Grok-1 est à 8$. Les autres sont gratuits, dont LLaMA 3 et Falcon LLM qui sont open source.

Résumé et recommandations :

Pour des usages généraux exigeants, GPT-4 et Claude 3 sont les meilleurs choix si le budget le permet. LLaMA 3 offre un excellent compromis performance/coût en open source.

Pour traiter de longs documents, Gemini Pro et Claude 3 sont idéaux, Gemini Pro brillant aussi pour l'intégration Google et la synthèse d'information.

Pour des cas d'usage spécifiques, Mistral Large convient aux réponses modérées, Grok-1 au contenu humoristique et réseaux sociaux.

Les modèles gratuits (LLaMA 3, Falcon LLM) sont parfaits pour tester, prototyper et déployer à grande échelle. ERNIE 3.0 est prometteur mais sa forte censure peut être limitante.

En pratique, combiner plusieurs modèles est souvent optimal : les plus performants pour les tâches critiques, les gratuits pour le prétraitement et les usages secondaires. Le choix dépendra des besoins précis (performance, budget, spécialisations, déploiement, éthique).

Cette analyse comparative permet de s'y retrouver dans la jungle des grands modèles de langage et de choisir la meilleure stack en fonction de ses priorités projet et métier. N'hésitez pas à expérimenter pour trouver la combinaison qui vous conviendra le mieux !


Sources :

Google Gemini: A Comprehensive Benchmark Comparison with GPT-3.5, Mistral, and Llama – AI StartUps Product Information, Reviews, Latest Updates (cheatsheet.md)



LLM Leaderboard - Compare GPT-4o, Llama 3, Mistral, Gemini & other models | Artificial Analysis


LLM Leaderboard - Compare GPT-4o, Llama 3, Mistral, Gemini & other models | Artificial Analysis


Blog - AI Heroes


LAB GENEALOGIE - Public - www.erolgiraudy.eu/ 

P. Erol GIRAUDY sur la Généalogie de mes familles Giraudy et Ottomane de Turquie et du Comté de Nice.



Code histogramme :

<svg viewBox="0 0 800 600" xmlns="http://www.w3.org/2000/svg">
  <g transform="translate(100,550)">
    <g class="x axis" transform="translate(0,0)">
      <line x1="0" y1="0" x2="700" y2="0" stroke="black"/>
      <g transform="translate(30, 20)"><text>GPT-4</text></g>
      <g transform="translate(110, 20)"><text>Claude 3</text></g>
      <g transform="translate(200, 20)"><text>Gemini Pro</text></g>
      <g transform="translate(310, 20)"><text>Mistral Large</text></g>
      <g transform="translate(420, 20)"><text>Falcon LLM</text></g>  
      <g transform="translate(510, 20)"><text>LLaMA 3</text></g>
      <g transform="translate(600, 20)"><text>ERNIE 3.0</text></g>
      <g transform="translate(690, 20)"><text>Grok-1</text></g>
    </g>
    <g class="y axis">
      <line x1="0" y1="0" x2="0" y2="-400" stroke="black"/>
      <g transform="translate(-40, -40)"><text>1000</text></g>
      <g transform="translate(-40, -140)"><text>1100</text></g>
      <g transform="translate(-40, -240)"><text>1200</text></g>  
      <g transform="translate(-40, -340)"><text>1300</text></g>
    </g>
    <g fill="steelblue">
      <rect x="20" width="60" y="-252" height="252" />
      <rect x="100" width="60" y="-255" height="255" />  
      <rect x="180" width="60" y="-204" height="204" />
      <rect x="260" width="60" y="-157" height="157" />
      <rect x="340" width="60" y="-28" height="28" /> 
      <rect x="420" width="60" y="-210" height="210" />
      <rect x="500" width="60" y="-220" height="220" />
      <rect x="580" width="60" y="-235" height="235" /> 
    </g>
  </g>
</svg>


PIERRE EROL GIRAUDY 









samedi 22 juin 2024

Utilisation de Copilot pour lire et commenter un article de presse au format JPG.

Les étapes et les outils pour réaliser cette action de

 lecture de cette image :


Cette solution se décompose en plusieurs étapes :


  1. Obtenir une image de l'acte à traduire en en faisant une copie écran (image JPG).
    L'utilisation de **Photos de Microsoft** pour obtenir une image de l'acte est une excellente idée. Ainsi vous allez enlever les éléments pouvant perturber la phase d'OCR, notamment les informations en marge, certainement que les signatures ne seront pas déchiffrées. En fait ceci ne sera pas vraiment important, car souvent vous arriverez à les lire. Photos de Microsoft.
  2. Une fois que vous avez l'image, vous pouvez passer à l'étape suivante : l'extraction du texte à l'aide d'un outil OCR (Reconnaissance optique de caractères).  
  3. Extraire le texte de l'image :
    À partir de l'image de l'acte, un outil OCR (Reconnaissance optique de caractères) extrait le texte. L'outil que j'ai employé est Copilot de Microsoft ou bien OneNote.

Photos de Microsoft :  

Copilot : 

OneNote

Un exemple avec Copilot :

Ici j'ai simplement introduit cet article dans Copilot et je lui ai demandé de lire le texte, puis de le commenter.



Lecture du texte par Copilot : avec la demande "Lecture du texte"

Copilot m'indique :

Analyse de l’image : les visages peuvent être flous pour protéger la confidentialité

Génération de vos réponses…

Bien sûr ! Voici la transcription du texte que vous avez partagé :

Le départ de l’ex-calife

GENÈVE, 29. - Selon le Petit Parisien, l’ex-calife va transférer sa résidence de Téritet à Cimiez, près de Nice, dans la villa Xoulces. Cette belle demeure a été construite il y a quelques années par un riche industriel des Vosges. La villa Xoulces, déjà occupée par des locataires de marque, pourrait bientôt servir de demeure à l’ex-calife de Turquie, AbdulMedjid.

Non loin de là, dans une habitation à l’architecture orientale, résident déjà des princes de la famille royale depuis leur départ de la terre ottomane. Parmi eux, la princesse Zekje, son mari le prince Damad Noureddin pacha, la princesse Naimé et son mari le prince Djelaeddin pacha, ainsi que d’autres membres de la famille.

AbdulMedjid trouvera dans ce prestigieux décor de palmiers, qui évoque le souvenir de sa patrie lointaine, un lieu où supporter plus aisément les ennuis de l’exil.

Si vous avez besoin d’autres informations ou d’aide supplémentaire, n’hésitez pas à me le faire savoir ! 😊1


Ma requête à Copilot et son début de réponse.

Vous pouvez remarquer aussi le logo de BING.

Puis Copilot vous propose de lui poser des questions, voici ses réponses

Quelques questions à Copilot pour aller un peu plus loin sur ce sujet :

Cet article a une signification historique intéressante. Il mentionne le départ de l’ex-calife de Turquie, Abd ul Medjid, qui transfère sa résidence de Téritet à Cimiez, près de Nice, dans la villa Xoulces. La villa Xoulces est déjà associée à des locataires de marque, et elle pourrait bientôt devenir la demeure de l’ex-calife. Ce déménagement reflète les bouleversements politiques et sociaux de l’époque, ainsi que les conséquences de l’exil pour les membres de la famille royale ottomane. Le fait qu’Abdul Medjid trouve du réconfort dans ce lieu évoquant sa patrie lointaine ajoute une dimension émotionnelle à cette histoire.

3 Questions supplémentaires : 

Q1

L'exil d'Abdülmecid I, le 31e sultan de l'Empire ottoman, a été motivé par des circonstances historiques complexes. Voici un résumé des événements clés :

1. **Contexte** :
   - Abdülmecid I est monté sur le trône en 1839, succédant à son père, Mahmud II.
   - Son règne a été marqué par des mouvements nationalistes au sein des territoires de l'Empire ottoman.

2. **Objectif d'Ottomanisme** :
   - Abdülmecid souhaitait encourager l'Ottomanisme parmi les nations sujettes sécessionnistes et freiner les mouvements nationalistes croissants au sein de l'Empire.
   - Malgré de nouvelles lois et réformes visant à intégrer plus étroitement les non-Musulmans et les non-Turcs dans la société ottomane, ses efforts ont échoué dans ce domaine¹.

3. **Réformes de Tanzimat** :
   - La plus grande réalisation d'Abdülmecid a été l'annonce et l'application des réformes de Tanzimat en 1839.
   - Ces réformes, préparées par son père, ont lancé la modernisation de l'Empire ottoman.
   - Cependant, malgré ces efforts, les mouvements nationalistes ont persisté.

4. **Alliances avec les puissances européennes** :
   - Abdülmecid a cherché à forger des alliances avec les grandes puissances d'Europe occidentale, notamment le Royaume-Uni et la France.
   - Ensemble, ils ont combattu aux côtés de l'Empire ottoman lors de la guerre de Crimée contre la Russie.

5. **Exil** :
   - Après son règne, Abdülmecid a été exilé à Paris.
   - Il a été soutenu financièrement par le Nizam d'Hyderabad, un État princier en Inde sous la supervision britannique².

En somme, l'exil d'Abdülmecid I est lié à la complexité des événements politiques et sociaux de l'époque, ainsi qu'à ses efforts pour moderniser l'Empire ottoman et maintenir son unité face aux mouvements nationalistes.

Source : conversation avec Copilot, 22/06/2024
(1) Abdülmecid I - Wikipedia. https://en.wikipedia.org/wiki/Abdulmejid_I.
(2) Abdul Mejid II - New World Encyclopedia. https://www.newworldencyclopedia.org/entry/Abdul_Mejid_II.
(3) Abdülmecid II - Wikipedia. https://en.wikipedia.org/wiki/Abdulmejid_II.

Q2

Abdülmecid II, le dernier calife officiellement reconnu, a vécu son exil à Paris avec une combinaison d'art, de musique et de nostalgie. Voici quelques éléments clés sur sa vie pendant cette période :

1. **Artiste et Musicien** :
   - Abdülmecid était un talentueux pianiste et violoncelliste.
   - Il a créé environ 60 œuvres d'art, dont certaines représentent des scènes de nu dans des cours de harem et des portes de mosquées.
   - Son art reflète la synthèse des cultures européenne et islamique, caractéristique de la fin du XIXe siècle ottoman.

2. **Dernier Calife** :
   - En 1924, le Parlement de la République turque a aboli le dernier vestige du pouvoir ottoman, mettant fin au califat.
   - Abdülmecid a été dépouillé de son titre de calife, mettant ainsi fin à une institution vieille de plusieurs siècles.
   - Son rôle était désormais purement religieux.

3. **Exil à Paris** :
   - Abdülmecid a vécu ses dernières années à Paris, où il a continué à créer de l'art et à jouer de la musique.
   - Il a été soutenu financièrement par le Nizam d'Hyderabad, un prince indien, malgré la surveillance britannique sur l'État princier d'Hyderabad.

L'exposition "Le Monde extraordinaire du prince : Abdülmecid Efendi" au musée Sakıp Sabancı d'Istanbul présente ses œuvres et documents historiques, offrant un aperçu de sa vie et de son héritage⁴⁶. 🎨🎶

Source : conversation avec Copilot, 22/06/2024
(1) Abdülmecid II : artiste, musicien et dernier calife de l’islam. https://www.middleeasteye.net/fr/reportages/turquie-abdulmecid-artiste-musicien-dernier-calife-islam-ottomans.
(2) Abdul Mejid II - New World Encyclopedia. https://www.newworldencyclopedia.org/entry/Abdul_Mejid_II.
(3) Abdülmecid I - Wikipedia. https://en.wikipedia.org/wiki/Abdulmejid_I.
(4) Abdülmecid II - Wikipedia. https://en.wikipedia.org/wiki/Abdulmejid_II.
(5) Abdulmecid II: Artist, musician and the last caliph of Islam. https://www.middleeasteye.net/discover/turkey-ottoman-abdulmecid-ii-last-caliph-islam-artist-musician.
(6) Abdülmecid II — Wikipédia. https://fr.wikipedia.org/wiki/Abd%C3%BClmecid_II.
(7) fr.wikipedia.org. https://fr.wikipedia.org/wiki/Abd%C3%BClmecid_II.

Q3

Bien sûr ! Voici quelques anecdotes intéressantes sur la vie d’AbdulMedjid à Paris :

  1. Artiste et Musicien :
  1. Exil à Paris :

Ces aspects de sa vie illustrent à la fois son talent artistique et sa période d’exil dans la Ville Lumière. 


Autres solution : avec d'autres outils.


Comprendre un acte dans une langue étrangère est souvent une vraie gageure pour les généalogistes. Pourtant, avec l'aide de quelques outils informatiques, il est bien possible de traduire et transcrire ces actes de nos branches étrangères. C'est ce que montre ce tutoriel qui utilise Google Drive et ChatGPT.

Pour extraire le texte d'une image, vous avez quelques options :


1. **Outil en ligne** : Vous pouvez utiliser des outils en ligne gratuits qui convertissent le texte d'une image en format texte modifiable. Voici quelques-uns que vous pouvez essayer :
    - [Image to Text](https://www.imagetotext.io/fr) : Téléchargez votre image et cliquez sur "Soumettre" pour extraire le texte¹.
    - [FreeConvert](https://www.freeconvert.com/fr/convert/image-to-text) : Un autre outil en ligne pour extraire le texte des images⁴.

2. **Microsoft OneNote** : Si vous utilisez Windows, vous pouvez utiliser OneNote pour extraire le texte d'une image. Voici comment :
    - Téléchargez et installez l'application OneNote depuis le [Microsoft Store](https://www.microsoft.com/en-us/p/onenote/9wzdncrfhvjl).
    - Ouvrez OneNote, cliquez sur le menu "Insertion", puis sélectionnez "Image > À partir du fichier".
    - Choisissez le fichier image contenant le texte à extraire.
    - L'image s'insérera dans le document. Faites un clic droit dessus, puis copiez le texte de l'image³.

3. **Windows 11** : Si vous utilisez Windows 11, vous pouvez extraire le texte d'une image en utilisant le raccourci clavier Windows + Maj + T. Sélectionnez la zone de l'image contenant le texte que vous souhaitez récupérer⁵.

J'espère que l'une de ces méthodes vous conviendra ! Si vous avez besoin d'aide supplémentaire, n'hésitez pas à me le faire savoir. 😊

Source : conversation avec Copilot, 22/06/2024
(1) Convertir image en texte: Extraire texte d'une image. https://www.imagetotext.io/fr.
(2) Image en texte - Extraire le texte des images - FreeConvert. https://www.freeconvert.com/fr/convert/image-to-text.
(3) Comment extraire le texte d'une image : 4 façons - malekal.com. 
(4) Windows 11 : comment extraire le texte d’une image - 01net. 
(5) image en texte - extraire texte d'une image - Image to Text. 
(6) Windows 11 : comment extraire le texte d’une image - 01net. https://www.01net.com/astuces/windows-11-comment-extraire-le-texte-dune-image.html.


Résultat dans OneNote :


Il est plus complet, mais il faut le remettre en forme compte tenu de la mauvaise qualité de l'image.

Voici le texte, exploitable au format simple texte.
Enfin copiez/collez le texte dans le logiciel de votre choix.

Dans OneNote.

Définition :

L'OCR, ou **reconnaissance optique de caractères**, est une technologie qui permet d'extraire du texte imprimé ou manuscrit à partir d'images. Voici quelques points clés à retenir :


1. **Utilisation de l'OCR** :
   - Vous pouvez utiliser l'OCR pour extraire du texte à partir d'images telles que des affiches, des panneaux de rue, des étiquettes de produits, ainsi que de documents tels que des articles, des rapports et des factures.
   - Le texte est généralement extrait sous forme de mots, de lignes de texte et de paragraphes, ce qui facilite l'accès à la version numérique du texte numérisé.
   - Cela élimine ou réduit considérablement la nécessité d'une saisie manuelle des données.

2. **Traitement intelligent des documents (IDP)** :
   - L'IDP utilise l'OCR comme technologie de base pour extraire non seulement du texte, mais aussi une structure, des relations, des valeurs clés et d'autres informations centrées sur les documents.
   - Il s'appuie sur des services d'IA avancés pour obtenir des insights de niveau supérieur.

3. **Moteur OCR de Microsoft** :
   - Le moteur OCR de Microsoft (Read) est composé de plusieurs modèles avancés basés sur le Machine Learning, prenant en charge les langues globales.
   - Il peut extraire du texte imprimé et manuscrit, y compris des langues et des styles d'écriture mixtes.
   - Read est disponible en tant que service cloud et conteneur local pour la flexibilité du déploiement.

Si vous avez besoin d'extraire du texte à partir d'images ou de documents, l'OCR est un outil puissant à votre disposition¹. N'hésitez pas à explorer davantage cette technologie pour vos projets de recherche historique et généalogique ! 

Source : conversation avec Copilot, 22/06/2024
(1) OCR – reconnaissance optique de caractères - Azure AI services. 
(2) Comment utiliser l'OCR de Microsoft en 2023 - Office 365. 
(3) OCR - Optical Character Recognition - Azure AI services | Microsoft Learn. https://learn.microsoft.com/en-us/azure/ai-services/computer-vision/overview-ocr.
(4) Getty Images. 

LAB GENEALOGIE - Public - www.erolgiraudy.eu/ 

P. Erol GIRAUDY sur la Généalogie de mes familles Giraudy et Ottomane de Turquie et du Comté de Nice.



PIERRE EROL GIRAUDY 







lundi 22 avril 2024

Des logiciels de reconnaissance de texte pour la généalogie avec l'IA

Voici un outil de reconnaissance de texte.

Cependant, pour la généalogie, le logiciel Transkribus semble être le plus approprié.

Transkribus est une plateforme d'IA qui soutient votre travail avec des documents historiques. 

Transkribus vous permet de reconnaître automatiquement le texte, la mise en page et la structure de vos documents à l'aide d'IA. Pour cela, vous pouvez entraîner vos propres modèles d'IA adaptés à vos documents spécifiques. 

Transkribus vous permet également d'enrichir votre matériel avec des métadonnées, de collaborer avec d'autres personnes et d'effectuer facilement des recherches dans votre matériel.ne plateforme basée sur l’IA qui permet de numériser et transcrire des documents historiques imprimés, dactylographiés et manuscrits2. Il offre plusieurs fonctionnalités utiles pour la généalogie :

  1. Transcription automatique : Transkribus peut extraire le texte des images de documents manuscrits et le convertir en un fichier texte numérique.
  2. Recherche de texte : Avec la fonction Smart Search de Transkribus, vous pouvez rechercher les noms de vos ancêtres dans des collections entières.
  3. Balises : Vous pouvez baliser des personnes, des lieux ou des passages importants, puis rechercher ultérieurement ces balises dans les documents.
  4. Entraînement de l’IA : Vous pouvez entraîner Transkribus à reconnaître l’écriture manuscrite spécifique dans vos documents.
Teste de la Transcription automatique.

Ces fonctionnalités peuvent être très utiles pour la recherche généalogique. 

Vous pouvez utiliser Transkribus pour transformer les documents manuscrits de votre famille en documents numériques, ce qui facilite la recherche et le partage d’informations.

Généalogie (transkribus.org)

https://www.transkribus.org/genealogy

https://redcoupe.u/events/train-the-trainers-webiner-2/

Hatps://vv.facebook.com/trankribus

Expérimentation sur écriture manuscrite.

Assez bon résultat.

Test sur un document de L'AN mil huit cent soixante et un, et le vingt neuf avril - & dix heures.


Chaque ligne est numérotée ainsi cela simplifie la lecture de la transcription.

Pour la généalogie, le logiciel **Transkribus** est le plus approprié. Voici quelques-unes de ses fonctionnalités :

1. **Transcription automatique** : Transkribus peut extraire le texte des images de documents manuscrits et le convertir en un fichier texte numérique¹.

2. **Recherche de texte** : Avec la fonction Smart Search de Transkribus, vous pouvez rechercher les noms de vos ancêtres dans des collections entières¹.

3. **Balises** : Vous pouvez baliser des personnes, des lieux ou des passages importants, puis rechercher ultérieurement ces balises dans les documents¹.

4. **Entraînement de l'IA** : Vous pouvez entraîner Transkribus à reconnaître l'écriture manuscrite spécifique dans vos documents¹.

Ces fonctionnalités peuvent être très utiles pour la recherche généalogique. Vous pouvez utiliser Transkribus pour transformer les documents manuscrits de votre famille en documents numériques, ce qui facilite la recherche et le partage d'informations¹.

(1) Généalogie - transkribus.org. https://www.transkribus.org/fr/g%C3%A9n%C3%A9alogie

(2) Transkribus. https://www.transkribus.org/fr

Ottomans Turkish.

Rechercher sur ce site | La Revue française de Généalogie (rfgenealogie.com)

https://www.rfgenealogie.com/recherche?f%5B0%5D=motcle%3A441


TEKLIA, Automatic Document Processing with AI

https://teklia.com/   

Nous créons des solutions de reconnaissance et de traitement de documents basés sur l'IA.

L'expertise de Teklia consiste à développer des solutions d'analyse et de traitement de documents utilisant, entre autres, les technologies de Deep Learning. Nos logiciels combinent l'analyse d'images, la reconnaissance de textes imprimés et manuscrits, la segmentation de textes avec un système de classification et d'indexation de documents. Notre objectif est de fournir à nos clients un outil de traitement automatisé de documents facile à utiliser et adapté à leurs besoins. Dans le même esprit, nous avons développé une suite de solutions complémentaires afin de faciliter les projets de traitement de documents.

Arkindex, la plateforme de traitement de documents.



Socface est un projet de recherche soutenu par l'Agence nationale pour la Recherche (ANR), porté par l'Institut national d'études démographiques (INED) et la société Teklia, en partenariat avec Paris School of Economics et le Service interministériel des Archives de France (SIAF). Il vise à étudier les changements de la société française sur un siècle grâce à l'exploitation d'une source décrivant précisément la population française : les recensements de la population de 1836 à 1936, conservés et numérisés par les Archives départementales et les Archives municipales.

Les recensements numérisés seront transcrits automatiquement et analysés pour constituer une base de données de plusieurs millions d'individus, permettant d'une part au public des archives de faire des recherches nominatives ponctuelles et d'autre part aux chercheurs de mener des études en histoire économique, démographique ou sociale (évolutions du marché du travail, des mobilités, des inégalités par exemple).

Après des projets d'application de l'intelligence artificielle aux archives tels que Himanis et Lectaurep aux Archives nationales ou les décrets des États de Bourgogne aux Archives de la Côte d'Or, Socface est une expérimentation d'application de ces technologies à grande échelle dans le domaine des archives, sur une source très prisée tant pour les recherches généalogiques que pour des études historiques.

Suivre le projet sur le site dédié au projet Socface :  Socface, l'intelligence artificielle appliquée aux archives (FranceArchives)  :   



Le projet Socface réunit archivistes, démographes, économistes, historiens et informaticiens travaillant ensemble pour mettre au point des technologies de traitement à grande échelle de vastes séries de documents historiques. Le projet mobilise la reconnaissance automatique d’écriture manuscrite pour analyser l’ensemble des listes nominatives du recensement de 1836 à 1936 (soit 20 recensements). Le projet produira une base de données de tous les individus ayant vécu en France entre 1836 et 1936 et l’utilisera pour analyser le changement social dans la longue durée, améliorant ainsi considérablement notre compréhension des structures économiques et sociales françaises. L’autre impact majeur de Socface sera l’accès aux listes nominatives pour le grand public : les informations disponibles dans les listes nominatives seront diffusées en Open Access, permettant à quiconque de parcourir librement des centaines de millions d’enregistrements.

L'INRIA a développé plusieurs outils de reconnaissance de texte. 

SITE de l’INRIA.

Il existe également d'autres logiciels développés par l'INRIA, tels que **CATMuS** et **eScriptorium**, qui sont utilisés pour la reconnaissance de l'écriture dans les manuscrits médiévaux⁴. 

Cependant, ces outils sont plus spécialisés et peuvent ne pas être aussi utiles pour la généalogie que Transkribus⁴.

(3) ALMAnaCH, Inria. https://almanach.inria.fr/software_and_resources-fr.html

(4) ALMAnaCH, Inria. https://bing.com/search?q=logiciels+de+reconnaissance+de+texte+de+l%27INRIA+pour+la+g%c3%a9n%c3%a9alogie

(5) Le classement 2023 des logiciels de généalogie. https://www.genealogiepratique.fr/classement-logiciels-genealogie/


ALMAnaCH, Inria

https://almanach.inria.fr/software_and_resources-fr.html


Autres solutions :

Genscriber : un logiciel complet pour transcrire et relever vos documents généalogiques

https://genea-logiques.com/2017/06/16/genscriber-un-logiciel-complet-pour-transcrire-et-relever-vos-documents-genealogiques/


CATMuS Médiéval (fr) / CATMuS Médiéval.


Modèle de reconnaissance d'écriture pour les manuscrits médiévaux en alphabet latin.
Ce modèle est le résultat de la collaboration de chercheurs des projets CREMMA, GalliCorpora, HTRomance et DEEDS. Il suit les directives du CREMMA (complétées par le CREMMA Medii Aevi) et sera consolidé sous les directives médiévales du CATMuS dans un prochain article.
Le modèle est entraîné avec la normalisation Unicode NFD : chaque diacritique (y compris les exposants) est transcrit comme son propre caractère, séparément du caractère "principal". Le modèle est entraîné avec 3,4 millions de signes.


Fin de la campagne collaborative d’éducation de l’IA à Belfort : et maintenant ? | La Revue française de Généalogie (rfgenealogie.com)


Patricia Machet : "En généalogie, l’intelligence artificielle est prometteuse" | La Revue française de Généalogie (rfgenealogie.com)


Objectif 2113, la généalogie de demain (geneafinder.com)


PIERRE EROL GIRAUDY 






Cette Mise à Jour de Claude est EXCELLENTE ! (Styles Personnalisés)

Customize your styles Cette Mise à Jour de Claude est EXCELLENTE ! (Styles Personnalisés) Claude a récemment eu une mise à j...