How to Get Your Data Ready for AI Agents (Docs, PDFs, Websites).

Want to get started as a freelancer? Let me help:

Additional Resources

📚 Just getting started? Learn the fundamentals of AI: https://www.skool.com/data-alchemy

🚀 Already building AI apps? Get our production framework: https://launchpad.datalumina.com/?utm...

💼 Need help with a project? Work with me:

Data Freelancer | Datalumina https://www.datalumina.com/data-freelancer?utm_source=youtube&utm_medium=video&utm_campaign=youtube_video_traffic&utm_content=How+to+Get+Your+Data+Ready+for+AI+Agents+%28Docs%2C+PDFs%2C+Websites%29

🔗 GitHub Repository

https://github.com/daveebbelaar/ai-cookbook/tree/main

🛠️ My VS Code / Cursor Setup

• The Ultimate VS Code Setup for Data &...

⏱️ Timestamps

0:45 Building an Extraction Pipeline

2:15 Document Conversion Basics

6:12 HTML Extraction Techniques

9:10 Chunking Data for AI

14:22 Storing in Vector Databases

19:51 Searching the Vector Database

22:16 Creating an Interactive Application

https://github.com/DS4SD/docling

https://ds4sd.github.io/docling/concepts/chunking/

📌 Description

In this Docling tutorial, you will learn to extract and structure data from various documents, utilizing techniques such as parsing, chunking, and embedding. A walkthrough of Docling and a practical demonstration illustrate these processes.

The video also explores integrating vector databases for efficient data storage and enhancing AI responses through embedding models. Finally, a simple interactive chat application is demonstrated, showcasing the completed knowledge extraction pipeline and optimization strategies.

👋🏻 About Me

Hi! I'm Dave, AI Engineer and founder of Datalumina®. On this channel, I share practical tutorials that teach developers how to build production-ready AI systems that actually work in the real world. Beyond these tutorials, I also help people start successful freelancing careers. Check out the links above to learn more!

https://youtu.be/9lBTS5dM27c?si=i07pyOuzvFKEhb7f

Architecture

L’architecture de Docling est décrite dans le schéma ci-dessus.

Pour chaque format de document, le convertisseur de documents sait quel backend spécifique au format utiliser pour l’analyse du document et quel pipeline utiliser pour orchestrer l’exécution, ainsi que toutes les options pertinentes. https://ds4sd.github.io/docling/concepts/architecture/

Dans ce tutoriel Docling, vous apprendrez à extraire et à structurer des données à partir de divers documents, en utilisant des techniques telles que l’analyse, le découpage et l’intégration. Une présentation de Docling et une démonstration pratique illustrent ces processus.

Pour LLAMA

Lecteur de documentation.

LlamaIndex est le cadre de référence pour la création d’agents LLM sur vos données.

%pip install -q --progress-bar off --no-warn-conflicts llama-index-core llama-index-readers-docling llama-index-node-parser-docling llama-index-embeddings-huggingface llama-index-llms-huggingface-api llama-index-readers-file python-dotenv

Docling Reader utilise Docling pour permettre l’extraction rapide et facile de PDF, DOCX, HTML et d’autres types de documents, au format Docling sérialisé en Markdown ou JSON, pour une utilisation dans les pipelines LlamaIndex pour RAG / QA, etc.

Installation.... llama_index/llama-index-integrations/readers/llama-index-readers-docling at main · run-llama/llama_index

LlamaIndex (GPT Index) est un cadre de données pour votre application LLM. Construire avec LlamaIndex implique généralement de travailler avec le noyau de LlamaIndex et un ensemble choisi d’intégrations (ou plugins).

Il y a deux façons de commencer à construire avec LlamaIndex dans Python:

Entrée : lama-index. Un package Python de démarrage qui inclut le noyau de LlamaIndex ainsi qu’une sélection d’intégrations.

Personnalisé : llama-index-core. Installez le noyau de LlamaIndex et ajoutez les packages d’intégration LlamaIndex de votre choix sur LlamaHub qui sont requis pour votre application.

Il y a plus de 300 intégrations LlamaIndex qui fonctionnent de manière transparente avec le noyau, ce qui vous permet de construire avec votre Fournisseurs de LLM, d’intégration et de magasins de vecteurs.

La bibliothèque Python LlamaIndex est dont les noms sont tels que les instructions d’importation qui include implique que le paquet de base est utilisé.

En revanche, ces sans impliquer qu’un package d’intégration est utilisé.

https://github.com/run-llama/llama_index/tree/main/llama-index-integrations/readers/llama-index-readers-docling

Lecteur de documentation LLAMA

Docling extrait PDF, DOCX, HTML et d’autres formats de documents dans une représentation riche (y compris la mise en page, les tableaux, etc.), qu’il peut exporter au format Markdown ou JSON.

Docling Reader et Docling Node Parser présentés dans ce carnet intègrent de manière transparente Docling dans LlamaIndex, vous permettant de :

utiliser différents types de documents dans vos applications LLM avec facilité et rapidité, et

tirez parti du format riche de Docling pour une base avancée et native du document.

https://docs.llamaindex.ai/en/stable/examples/data_connectors/DoclingReaderDemo/

https://ds4sd.github.io/docling/integrations/llamaindex/

https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/docs/examples/data_connectors/DoclingReaderDemo.ipynb#scrollTo=j-5jGSDq7kVo