vendredi 8 novembre 2024

Les modèles de vision Meta Llama 3.2 (11B et 90B) sont maintenant disponibles.

 Ollama - Les modèles de vision Meta Llama 3.2 (11B et 90B) sont maintenant disponibles.

Les modèles de vision Meta Llama 3.2 sont une avancée significative dans le domaine de l'intelligence artificielle.

Qu'est-ce que Llama 3.2 Vision ?

Il s'agit d'une nouvelle génération de modèles de langage de grande taille (LLM) développés par Meta, conçus pour comprendre et interagir avec le monde visuel. Ces modèles, disponibles en deux tailles (11B et 90B paramètres), sont capables de :

Décrire des images : Ils peuvent générer des descriptions détaillées et précises de ce qu'ils voient sur une image.
Répondre à des questions sur des images : Vous pouvez poser des questions sur le contenu d'une image, et le modèle vous fournira une réponse.
Générer du texte à partir d'images : Ils peuvent créer du texte créatif ou informatif en se basant sur une image.

Pourquoi sont-ils importants ?

Accessibilité : Ces modèles sont open-source, ce qui signifie qu'ils sont accessibles à un large public de chercheurs et de développeurs.
Performance : Ils offrent des performances impressionnantes en matière de compréhension et de génération de texte à partir d'images.
Flexibilité : Ils peuvent être utilisés pour une variété d'applications, de la recherche à la création de produits.

Quelles sont les implications ?

Les modèles de vision Llama 3.2 ouvrent de nouvelles perspectives dans de nombreux domaines :

Accessibilité pour les personnes malvoyantes : Ils peuvent être utilisés pour décrire des images à des personnes qui ne peuvent pas les voir.
Amélioration des interfaces utilisateur : Ils peuvent être intégrés dans des applications pour rendre les interactions plus naturelles et intuitives.
Création de contenu : Ils peuvent être utilisés pour générer du contenu visuel et textuel de manière automatique.
En résumé

Les modèles de vision Llama 3.2 représentent une avancée majeure dans le domaine de l'IA. Ils offrent de nouvelles possibilités pour interagir avec le contenu visuel et ouvrent la voie à de nombreuses applications innovantes.

Vous souhaitez en savoir plus ?

Voici quelques ressources qui pourraient vous intéresser :

Page produit de Llama 3.2 : https://www.llama.com/
 
Ollama Vision logo
Meta's Llama 3.2 vision models are now available to run using Ollama in both 11B and 90B sizes.

Get started

ollama run llama3.2-vision
 
To run the larger 90B model:
ollama run llama3.2-vision:90b
 
To add an image to the prompt, drag and drop it into the terminal, or add a path to the image to the prompt on Linux.
 
Note: Llama 3.2 Vision 11B requires least 8GB of VRAM, and the 90B model requires at least 64 GB of VRAM.

Examples

 
Handwriting
 
Optical Character Recognition (OCR)

Charts & tables
 
Image Q&A
 

Usage

First, pull the model:
ollama pull llama3.2-vision

Python Library

JavaScript Library

cURL

Let’s build together!

We are so excited to bring you this update, and see what you build with it!
If you have any feedback, please do not hesitate to tell us either in our Discord or via hello@ollama.com.
 
The latest version of Ollama is 0.4 : https://ollama.com/download
 
Download Ollama
 

The Ollama maintainers

https://github.com/ollama/ollama


De plus Microsoft a fait un programme de formation gratuit sur l'éthique  je vais publier un article sur celle-ci... 

Aucun commentaire:

Enregistrer un commentaire

Cette Mise à Jour de Claude est EXCELLENTE ! (Styles Personnalisés)

Customize your styles Cette Mise à Jour de Claude est EXCELLENTE ! (Styles Personnalisés) Claude a récemment eu une mise à j...