Affichage des articles dont le libellé est huggingface. Afficher tous les articles
Affichage des articles dont le libellé est huggingface. Afficher tous les articles

lundi 7 avril 2025

LLAMA 4.0 nativement multimodale de l’IA

 

le début d’une nouvelle ère d’innovation nativement multimodale de l’IA.



Nous partageons les premiers modèles de Llama 4, qui permettront aux gens de créer des expériences multimodales plus personnalisées.


Llama 4 Scout, un modèle de 17 milliards de paramètres actifs avec 16 experts, est le meilleur modèle multimodal au monde dans sa catégorie et est plus puissant que tous les modèles Llama de la génération précédente, tout en s’adaptant à un seul GPU NVIDIA H100. De plus, Llama 4 Scout offre une fenêtre contextuelle de 10 millions et offre de meilleurs résultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur un large éventail de benchmarks largement publiés.

Llama 4 Maverick, un modèle de 17 milliards de paramètres actifs avec 128 experts, est le meilleur modèle multimodal de sa catégorie, battant GPT-4o et Gemini 2.0 Flash sur un large éventail de benchmarks largement publiés, tout en obtenant des résultats comparables à ceux du nouveau DeepSeek v3 sur le raisonnement et le codage, à moins de la moitié des paramètres actifs. Llama 4 Maverick offre un rapport performance/coût de premier ordre avec une version de chat expérimentale avec un score ELO de 1417 sur LMArena.

Ces modèles sont nos meilleurs à ce jour grâce à la distillation de Llama 4 Behemoth, un modèle de 288 milliards de paramètres actifs avec 16 experts qui est notre plus puissant à ce jour et parmi les LLM les plus intelligents au monde. Llama 4 Behemoth surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur plusieurs benchmarks STEM. Llama 4 Behemoth est toujours en formation, et nous sommes ravis de partager plus de détails à son sujet, même s’il est encore en vol.
Téléchargez les modèles Llama 4 Scout et Llama 4 Maverick dès aujourd’hui sur llama.com et Hugging Face. Essayez Meta AI construit avec Llama 4 dans WhatsApp, Messenger, Instagram Direct et sur le Web.

Alors que de plus en plus de personnes continuent d’utiliser l’intelligence artificielle pour améliorer leur vie quotidienne, il est important que les principaux modèles et systèmes soient librement disponibles afin que chacun puisse construire l’avenir des expériences personnalisées. Aujourd’hui, nous sommes ravis d’annoncer la suite de modèles la plus avancée qui prend en charge l’ensemble de l’écosystème Llama. Nous lançons Llama 4 Scout et Llama 4 Maverick, les premiers modèles multimodaux ouverts avec une prise en charge sans précédent de la longueur de contexte et nos premiers construits à l’aide d’une architecture MoE. Nous présentons également en avant-première Llama 4 Behemoth, l’un des LLM les plus intelligents au monde et notre plus puissant à ce jour pour servir d’enseignant à nos nouveaux modèles.

Ces modèles Llama 4 marquent le début d’une nouvelle ère pour l’écosystème Llama. Nous avons conçu deux modèles efficaces de la série Llama 4, Llama 4 Scout, un modèle de 17 milliards de paramètres actifs avec 16 experts, et Llama 4 Maverick, un modèle de 17 milliards de paramètres actifs avec 128 experts. Le premier s’adapte à un seul GPU H100 (avec quantification Int4) tandis que le second s’adapte à un seul hôte H100. Nous avons également formé un modèle d’enseignant, Llama 4 Behemoth, qui surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur des benchmarks axés sur les STEM tels que MATH-500 et GPQA Diamond. Bien que nous ne sortions pas encore Llama 4 Behemoth car il est encore en formation, nous sommes ravis de partager plus de détails techniques sur notre approche.

Nous continuons de croire que l’ouverture stimule l’innovation et qu’elle est bonne pour les développeurs, pour Meta et pour le monde. Nous rendons Llama 4 Scout et Llama 4 Maverick disponibles en téléchargement dès aujourd’hui sur llama.com et Hugging Face afin que tout le monde puisse continuer à créer de nouvelles expériences en utilisant notre dernière technologie. Nous les mettrons également à disposition via nos partenaires dans les prochains jours. Vous pouvez également essayer Meta AI avec Llama 4 à partir d’aujourd’hui sur WhatsApp, Messenger, Instagram Direct et sur le site Web Meta.AI.

Ce n’est que le début de la collection Llama 4. Nous pensons que les systèmes les plus intelligents doivent être capables de prendre des mesures généralisées, de converser naturellement avec les humains et de résoudre des problèmes difficiles qu’ils n’ont jamais vus auparavant. Donner à Llama des superpouvoirs dans ces domaines conduira à de meilleurs produits pour les utilisateurs sur nos plateformes et à davantage d’opportunités pour les développeurs d’innover sur les prochains grands cas d’utilisation grand public et commercial. Nous continuons à rechercher et à prototyper des modèles et des produits, et nous partagerons plus d’informations sur notre vision à la LlamaCon le 29 avril - inscrivez-vous pour en savoir plus.

Que vous soyez un développeur qui s’appuie sur nos modèles, une entreprise qui les intègre dans vos flux de travail ou que vous soyez simplement curieux de connaître les utilisations et les avantages potentiels de l’IA, Llama 4 Scout et Llama 4 Maverick sont les meilleurs choix pour ajouter une intelligence de nouvelle génération à vos produits. Aujourd’hui, nous sommes ravis de vous en dire plus sur les quatre principales parties de leur développement et sur notre processus de recherche et de conception. Nous sommes également impatients de voir les nouvelles expériences incroyables que la communauté créera avec nos nouveaux modèles Llama 4.

Pré-formation
Ces modèles représentent le meilleur de Llama, offrant une intelligence multimodale à un prix convaincant tout en surpassant les modèles de tailles nettement plus grandes. La construction de la prochaine génération de modèles de lamas nous a obligés à adopter plusieurs nouvelles approches lors de la pré-formation.

Nos nouveaux modèles Llama 4 sont nos premiers modèles qui utilisent une architecture mixte d’experts (MoE). Dans les modèles MoE, un seul jeton n’active qu’une fraction du total des paramètres. Les architectures MoE sont plus efficaces en calcul pour l’entraînement et l’inférence et, compte tenu d’un budget FLOPs d’entraînement fixe, offrent une qualité supérieure à celle d’un modèle dense.


À titre d’exemple, les modèles Llama 4 Maverick ont 17B de paramètres actifs et 400B de paramètres totaux. Nous utilisons une alternance de couches denses et de couches de mélange d’experts (MoE) pour l’efficacité de l’inférence. Les couches MoE utilisent 128 experts routés et un expert partagé. Chaque token est envoyé à l’expert partagé ainsi qu’à l’un des 128 experts routés. Par conséquent, alors que tous les paramètres sont stockés en mémoire, seul un sous-ensemble de l’ensemble des paramètres est activé lors de la diffusion de ces modèles. Cela améliore l’efficacité de l’inférence en réduisant les coûts de diffusion du modèle et la latence : Llama 4 Maverick peut être exécuté sur un seul hôte NVIDIA H100 DGX pour un déploiement facile, ou avec une inférence distribuée pour une efficacité maximale.

Les modèles Llama 4 sont conçus avec une multimodalité native, intégrant une fusion précoce pour intégrer de manière transparente le texte et les jetons de vision dans une dorsale de modèle unifiée. La fusion précoce est un grand pas en avant, car elle nous permet de pré-entraîner conjointement le modèle avec de grandes quantités de texte, d’images et de données vidéo non étiquetés. Nous avons également amélioré l’encodeur de vision dans Llama 4. Celui-ci est basé sur MetaCLIP, mais entraîné séparément en conjonction avec un modèle de lama congelé pour mieux adapter l’encodeur au LLM.

Nous avons développé une nouvelle technique d’entraînement, que nous appelons MetaP, qui nous permet de définir de manière fiable des hyperparamètres critiques du modèle, tels que les taux d’apprentissage par couche et les échelles d’initialisation. Nous avons constaté que les hyperparamètres choisis se transfèrent bien entre différentes valeurs de taille de lot, de largeur de modèle, de profondeur et de jetons d’entraînement. Llama 4 permet des efforts de mise au point de l’open source en pré-entraînant sur 200 langues, dont plus de 100 avec plus d’un milliard de jetons chacune, et globalement 10 fois plus de jetons multilingues que Llama 3.

De plus, nous nous concentrons sur l’entraînement efficace des modèles en utilisant la précision FP8, sans sacrifier la qualité et en garantissant une utilisation élevée des FLOPs du modèle - tout en pré-entraînant notre modèle Llama 4 Behemoth à l’aide de GPU FP8 et 32K, nous avons atteint 390 TFLOPs/GPU. Le mélange de données global pour l’entraînement comprenait plus de 30 billions de jetons, soit plus du double du mélange de pré-entraînement de Llama 3 et comprend divers ensembles de données de texte, d’images et de vidéos.

Nous avons poursuivi l’entraînement du modèle dans ce que nous appelons « mid-training » afin d’améliorer les capacités de base avec de nouvelles recettes d’entraînement, y compris l’extension de contexte long à l’aide d’ensembles de données spécialisés. Cela nous a permis d’améliorer la qualité du modèle tout en débloquant la meilleure longueur de contexte d’entrée de 10 millions pour Llama 4 Scout.

Post-formation : nos nouveaux modèles
Nos modèles les plus récents incluent des options plus petites et plus grandes pour s’adapter à un large éventail de cas d’utilisation et de besoins des développeurs. Llama 4 Maverick offre des performances inégalées et de pointe en matière de compréhension d’images et de textes, permettant la création d’applications d’IA sophistiquées qui comblent les barrières linguistiques. En tant que modèle de produit de travail pour les cas d’utilisation d’assistant général et de chat, Llama 4 Maverick est idéal pour la compréhension précise des images et l’écriture créative.

Le plus grand défi lors de la post-formation du modèle Llama 4 Maverick était de maintenir un équilibre entre plusieurs modalités de saisie, le raisonnement et les capacités de conversation. Pour mélanger les modalités, nous avons mis au point une stratégie de programme soigneusement élaborée qui ne fait aucun compromis sur les performances par rapport aux modèles experts de modalité individuelle. Avec Llama 4, nous avons remanié notre pipeline post-formation en adoptant une approche différente : le réglage fin supervisé léger (SFT) > l’apprentissage par renforcement en ligne (RL) > l’optimisation des préférences directes légères (DPO). L’un des principaux enseignements a été que SFT et DPO peuvent sur-contraindre le modèle, limitant l’exploration pendant l’étape de RL en ligne et conduisant à une précision sous-optimale, en particulier dans les domaines du raisonnement, du codage et des mathématiques. Pour résoudre ce problème, nous avons supprimé plus de 50 % de nos données étiquetées comme faciles en utilisant des modèles de lamas comme juge et avons fait une SFT légère sur la série plus difficile restante. Lors de l’étape suivante de l’apprentissage par renforcement multimodal en ligne, en sélectionnant soigneusement les invites les plus difficiles, nous avons pu réaliser un changement radical en termes de performances. De plus, nous avons mis en place une stratégie d’apprentissage par renforcement en ligne continue, où nous avons alterné entre l’entraînement du modèle, puis son utilisation pour filtrer et retenir continuellement uniquement les invites de difficulté moyenne à difficile. Cette stratégie s’est avérée très bénéfique en termes de calcul et de précision. Nous avons ensuite mis en place un DPO léger pour gérer les cas particuliers liés à la qualité de la réponse du modèle, en atteignant efficacement un bon équilibre entre l’intelligence du modèle et les capacités de conversation. L’architecture du pipeline et la stratégie d’apprentissage par renforcement en ligne continu avec filtrage adaptatif des données ont abouti à un modèle de chat à usage général de pointe, doté d’une intelligence de pointe et de capacités de compréhension d’images.

En tant que LLM à usage général, Llama 4 Maverick contient 17 milliards de paramètres actifs, 128 experts et 400 milliards de paramètres totaux, offrant une haute qualité à un prix inférieur à celui de Llama 3.3 70B. Llama 4 Maverick est le meilleur modèle multimodal de sa catégorie, dépassant des modèles comparables comme GPT-4o et Gemini 2.0 sur les références de codage, de raisonnement, multilingue, de contexte long et d’image, et il est compétitif avec le beaucoup plus grand DeepSeek v3.1 sur le codage et le raisonnement.


La suite en anglais sur :

https://ai.meta.com/blog/llama-4-multimodal-intelligence/?utm_source=perplexity

Explorez l’écosystème des lamas

Bien qu’il soit important que les modèles soient intelligents, les gens veulent également des modèles capables de répondre de manière personnalisée avec une vitesse humaine. En tant que nos modèles les plus avancés à ce jour, Llama 4 est optimisé pour répondre à ces besoins.

Bien sûr, les modèles sont un élément de l’écosystème plus large qui donne vie à ces expériences. Nous nous concentrons sur l’ensemble de la pile, qui comprend l’intégration de nouveaux produits. Nous sommes ravis de poursuivre les conversations que nous avons avec nos partenaires et la communauté open source, et comme toujours, nous sommes impatients de voir les expériences riches que les gens construisent dans le nouvel écosystème Llama.

Téléchargez les modèles Llama 4 Scout et Llama 4 Maverick dès aujourd’hui sur llama.com et Hugging Face. Essayez Meta AI construit avec Llama 4 dans WhatsApp, Messenger, Instagram Direct et sur le site Web Meta.AI.

Ce travail a été soutenu par nos partenaires de la communauté de l’IA. Nous tenons à remercier et à reconnaître (par ordre alphabétique) : Accenture, Amazon Web Services, AMD, Arm, CentML, Cerebras, Cloudflare, Databricks, Deepinfra, DeepLearning.AI, Dell, Deloitte, Fireworks AI, Google Cloud, Groq, Hugging Face, IBM Watsonx, Infosys, Intel, Kaggle, Mediatek, Microsoft Azure, Nebius, NVIDIA, ollama, Oracle Cloud, PwC, Qualcomm, Red Hat, SambaNova, Sarvam AI, Scale AI, Scaleway, Snowflake, TensorWave, Together AI, vLLM, Wipro.




-------------------------------------------------------------

Erol GIRAUDY

YouTube mes vidéos et PowerPoint :





LLAMA 4.0 nativement multimodale de l’IA

  le début d’une nouvelle ère d’innovation nativement multimodale de l’IA. Nous partageons les premiers modèles de Llama 4, qui permettront ...