Installer GEMMA4 sur votre PC.
Les modèles Gemma 4 sont conçus pour offrir des performances de niveau pionnier à chaque taille. Ils sont bien adaptés au raisonnement, aux flux de travail agentiques, au codage et à la compréhension multimodale. La commande : ollama run gemma4
Gemma 4 est une famille de modèles multimodaux, performants, scalables, et optimisés pour le local. Le 31B est le modèle le plus puissant, tandis que les E2B/E4B sont parfaits pour les machines modestes. L'intéret de Gemma4 ce sont ses performances quand nous ne sommes pas connectés à internet.
Modèles
Voir tous les →Gemma est une famille de modèles ouverts construite par Google DeepMind.
Les modèles Gemma 4 sont multimodaux, gérant l’entrée de texte et d’images et générant la sortie texte.
Gemma 4 introduit des avancées clés en capacités et en architecture :
Raisonnement – Tous les modèles de la famille sont conçus comme des raisonnements hautement capables, avec des modes de pensée configurables.
Multimodalités étendues – Processus texte, image avec un rapport d’aspect variable et un support de résolution (tous les modèles)
Architectures diverses et efficaces – Propose des variantes Dense et Mixture-of-Experts (MoE) de différentes tailles pour un déploiement évolutif.
Optimisé pour l’utilisation sur appareil – Les modèles plus petits sont spécifiquement conçus pour une exécution locale efficace sur ordinateurs portables et appareils mobiles.
Fenêtre de contexte accrue – Les modèles petits disposent d’une fenêtre contextuelle de 128K, tandis que les modèles moyens supportent 256K.
Capacités améliorées de codage et d’agents – Réalise des améliorations notables dans les benchmarks de codage ainsi que le support natif des appels de fonctions, alimentant des agents autonomes hautement performants.
Support natif des prompts système – Gemma 4 introduit un support natif pour le poste, permettant des conversations plus structurées et contrôlables.
system
Résultats des benchmarks
Ces modèles ont été évalués par rapport à une grande collection de jeux de données et de métriques différents pour couvrir différents aspects de la génération de texte. Les résultats d’évaluation indiqués dans le tableau concernent des modèles orientés sur l’instruction.
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (pas de pensée) | |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 sans outils | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | 110 |
| Diamant GPQA | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| Tau2 (moyenne supérieure à 3) | 76.9% | 68.2% | 42.2% | 24.5% | 16.2% |
| HLE pas d’outils | 19.5% | 8.7% | - | - | - |
| HLE avec recherche | 26.5% | 17.2% | - | - | - |
| BigBench Extra Difficile | 74.4% | 64.8% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 76.6% | 67.4% | 70.7% |
| Vision | |||||
| MMMU Pro | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5 (distance moyenne de montage, plus faible c’est mieux) | 0.131 | 0.149 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 28.7% | 23.5% | - |
| Audio | |||||
| CoVoST | - | - | 35.54 | 33.47 | - |
| FLEURS (plus bas, mieux c’est) | - | - | 0.08 | 0.09 | - |
| Contexte long | |||||
| MRCR v2 8 aiguilles 128k (moyenne) | 66.4% | 44.1% | 25.4% | 19.1% | 13.5% |
Informations sur le modèle
| Propriété | E2B | E4B | 31B Dense |
|---|---|---|---|
| Paramètres totaux | 2,3B effectif (5,1B avec embeddings) | 4,5B effectif (8B avec embeddings) | 30.7B |
| Couches | 35 | 42 | 60 |
| Fenêtre coulissante | 512 jetons | 512 jetons | 1024 jetons |
| Longueur du contexte | 128K jetons | 128K jetons | 256K jetons |
| Taille du vocabulaire | 262K | 262K | 262K |
| Modalités prises en charge | Texte, Image, Audio | Texte, Image, Audio | Texte, Image |
| Paramètres de l’encodeur Vision | ~150M | ~150M | ~550M |
| Paramètres de l’encodeur audio | ~300M | ~300M | Pas de son |
Modèle Mélange d’Experts (MoE)
| Propriété | 26B A4B MoE |
|---|---|
| Paramètres totaux | 25.2B |
| Paramètres actifs | 3,8B |
| Couches | 30 |
| Fenêtre coulissante | 1024 jetons |
| Longueur du contexte | 256K jetons |
| Taille du vocabulaire | 262K |
| Expert Count | 8 actifs / 128 au total et 1 partagé |
| Modalités prises en charge | Texte, Image |
| Paramètres de l’encodeur Vision | ~550M |
Bonnes pratiques
Pour les meilleures performances, utilisez ces configurations et bonnes pratiques :
1. Paramètres d’échantillonnage
Utilisez la configuration d’échantillonnage standardisée suivante pour tous les cas d’usage :
temperature=1.0top_p=0.95top_k=64
2. Configuration du mode de réflexion
Notez qu’Ollama gère déjà les complexités du modèle de chat pour vous.
Comparés à Gemma 3, les modèles utilisent les rôles standards, et les rôles.
Pour bien gérer le processus de réflexion, utilisez les jetons de contrôle suivants :systemassistantuser
- Pensée déclenchante : La réflexion est rendue possible en incluant le jeton au début de l’invite système. Pour désactiver la réflexion, supprimez le jeton.
<|think|> - Génération standard : Lorsque la pensée est activée, le modèle produit son raisonnement interne suivi de la réponse finale utilisant cette structure :
[Raisonnement interne]<|channel>thought\n<channel|> - Comportement de "pensée handicapé" : Pour tous les modèles sauf les variantes E2B et E4B, si la pensée est désactivée, le modèle générera toujours les balises mais avec un bloc de pensée vide :
[Réponse finale]<|channel>thought\n<channel|>
3. Conversations à plusieurs tours
- Pas de contenu de réflexion dans l’histoire : Dans les conversations sur plusieurs tours, la sortie du modèle historique ne doit inclure que la réponse finale. Les pensées des tours des modèles précédents ne doivent pas être ajoutées avant le début du tour suivant de l’utilisateur.
4. Ordre des modalités
- Pour une performance optimale avec les entrées multimodales, placez l’image et/ou le contenu audio avant le texte dans votre invite.
5. Résolution variable de l’image
Outre les rapports d’aspect variables, Gemma 4 prend en charge la résolution variable de l’image via un budget visuel configurable, qui contrôle combien de jetons sont utilisés pour représenter une image. Un budget de jetons plus élevé permet de conserver plus de détails visuels
au prix d’un calcul supplémentaire, tandis qu’un budget plus faible permet une inférence plus rapide pour des tâches qui ne nécessitent pas une compréhension approfondie.
- Les budgets de jetons pris en charge sont : 70, 140, 280, 560 et 1120.
- Utilisez des budgets plus faibles pour la classification, le sous-titrage ou la compréhension vidéo, où une inférence et un traitement plus rapides de nombreuses images l’emportent sur les détails détaillés.
- Utilisez des budgets plus élevés pour des tâches comme l’OCR, l’analyse syntaxique de documents ou la lecture de petits textes.