lundi 22 juin 2026

Installation Ollama + Gemma 4 sur Windows (16 Go RAM) avec filtres

 Installer GEMMA4 sur votre PC.

Les modèles Gemma 4 sont conçus pour offrir des performances de niveau pionnier à chaque taille. Ils sont bien adaptés au raisonnement, aux flux de travail agentiques, au codage et à la compréhension multimodale. La commande : ollama run gemma4

Gemma 4 est une famille de modèles multimodaux, performants, scalables, et optimisés pour le local. Le 31B est le modèle le plus puissant, tandis que les E2B/E4B sont parfaits pour les machines modestes. L'intéret de Gemma4 ce sont ses performances quand nous ne sommes pas connectés à internet. 


Gemma est une famille de modèles ouverts construite par Google DeepMind. 

Les modèles Gemma 4 sont multimodaux, gérant l’entrée de texte et d’images et générant la sortie texte.

Gemma 4 introduit des avancées clés en capacités et en architecture :

  • Raisonnement – Tous les modèles de la famille sont conçus comme des raisonnements hautement capables, avec des modes de pensée configurables.

  • Multimodalités étendues – Processus texte, image avec un rapport d’aspect variable et un support de résolution (tous les modèles)

  • Architectures diverses et efficaces – Propose des variantes Dense et Mixture-of-Experts (MoE) de différentes tailles pour un déploiement évolutif.

  • Optimisé pour l’utilisation sur appareil – Les modèles plus petits sont spécifiquement conçus pour une exécution locale efficace sur ordinateurs portables et appareils mobiles.

  • Fenêtre de contexte accrue – Les modèles petits disposent d’une fenêtre contextuelle de 128K, tandis que les modèles moyens supportent 256K.

  • Capacités améliorées de codage et d’agents – Réalise des améliorations notables dans les benchmarks de codage ainsi que le support natif des appels de fonctions, alimentant des agents autonomes hautement performants.

  • Support natif des prompts système – Gemma 4 introduit un support natif pour le poste, permettant des conversations plus structurées et contrôlables.system

Résultats des benchmarks

Ces modèles ont été évalués par rapport à une grande collection de jeux de données et de métriques différents pour couvrir différents aspects de la génération de texte. Les résultats d’évaluation indiqués dans le tableau concernent des modèles orientés sur l’instruction.

Gemma 4 31BGemma 4 26B A4BGemma 4 E4BGemma 4 E2BGemma 3 27B (pas de pensée)
MMLU Pro85.2%82.6%69.4%60.0%67.6%
AIME 2026 sans outils89.2%88.3%42.5%37.5%20.8%
LiveCodeBench v680.0%77.1%52.0%44.0%29.1%
Codeforces ELO21501718940633110
Diamant GPQA84.3%82.3%58.6%43.4%42.4%
Tau2 (moyenne supérieure à 3)76.9%68.2%42.2%24.5%16.2%
HLE pas d’outils19.5%8.7%---
HLE avec recherche26.5%17.2%---
BigBench Extra Difficile74.4%64.8%33.1%21.9%19.3%
MMMLU88.4%86.3%76.6%67.4%70.7%
Vision
MMMU Pro76.9%73.8%52.6%44.2%49.7%
OmniDocBench 1.5 (distance moyenne de montage, plus faible c’est mieux)0.1310.1490.1810.2900.365
MATH-Vision85.6%82.4%59.5%52.4%46.0%
MedXPertQA MM61.3%58.1%28.7%23.5%-
Audio
CoVoST--35.5433.47-
FLEURS (plus bas, mieux c’est)--0.080.09-
Contexte long
MRCR v2 8 aiguilles 128k (moyenne)66.4%44.1%25.4%19.1%13.5%

Informations sur le modèle

PropriétéE2BE4B31B Dense
Paramètres totaux2,3B effectif (5,1B avec embeddings)4,5B effectif (8B avec embeddings)30.7B
Couches354260
Fenêtre coulissante512 jetons512 jetons1024 jetons
Longueur du contexte128K jetons128K jetons256K jetons
Taille du vocabulaire262K262K262K
Modalités prises en chargeTexte, Image, AudioTexte, Image, AudioTexte, Image
Paramètres de l’encodeur Vision~150M~150M~550M
Paramètres de l’encodeur audio~300M~300MPas de son

Modèle Mélange d’Experts (MoE)

Propriété26B A4B MoE
Paramètres totaux25.2B
Paramètres actifs3,8B
Couches30
Fenêtre coulissante1024 jetons
Longueur du contexte256K jetons
Taille du vocabulaire262K
Expert Count8 actifs / 128 au total et 1 partagé
Modalités prises en chargeTexte, Image
Paramètres de l’encodeur Vision~550M

Bonnes pratiques

Pour les meilleures performances, utilisez ces configurations et bonnes pratiques :

1. Paramètres d’échantillonnage

Utilisez la configuration d’échantillonnage standardisée suivante pour tous les cas d’usage :

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. Configuration du mode de réflexion

Notez qu’Ollama gère déjà les complexités du modèle de chat pour vous.

Comparés à Gemma 3, les modèles utilisent les rôles standards, et les rôles. 

Pour bien gérer le processus de réflexion, utilisez les jetons de contrôle suivants :systemassistantuser

  • Pensée déclenchante : La réflexion est rendue possible en incluant le jeton au début de l’invite système. Pour désactiver la réflexion, supprimez le jeton.<|think|>
  • Génération standard : Lorsque la pensée est activée, le modèle produit son raisonnement interne suivi de la réponse finale utilisant cette structure :
    [Raisonnement interne]
    <|channel>thought\n<channel|>
  • Comportement de "pensée handicapé" : Pour tous les modèles sauf les variantes E2B et E4B, si la pensée est désactivée, le modèle générera toujours les balises mais avec un bloc de pensée vide :
    [Réponse finale]
    <|channel>thought\n<channel|>

3. Conversations à plusieurs tours

  • Pas de contenu de réflexion dans l’histoire : Dans les conversations sur plusieurs tours, la sortie du modèle historique ne doit inclure que la réponse finale. Les pensées des tours des modèles précédents ne doivent pas être ajoutées avant le début du tour suivant de l’utilisateur.

4. Ordre des modalités

  • Pour une performance optimale avec les entrées multimodales, placez l’image et/ou le contenu audio avant le texte dans votre invite.

5. Résolution variable de l’image

Outre les rapports d’aspect variables, Gemma 4 prend en charge la résolution variable de l’image via un budget visuel configurable, qui contrôle combien de jetons sont utilisés pour représenter une image. Un budget de jetons plus élevé permet de conserver plus de détails visuels

au prix d’un calcul supplémentaire, tandis qu’un budget plus faible permet une inférence plus rapide pour des tâches qui ne nécessitent pas une compréhension approfondie.

  • Les budgets de jetons pris en charge sont : 70, 140, 280, 560 et 1120.
    • Utilisez des budgets plus faibles pour la classification, le sous-titrage ou la compréhension vidéo, où une inférence et un traitement plus rapides de nombreuses images l’emportent sur les détails détaillés.
    • Utilisez des budgets plus élevés pour des tâches comme l’OCR, l’analyse syntaxique de documents ou la lecture de petits textes.

Installation Ollama + Gemma 4 sur Windows (16 Go RAM) avec filtres

 Installer GEMMA4 sur votre PC. Les modèles Gemma 4 sont conçus pour offrir des performances de niveau pionnier à chaque taille. Ils sont bi...