Users Group Artificial Intelligence Agentique (U.G.A.I.A.)

Installer GEMMA4 sur votre PC.

Les modèles Gemma 4 sont conçus pour offrir des performances de niveau pionnier à chaque taille. Ils sont bien adaptés au raisonnement, aux flux de travail agentiques, au codage et à la compréhension multimodale. La commande : ollama run gemma4

Gemma 4 est une famille de modèles multimodaux, performants, scalables, et optimisés pour le local. Le 31B est le modèle le plus puissant, tandis que les E2B/E4B sont parfaits pour les machines modestes. L'intéret de Gemma4 ce sont ses performances quand nous ne sommes pas connectés à internet.

Modèles

Voir tous les →

Nom

Taille / Utilisation

Contexte

Entrée

gemma4 : dernières

9,6 Go

128K

Texte, Image

Gemma4 :E2B

7,2 Go

128K

Texte, Image

Gemma4 :E4bDernières nouvelles

9,6 Go

128K

Texte, Image

Gemma4:12b

7,6 Go

256K

Texte, Image

Gemma4:26b

18 Go

256K

Texte, Image

Gemma4:31b

20 Go

256K

Texte, Image

Gemma4 :E2B-MLXMLX

7,1 GB

128K

Texte, Image

Gemma4 :E4b-MLXMLX

9,6 Go

128K

Texte, Image

Gemma4:12B-MLXMLX

6,8 Go

256K

Texte, Image

Gemma4:26b-mlxMLX

17 Go

256K

Texte, Image

Gemma4:31b-mlxMLX

20 Go

256K

Texte, Image

gemma4:31b-cloud

256K

Texte, Image

Gemma est une famille de modèles ouverts construite par Google DeepMind.

Les modèles Gemma 4 sont multimodaux, gérant l’entrée de texte et d’images et générant la sortie texte.

Gemma 4 introduit des avancées clés en capacités et en architecture :

Raisonnement – Tous les modèles de la famille sont conçus comme des raisonnements hautement capables, avec des modes de pensée configurables.
Multimodalités étendues – Processus texte, image avec un rapport d’aspect variable et un support de résolution (tous les modèles)
Architectures diverses et efficaces – Propose des variantes Dense et Mixture-of-Experts (MoE) de différentes tailles pour un déploiement évolutif.
Optimisé pour l’utilisation sur appareil – Les modèles plus petits sont spécifiquement conçus pour une exécution locale efficace sur ordinateurs portables et appareils mobiles.
Fenêtre de contexte accrue – Les modèles petits disposent d’une fenêtre contextuelle de 128K, tandis que les modèles moyens supportent 256K.
Capacités améliorées de codage et d’agents – Réalise des améliorations notables dans les benchmarks de codage ainsi que le support natif des appels de fonctions, alimentant des agents autonomes hautement performants.
Support natif des prompts système – Gemma 4 introduit un support natif pour le poste, permettant des conversations plus structurées et contrôlables.system

Résultats des benchmarks

Ces modèles ont été évalués par rapport à une grande collection de jeux de données et de métriques différents pour couvrir différents aspects de la génération de texte. Les résultats d’évaluation indiqués dans le tableau concernent des modèles orientés sur l’instruction.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (pas de pensée)
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026 sans outils	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
Diamant GPQA	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2 (moyenne supérieure à 3)	76.9%	68.2%	42.2%	24.5%	16.2%
HLE pas d’outils	19.5%	8.7%	-	-	-
HLE avec recherche	26.5%	17.2%	-	-	-
BigBench Extra Difficile	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
Vision
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (distance moyenne de montage, plus faible c’est mieux)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
Audio
CoVoST	-	-	35.54	33.47	-
FLEURS (plus bas, mieux c’est)	-	-	0.08	0.09	-
Contexte long
MRCR v2 8 aiguilles 128k (moyenne)	66.4%	44.1%	25.4%	19.1%	13.5%

Informations sur le modèle

Propriété	E2B	E4B	31B Dense
Paramètres totaux	2,3B effectif (5,1B avec embeddings)	4,5B effectif (8B avec embeddings)	30.7B
Couches	35	42	60
Fenêtre coulissante	512 jetons	512 jetons	1024 jetons
Longueur du contexte	128K jetons	128K jetons	256K jetons
Taille du vocabulaire	262K	262K	262K
Modalités prises en charge	Texte, Image, Audio	Texte, Image, Audio	Texte, Image
Paramètres de l’encodeur Vision	~150M	~150M	~550M
Paramètres de l’encodeur audio	~300M	~300M	Pas de son

Modèle Mélange d’Experts (MoE)

Propriété	26B A4B MoE
Paramètres totaux	25.2B
Paramètres actifs	3,8B
Couches	30
Fenêtre coulissante	1024 jetons
Longueur du contexte	256K jetons
Taille du vocabulaire	262K
Expert Count	8 actifs / 128 au total et 1 partagé
Modalités prises en charge	Texte, Image
Paramètres de l’encodeur Vision	~550M

Bonnes pratiques

Pour les meilleures performances, utilisez ces configurations et bonnes pratiques :

1. Paramètres d’échantillonnage

Utilisez la configuration d’échantillonnage standardisée suivante pour tous les cas d’usage :

temperature=1.0
top_p=0.95
top_k=64

2. Configuration du mode de réflexion

Notez qu’Ollama gère déjà les complexités du modèle de chat pour vous.

Comparés à Gemma 3, les modèles utilisent les rôles standards, et les rôles.

Pour bien gérer le processus de réflexion, utilisez les jetons de contrôle suivants :systemassistantuser

Pensée déclenchante : La réflexion est rendue possible en incluant le jeton au début de l’invite système. Pour désactiver la réflexion, supprimez le jeton.<|think|>
Génération standard : Lorsque la pensée est activée, le modèle produit son raisonnement interne suivi de la réponse finale utilisant cette structure :
[Raisonnement interne]<|channel>thought\n<channel|>
Comportement de "pensée handicapé" : Pour tous les modèles sauf les variantes E2B et E4B, si la pensée est désactivée, le modèle générera toujours les balises mais avec un bloc de pensée vide :
[Réponse finale]<|channel>thought\n<channel|>

3. Conversations à plusieurs tours

Pas de contenu de réflexion dans l’histoire : Dans les conversations sur plusieurs tours, la sortie du modèle historique ne doit inclure que la réponse finale. Les pensées des tours des modèles précédents ne doivent pas être ajoutées avant le début du tour suivant de l’utilisateur.

4. Ordre des modalités

Pour une performance optimale avec les entrées multimodales, placez l’image et/ou le contenu audio avant le texte dans votre invite.

5. Résolution variable de l’image

Outre les rapports d’aspect variables, Gemma 4 prend en charge la résolution variable de l’image via un budget visuel configurable, qui contrôle combien de jetons sont utilisés pour représenter une image. Un budget de jetons plus élevé permet de conserver plus de détails visuels

au prix d’un calcul supplémentaire, tandis qu’un budget plus faible permet une inférence plus rapide pour des tâches qui ne nécessitent pas une compréhension approfondie.

Les budgets de jetons pris en charge sont : 70, 140, 280, 560 et 1120.

Utilisez des budgets plus faibles pour la classification, le sous-titrage ou la compréhension vidéo, où une inférence et un traitement plus rapides de nombreuses images l’emportent sur les détails détaillés.
Utilisez des budgets plus élevés pour des tâches comme l’OCR, l’analyse syntaxique de documents ou la lecture de petits textes.

Users Group Artificial Intelligence Agentique (U.G.A.I.A.)

lundi 22 juin 2026

Installation Ollama + Gemma 4 sur Windows (16 Go RAM) avec filtres

Installer GEMMA4 sur votre PC.

Modèles

Gemma est une famille de modèles ouverts construite par Google DeepMind.

Gemma 4 introduit des avancées clés en capacités et en architecture :

Résultats des benchmarks

Informations sur le modèle

Modèle Mélange d’Experts (MoE)

Bonnes pratiques

1. Paramètres d’échantillonnage

2. Configuration du mode de réflexion

3. Conversations à plusieurs tours

4. Ordre des modalités

5. Résolution variable de l’image

Installation Ollama + Gemma 4 sur Windows (16 Go RAM) avec filtres

Pages

La dictature de l'IA et sa gouvernance en 2026.

Users Group AI d'Andorra UGAIA

lundi 22 juin 2026

Installation Ollama + Gemma 4 sur Windows (16 Go RAM) avec filtres

Installer GEMMA4 sur votre PC.

Modèles

Gemma est une famille de modèles ouverts construite par Google DeepMind.

Gemma 4 introduit des avancées clés en capacités et en architecture :

Résultats des benchmarks

Informations sur le modèle

Modèle Mélange d’Experts (MoE)

Bonnes pratiques

1. Paramètres d’échantillonnage

2. Configuration du mode de réflexion

3. Conversations à plusieurs tours

4. Ordre des modalités

5. Résolution variable de l’image

Installation Ollama + Gemma 4 sur Windows (16 Go RAM) avec filtres

Users Group AI d'Andorra ** UGAIA **

Users Group AI d'Andorra UGAIA