Installation sur Ollama :
Deux exemples en vidéo et des tests en fin de ce document.
DeepSeek's first-generation of reasoning models with comparable performance to OpenAI-o1, including six dense models distilled from DeepSeek-R1 based on Llama and Qwen.
3.1M PullsUpdated 7 days ago
Readme
DeepSeek’s first-generation reasoning models, achieving performance comparable to OpenAI-o1 across math, code, and reasoning tasks.
Models
DeepSeek-R1
ollama run deepseek-r1:671b
Distilled models
DeepSeek team has demonstrated that the reasoning patterns of larger models can be distilled into smaller models, resulting in better performance compared to the reasoning patterns discovered through RL on small models.
Below are the models created via fine-tuning against several dense models widely used in the research community using reasoning data generated by DeepSeek-R1. The evaluation results demonstrate that the distilled smaller dense models perform exceptionally well on benchmarks.
DeepSeek-R1-Distill-Qwen-1.5B
ollama run deepseek-r1:1.5b
DeepSeek-R1-Distill-Qwen-7B
ollama run deepseek-r1:7b
DeepSeek-R1-Distill-Llama-8B
ollama run deepseek-r1:8b
DeepSeek-R1-Distill-Qwen-14B
ollama run deepseek-r1:14b
DeepSeek-R1-Distill-Qwen-32B
ollama run deepseek-r1:32b
DeepSeek-R1-Distill-Llama-70B
ollama run deepseek-r1:70b
License
The model weights are licensed under the MIT License. DeepSeek-R1 series support commercial use, allow for any modifications and derivative works, including, but not limited to, distillation for training other LLMs. Please note that:
The Qwen distilled models are derived from Qwen-2.5 series, which are originally licensed under Apache 2.0 License, and now finetuned with 800k samples curated with DeepSeek-R1.
The Llama 8B distilled model is derived from Llama3.1-8B-Base and is originally licensed under llama3.1 license.
The Llama 70B distilled model is derived from Llama3.3-70B-Instruct and is originally licensed under llama3.3 license.
https://ollama.com/library/deepseek-r1
ollama/ollama: Get up and running with Llama 3.3, DeepSeek-R1, Phi-4, Gemma 2, and other large language models.
https://github.com/ollama/ollama?tab=readme-ov-file
Concepts Clés :
Voici la réponse de DeepSeek
1. **Modèles Distilling** :
- La distillation des modèles est une technique utilisée pour réduire la taille d'un modèle neuronal tout en conservant ou améliorant son performance.
- Elle consiste à extraire les informations et les informations pertinentes (apprentissage) du modèle "grand" et de le transmettre au modèle "petit", qui est subsequently entraîné pour se concentrer sur ces informations.
2. **Généalogie des Modèles** :
- Les modèles génératifs, comme les GPT ou les Transformers modernes, sont souvent très importants car ils suggèrent une meilleure performance que les modèles classiques.
- Cependant, ces modèles, bien que puissants, sont souvent trop lourds pour être utilisés dans des applications pratiques, notamment en termes de ressources computationnelles et de temps de chargement.
3. **DeepSeek-R1** :
- DeepSeek-R1 semble être un modèle dense (modèle avec une grande quantité de paramètres) utilisé comme source de données ou de connaissances pour la distillation.
- Il est établi comme un modèle de référence dans le domaine des modèles génératifs, connu pour son performance exceptionnelle.
---
**Contexte et Objectifs**
- **But de l'étude** :
- La fiche du DeepSeek team vise à démontrer que les modèles génératifs de plus grand taille (modèles "grand") peuvent être distillés dans des modèles plus petits tout en conservant ou améliorant leur performance.
- Cela est accompli par l'utilisation de données générées par DeepSeek-R1, qui fournit le contexte et les informations pertinentes nécessaires pour entraîner ces modèles minuscules.
- **Comparaison avec d'autres méthodes** :
- Avant de distiller, les modèles minuscules sont générés à partir de données externes (modèles existants) en utilisant une méthode deRL (Reinforcement Learning), ce qui génère soit plus ou moins performant.
- La méthode de distillation est comparée et contrastée avec cette alternative, montrant qu'elle peut être plus efficace ou performante.
---
**Implémentation et Résultats**
- **Modèles Créés par Fine-Tuning** :
- Les modèles minuscules sont générés en ajustant (fine-tuning) contre des données externes Issues de la communauté de recherche utilisant des modèles tels que DeepSeek-R1.
- Ces modèles minuscules sont subsequently testés sur des benchmarks (évaluations standardisées), et les résultats démonrent leur performance exceptionnelle.
- **Avantages de la Distillation** :
- **Performance Supérieure** : Les modèles distillés performs mieux que ceux générés à l'aide deRL sur de petites tailles.
- **Efficacité** : Les modèles minuscules sont plus efficaces en termes de ressources computationnelles et de temps de chargement, rendant leur utilisation pratique possible.
---
**Implications et Conséquences**
1. **Économie d'Environnement** :
- La distillation des modèles réduit la consommation énergétique et de ressources liées à l'entraînement et à l'utilisation des modèles, ce qui est particulièrement pertinent dans un contexte où les énergies sontlimitées.
2. **Praticité des Modèles Génériques** :
- Cette technique permet de rendre les modèles génératifs plus accessibles pour les applications pratiques, comme les assistants virtuels, les plateformes de traitement du langage naturel (NLP), ou les réseaux sociaux.
3. **Développement de Modèles plus Performants** :
- La distillation peut être utilisée pour améliorer la performance des modèles existants, en particulier dans les cas où des modèles minuscules sont déjà suffisants pour une tâche donnée.
---
**Questions que Peut Répondre ce Texte**
1. **Qu'est-ce que la distillation des modèles ?**
- C'est une technique utilisée pour réduire la taille d'un modèle tout en conservant ou améliorant son performance.
2. **Comment aient-ils utilisé DeepSeek-R1 dans leur étude ?**
- Ils l'ont utilisé comme source de données ou de connaissances pour distiller les modèles minuscules.
3. **Pourquoi est-ce important d'avoir un modèle plus petit mais performant ?**
- Parce qu'il réduit la consommation de ressources computationnelles et rend les modèles plus accessibles pour des applications pratiques.
4. **Est-ce que la distillation fonctionne toujours aussi bien que d'autres méthodes ?**
- Il semble dépendre du contexte et des données utilisées, mais dans ce cas particulier, elle a été comparée et dominée par d'autres méthodes comme leRL.
5. **Quels sont les domaines où cette technique pourrait être utile ?**
- Dans n'importe quel domaine où les modèles génératifs sont utilisés, mais plus particulièrement dans des applications où des performances équitables et des ressources limitées sont essentielles.
---
**Conclusion**
L'ex fournit une preuve de concept solide pour la distillation des modèles, en montrant qu'elle peut être une alternative efficace aux méthodes existantes pour générer des modèles minuscules performants. Ce qui est particulièrement utile dans un contexte où les capacités computationnelles sont limitées et où des performances équitables sont nécessaires.
Sympa les source (Citations) ci-dessus.
Website: https://ollama.com/
Find more models: https://ollama.com/library
GitHub: https://github.com/ollama/ollama
API: https://github.com/ollama/ollama/blob/main/docs/api.md
Python SDK: https://github.com/ollama/ollama-python
JS SDK: https://github.com/ollama/ollama-js
FAQs: https://github.com/ollama/ollama/blob/main/docs/faq.md
Follow Ollama on Twitter:
Tu veux exécuter DeepSeek R1 en local sur ton PC ?
Dans cette vidéo, je te montre comment installer et utiliser DeepSeek R1 avec Ollama en seulement 5 minutes !
https://youtu.be/-AqP8_89wMw?si=VYXSaiKCw2Fo7rz6
🔹 Au programme :
✅ Installation d’Ollama
✅ Téléchargement et exécution de DeepSeek R1
✅ Test en local via l’API Ollama
✅ Utilisation en mode chat et streaming
Pourquoi DeepSeek R1 ?
Ce modèle open-source offre des performances impressionnantes et fonctionne sans connexion Internet sur ton ordinateur. Idéal pour les développeurs et passionnés d'IA !
Liens utiles :
▶ DeepSeek : https://www.deepseek.com
▶ Ollama : https://ollama.com
▶ Hugging Face : https://huggingface.co/deepseek-ai
J’ai testé DeepSeek vs. OpenAI-o1 pour les tâches de science des données : voici ce que j’ai trouvé.
https://youtu.be/fO80iIHkr9M?si=IBuKinNg3aO-6Cak
----
Conclusion : Deepseek, Véritable Innovation ou Mirage ?
RépondreSupprimerDeepseek V3 existe bel et bien, et ses performances sont réelles. Mais son coût, son financement et sa méthode de conception posent de nombreuses questions.
A-t-il été sous-financé ou les chiffres sont-ils masqués ?
A-t-il été conçu en aspirant les données d'OpenAI ?
Est-il un projet indépendant ou un bras technologique du gouvernement chinois ? https://www.linkedin.com/pulse/deepseek-v3-la-r%C3%A9volution-de-lia-ou-un-conte-chinois-emmanuel-moyrand-ei0af/