QwQ is the reasoning model of the Qwen series.
852.5K PullsUpdated 5 days ago
Readme
QwQ is the reasoning model of the Qwen series. Compared with conventional instruction-tuned models, QwQ, which is capable of thinking and reasoning, can achieve significantly enhanced performance in downstream tasks, especially hard problems. QwQ-32B is the medium-sized reasoning model, which is capable of achieving competitive performance against state-of-the-art reasoning models, e.g., DeepSeek-R1, o1-mini.
Future Work
This marks Qwen’s initial step in scaling Reinforcement Learning (RL) to enhance reasoning capabilities. Through this journey, we have not only witnessed the immense potential of scaled RL but also recognized the untapped possibilities within pretrained language models. As we work towards developing the next generation of Qwen, we are confident that combining stronger foundation models with RL powered by scaled computational resources will propel us closer to achieving Artificial General Intelligence (AGI). Additionally, we are actively exploring the integration of agents with RL to enable long-horizon reasoning, aiming to unlock greater intelligence with inference time scaling.
Reference
Travaux futurs
"Il s’agit de la première étape de Qwen dans la mise à l’échelle de l’apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement. Tout au long de ce parcours, nous avons non seulement été témoins de l’immense potentiel de l’apprentissage par renforcement à l’échelle, mais nous avons également reconnu les possibilités inexploitées des modèles de langage pré-entraînés. Alors que nous travaillons au développement de la prochaine génération de Qwen, nous sommes convaincus que la combinaison de modèles de base plus solides avec l’apprentissage par renforcement alimenté par des ressources de calcul à grande échelle nous rapprochera de la réalisation de l’intelligence artificielle générale (AGI). De plus, nous explorons activement l’intégration des agents avec l’apprentissage par renforcement pour permettre un raisonnement à long terme, dans le but d’obtenir une plus grande intelligence grâce à la mise à l’échelle temporelle de l’inférence."
Qwen :
QwQ 32B Demo - a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
Aucun commentaire:
Enregistrer un commentaire