Le modèle S1 en local — un raisonnement rendu transparent

14 février 2025 · 4 min de lecture
Introduction
Le modèle de raisonnement S1 (début février 2025) a rapidement attiré l’attention grâce à ses performances avec très peu de données. Selon le papier, S1 approche des modèles comme OpenAI O1 et DeepSeek-R1 avec seulement 1 000 exemples de fine-tuning et un coût d’entraînement d’environ 50 USD.
Approche clé: un supervised fine-tuning (SFT) sur un modèle pré-entraîné standard, en 26 minutes.
Ce billet documente un test pratique initial sur la connaissance générale et le raisonnement juridique.
Approche d’entraînement
L’innovation principale est le test-time scaling avec budget forcing. Le modèle peut être forcé à continuer son raisonnement ou stoppé plus tôt selon le budget d’inférence, ce qui améliore parfois la qualité sans nouvelles données.
Installation locale
On utilise l’implémentation Hugging Face moot20/s1-32B-MLX-8bits avec GPU via MLX.
import mlx.core as mx
from mlx_lm import load, generate
mx.set_default_device(mx.gpu)
model, tokenizer = load("moot20/s1-32B-MLX-8bits")
prompt = "who was the first person to walk on the moon?"
if tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
response = generate(model, tokenizer, prompt=prompt, verbose=True)
La sortie montre un raisonnement détaillé et une exécution stable.
Raisonnement juridique
Deuxième test: extrait condensé de Brown v. Board of Education (1954).
Points bien captés par S1:
- la question juridique centrale,
- la structure logique du raisonnement,
- l’impact psychologique de la ségrégation.
Limites observées:
- ordre argumentatif parfois chaotique,
- certaines sous-étapes manquantes.
Conclusion
S1 est une avancée prometteuse pour des modèles de raisonnement efficaces en coût. Avec peu de données, il fournit déjà une structuration utile.
Pour des domaines exigeants comme le droit, la qualité reste inégale, mais la trajectoire est intéressante: du raisonnement puissant dans des environnements locaux plus légers.