Das S1-Modell lokal ausführen — Schlussfolgern transparent gemacht

14. Februar 2025 · 4 Min. Lesezeit
Einleitung
Das S1-Modell (Anfang Februar 2025) wurde schnell bekannt, weil es starke Schlussfolgerungsleistung mit sehr wenig Training zeigt. Laut Paper erreicht es Leistung in der Nähe von OpenAI O1 und DeepSeek-R1, obwohl es nur auf 1.000 Beispielen feinjustiert wurde und das Training etwa 50 USD kostete.
Der Kernansatz: supervised fine-tuning (SFT) auf einem vortrainierten Off-the-shelf-Modell. Der Lauf dauerte 26 Minuten mit kuratierten 1.000 Beispielen.
Dieser Beitrag dokumentiert einen ersten Praxistest zu allgemeinem Wissen und juristischem Schlussfolgern.
Trainingsansatz
Die zentrale Idee ist test-time scaling mit budget forcing. Dabei wird der Denkprozess in der Inferenz dynamisch verlängert oder früh gestoppt. So kann das Modell Antworten besser strukturieren und teils selbst korrigieren, ohne neue Trainingsdaten.
Lokale Installation
Wir nutzen die Hugging-Face-Implementierung moot20/s1-32B-MLX-8bits und aktivieren MLX GPU.
import mlx.core as mx
from mlx_lm import load, generate
mx.set_default_device(mx.gpu)
model, tokenizer = load("moot20/s1-32B-MLX-8bits")
prompt = "who was the first person to walk on the moon?"
if tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
response = generate(model, tokenizer, prompt=prompt, verbose=True)
Das Modell zeigt eine nachvollziehbare Schritt-für-Schritt-Antwort mit Denkspur und stabiler Laufzeit.
Juristisches Schlussfolgern
Als nächster Test: ein verdichteter Auszug aus Brown v. Board of Education (1954).
S1 erkennt zentrale Elemente zuverlässig:
- Kernfrage des Falls
- Strukturelle Logik des Arguments
- Psychologische Wirkung von Segregation
Schwächen im Test:
- Reihenfolge der Begründung teils unruhig
- Einzelne Zwischenschritte fehlen
Fazit
S1 ist ein spannender Fortschritt bei kosteneffizienten Schlussfolgerungsmodellen. Mit wenig Trainingsdaten liefert es bereits brauchbare Strukturierung und Analyse.
Für anspruchsvolle Domänen (z. B. Recht) bleibt die Ausgabequalität noch inkonsistent, aber die Richtung ist klar: leistungsfähiges Schlussfolgern rückt näher an lokale, ressourcenschonende Setups.