Das S1-Modell lokal ausführen — Schlussfolgern transparent gemacht

The S1 Model running locally — Reasoning made transparent

14. Februar 2025 · 4 Min. Lesezeit

Einleitung

Das S1-Modell (Anfang Februar 2025) wurde schnell bekannt, weil es starke Schlussfolgerungsleistung mit sehr wenig Training zeigt. Laut Paper erreicht es Leistung in der Nähe von OpenAI O1 und DeepSeek-R1, obwohl es nur auf 1.000 Beispielen feinjustiert wurde und das Training etwa 50 USD kostete.

Der Kernansatz: supervised fine-tuning (SFT) auf einem vortrainierten Off-the-shelf-Modell. Der Lauf dauerte 26 Minuten mit kuratierten 1.000 Beispielen.

Dieser Beitrag dokumentiert einen ersten Praxistest zu allgemeinem Wissen und juristischem Schlussfolgern.

Trainingsansatz

Die zentrale Idee ist test-time scaling mit budget forcing. Dabei wird der Denkprozess in der Inferenz dynamisch verlängert oder früh gestoppt. So kann das Modell Antworten besser strukturieren und teils selbst korrigieren, ohne neue Trainingsdaten.

Lokale Installation

Wir nutzen die Hugging-Face-Implementierung moot20/s1-32B-MLX-8bits und aktivieren MLX GPU.


import mlx.core as mx
from mlx_lm import load, generate

mx.set_default_device(mx.gpu)
model, tokenizer = load("moot20/s1-32B-MLX-8bits")

prompt = "who was the first person to walk on the moon?"
if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

response = generate(model, tokenizer, prompt=prompt, verbose=True)

Das Modell zeigt eine nachvollziehbare Schritt-für-Schritt-Antwort mit Denkspur und stabiler Laufzeit.

Juristisches Schlussfolgern

Als nächster Test: ein verdichteter Auszug aus Brown v. Board of Education (1954).

S1 erkennt zentrale Elemente zuverlässig:

Kernfrage des Falls
Strukturelle Logik des Arguments
Psychologische Wirkung von Segregation

Schwächen im Test:

Reihenfolge der Begründung teils unruhig
Einzelne Zwischenschritte fehlen

Fazit

S1 ist ein spannender Fortschritt bei kosteneffizienten Schlussfolgerungsmodellen. Mit wenig Trainingsdaten liefert es bereits brauchbare Strukturierung und Analyse.

Für anspruchsvolle Domänen (z. B. Recht) bleibt die Ausgabequalität noch inkonsistent, aber die Richtung ist klar: leistungsfähiges Schlussfolgern rückt näher an lokale, ressourcenschonende Setups.