El modelo S1 ejecutándose localmente — razonamiento transparente

The S1 Model running locally — Reasoning made transparent

14 de febrero de 2025 · 4 min de lectura

Introducción

El modelo S1 (principios de febrero de 2025) llamó la atención por su capacidad de razonamiento con muy pocos datos. Según el paper, se acerca a modelos como OpenAI O1 y DeepSeek-R1 con solo 1.000 ejemplos de fine-tuning y un coste aproximado de 50 USD.

El enfoque clave es supervised fine-tuning sobre un modelo preentrenado estándar, en 26 minutos.

Este artículo documenta una primera prueba práctica en conocimiento general y razonamiento legal.

Enfoque de entrenamiento

La innovación principal es test-time scaling con budget forcing. En inferencia, se puede forzar al modelo a seguir razonando o detenerlo antes según presupuesto, lo que puede mejorar estructura y autocorrección sin añadir nuevos datos.

Instalación local

Usamos la implementación de Hugging Face moot20/s1-32B-MLX-8bits con GPU vía MLX.


import mlx.core as mx
from mlx_lm import load, generate

mx.set_default_device(mx.gpu)
model, tokenizer = load("moot20/s1-32B-MLX-8bits")

prompt = "who was the first person to walk on the moon?"
if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

response = generate(model, tokenizer, prompt=prompt, verbose=True)

La salida muestra trazas de razonamiento útiles y ejecución estable.

Razonamiento legal

Siguiente prueba: una versión condensada de Brown v. Board of Education (1954).

S1 acierta en:

identificar la cuestión jurídica central,
reconocer estructura lógica,
captar el impacto psicológico de la segregación.

Limitaciones observadas:

orden argumentativo algo caótico,
pasos intermedios incompletos.

Conclusión

S1 es un avance interesante en modelos de razonamiento eficientes en coste. Con pocos datos ya ofrece una estructura analítica útil.

En dominios exigentes como el legal, la calidad aún varía, pero la dirección es prometedora: razonamiento potente en entornos locales sin infraestructura masiva.