Cómo evaluar el riesgo de un agente de IA antes de producción

Cómo evaluar el riesgo de un agente de IA antes de producción

10 de mayo de 2026 · 10 min de lectura

La evaluación de riesgo de un agente de IA debe ocurrir antes de producción, no después del primer incidente, la primera solicitud de auditoría o una escalada confusa.

No tiene que ser pesada. Si el proceso pesa demasiado, los equipos lo esquivarán. La versión útil es una entrada estructurada que ayuda a producto, cumplimiento, seguridad, arquitectura y responsables de negocio a responder una pregunta:

¿Qué podría hacer este agente, quién se vería afectado y qué controles deben existir antes de permitirle operar?

Este artículo propone un modelo práctico para evaluar agentes de IA empresariales cuando ya hay un caso de uso real, una arquitectura aproximada y una ruta de lanzamiento, pero todavía no hay aprobación de producción.

Versión corta

Antes de producción, evalúa siete dimensiones:

Dimensión Qué determinar
Intake del caso de uso Propósito, usuarios, responsable, proceso y contexto de despliegue
Autonomía Si el agente solo responde, recomienda, actúa o corre desde disparadores
Acceso a herramientas Qué sistemas puede llamar y si las llamadas son de lectura o escritura
Sensibilidad de datos Qué datos personales, confidenciales, regulados o privilegiados puede consultar
Supervisión humana Dónde una persona revisa, aprueba, interrumpe o revierte
Impacto de negocio Qué daño puede ocurrir si el agente falla, es manipulado, no está disponible o actúa con exceso de confianza
Nivel final de riesgo Si el agente es de riesgo bajo, medio, alto o inaceptable sin rediseño

El resultado debe ser un nivel de riesgo breve, una checklist de controles, responsables nombrados y evidencia reutilizable para revisiones de seguridad, privacidad, cumplimiento y arquitectura.

Por qué evaluar agentes es diferente

Las revisiones tradicionales de IA suelen centrarse en el modelo, los datos, el uso previsto, la calidad de salida, sesgos, explicabilidad y privacidad. Todo eso sigue importando.

Los agentes añaden riesgo operativo.

Un agente puede:

  • Llamar herramientas o APIs.
  • Recuperar documentos o registros.
  • Usar permisos delegados.
  • Guardar memoria.
  • Ejecutar planes de varios pasos.
  • Correr desde disparadores en segundo plano.
  • Enviar mensajes, actualizar registros, abrir tickets, aprobar pasos de workflow o activar procesos de clientes, empleados, finanzas, legal, seguridad o infraestructura.

La evaluación no puede quedarse en "¿la respuesta es correcta?" También debe preguntar: "¿qué puede hacer el sistema con esa respuesta?"

El modelo debe evaluar comportamiento, no etiquetas. Un chatbot llamado agente puede ser de bajo riesgo. Un asistente de workflow con herramientas puede ser de alto riesgo aunque use un modelo conocido.

Paso 1: empezar con el intake

El intake define los límites. Sin límites, el resto se vuelve abstracto.

Captura:

  • Nombre del agente y responsable de negocio.
  • Propósito previsto.
  • Usuarios principales.
  • Clientes, empleados, proveedores o terceros afectados.
  • Proceso de negocio soportado.
  • Canal de despliegue: web, Teams, Slack, portal interno, API o workflow en segundo plano.
  • Disparador de producción: prompt de usuario, creación de ticket, e-mail entrante, tarea programada, webhook o evento de cola.
  • Alcance de lanzamiento: piloto, producción interna, cara al cliente o despliegue amplio.
  • Responsable de soporte e incidentes.

La propiedad importa. Si el agente no tiene dueño de negocio, ruta de soporte y dueño de incidentes, no está listo para producción.

Paso 2: puntuar autonomía

La autonomía mide cuánto puede decidir y actuar el agente sin que una persona guíe cada paso.

Puntuación Nivel de autonomía Descripción
0 Solo respuesta El agente responde preguntas y no actúa
1 Recomienda Sugiere acciones, pero un humano las ejecuta
2 Actúa con aprobación Prepara o ejecuta acciones después de aprobación explícita
3 Actúa autónomamente Opera desde disparadores o completa pasos sin aprobación caso por caso

Preguntas:

  • ¿Puede correr sin mensaje de usuario?
  • ¿Puede completar más de un paso antes de volver a una persona?
  • ¿Puede elegir qué herramienta llamar?
  • ¿Puede decidir cuándo una tarea está completa?
  • ¿Puede reintentar, escalar, delegar o cambiar planes?
  • ¿Puede afectar registros de negocio, comunicaciones con clientes, pagos, decisiones laborales, contratos, controles de seguridad o infraestructura?

Alta autonomía no es automáticamente inaceptable. Sí exige límites más claros, mejor logging, aprobación para acciones de alto impacto, monitoreo y una forma rápida de detener el agente.

Paso 3: puntuar acceso a herramientas

El acceso a herramientas hace concreto el riesgo. Incluye APIs, bases de datos, navegadores, e-mail, ticketing, CRM, ERP, HR, automatización, ejecución de código, archivos, pagos y herramientas de seguridad.

Puntuación Acceso a herramientas Descripción
0 Sin herramientas El agente solo genera respuestas
1 Solo lectura Recupera datos pero no modifica sistemas
2 Escritura limitada Crea borradores, tickets, notas o registros de bajo impacto
3 Alto impacto Modifica estado de clientes, finanzas, HR, legal, seguridad o infraestructura

Para cada herramienta, documenta nombre, propósito, lectura o escritura, autenticación, identidad usada, scopes, límites, si el modelo elige argumentos, si la salida influye llamadas posteriores y si requiere aprobación.

Aquí aplica mínimo privilegio. Si solo necesita estado de pedido, no le des permisos de reembolso. Si solo debe crear un borrador, no le permitas enviarlo.

Paso 4: puntuar sensibilidad de datos

Los agentes pueden exponer datos directamente o de forma indirecta al resumirlos, transformarlos, combinarlos o enviarlos por otro canal.

Puntuación Nivel de datos Descripción
0 Público Solo información pública
1 Interno Información no pública de baja sensibilidad
2 Confidencial o personal Datos de clientes, empleados, comerciales, contractuales u operativos
3 Restringido o regulado Datos personales sensibles, credenciales, secretos, pagos, privilegio legal, registros regulados o información de seguridad

Pregunta:

  • ¿A qué fuentes puede acceder?
  • ¿Puede combinar datos de varios sistemas?
  • ¿Puede acceder a datos personales?
  • ¿Puede ver contratos confidenciales, expedientes laborales, finanzas, código fuente, credenciales, logs de seguridad o material legal?
  • ¿Puede mover datos a canales menos protegidos?
  • ¿Puede guardar memoria?
  • ¿Están definidas retención y eliminación?
  • ¿Se cubren minimización y limitación de propósito?

Cuando hay datos personales, conecta la evaluación con privacidad. En contextos europeos, el GDPR es relevante para base legal, minimización, seguridad, brechas y DPIA cuando corresponda.

Paso 5: definir supervisión humana

Supervisión humana no significa que una persona esté cerca del proceso. Debe ser específica para cambiar resultados.

Para cada acción relevante, define quién revisa, qué ve, qué decisión puede tomar, si puede rechazar, editar, escalar o pausar, si la aprobación queda en auditoría, qué pasa si no está disponible y si puede detener el agente.

Debe requerirse aprobación cuando una acción es difícil de revertir, afecta derechos o acceso, mueve dinero, cambia estado laboral, envía comunicaciones externas, modifica registros legales o contractuales, cambia seguridad o afecta infraestructura productiva.

Supervisión débil:

Hay un humano en el loop.

Supervisión útil:

Un supervisor de soporte debe aprobar reembolsos superiores a CHF 100. La pantalla muestra solicitud del cliente, política recuperada, monto propuesto, razón, pedido origen, flags de riesgo y trace ID. La aprobación o rechazo se registra antes de llamar la API de reembolso.

Ese nivel de detalle sobrevive producción.

Paso 6: puntuar impacto de negocio

El impacto de negocio describe qué ocurre si el agente falla.

Puntuación Impacto Descripción
0 Mínimo Molestia menor o salida fácil de corregir
1 Bajo Retrabajo interno, confusión limitada o pequeño coste operativo
2 Moderado Impacto a clientes, brecha de evidencia, pérdida financiera, exposición de datos o interrupción de proceso
3 Severo Daño legal, financiero, de seguridad, derechos, regulatorio o reputacional material

Considera si el agente se equivoca, actúa con exceso de confianza, sigue prompt injection, llama la herramienta correcta con argumentos incorrectos, expone datos, salta aprobación, actúa a escala, falla en silencio, no puede explicar lo ocurrido o crea registros confiados por sistemas posteriores.

La escala es clave. Un borrador malo no es igual a 10.000 e-mails erróneos. Una mala recomendación no es igual a un disparador autónomo que se repite cada pocos minutos.

Paso 7: asignar el nivel final

Una forma práctica es puntuar autonomía, herramientas, datos e impacto de 0 a 3, y usar la puntuación máxima junto con señales rojas.

Nivel Perfil típico Postura de producción
Bajo Respuesta o recomendación, baja sensibilidad, bajo impacto Revisión estándar, dueño asignado, logging básico
Medio Herramientas de lectura, datos internos o confidenciales, impacto limitado Revisión seguridad/privacidad, controles de acceso, monitoreo, guía de usuario
Alto Herramientas de escritura, alta autonomía, datos restringidos, impacto cliente o regulatorio Revisión de arquitectura, aprobaciones, audit logs, pruebas, plan de incidentes, aceptación de riesgo
Inaceptable sin rediseño Acciones irreversibles de alto impacto, permisos excesivos, sin dueño, sin logs, sin supervisión real o base legal incierta No lanzar hasta rediseñar

La fórmula ayuda, pero no reemplaza el juicio. Un agente con baja autonomía y acceso a nómina merece revisión fuerte. Un agente sin datos sensibles pero con permisos de firewall no es bajo riesgo.

Checklist de gate de producción

Antes del lanzamiento, exige evidencia:

  • Dueño de negocio y dueño técnico.
  • Intake aprobado.
  • Entrada de inventario.
  • Matriz de permisos de herramientas.
  • Clasificación de datos y revisión de privacidad donde aplique.
  • Diseño de supervisión humana.
  • Plan de logging y trazabilidad.
  • Pruebas de prompt injection y mal uso para agentes con herramientas.
  • Plan de monitoreo y alertas.
  • Dueño de incidentes y ruta de escalación.
  • Fecha de revisión y disparadores de reevaluación.

Los agentes de alto riesgo también necesitan revisión de arquitectura, aceptación explícita del riesgo, pruebas de aprobaciones, escenarios red team, rollback o kill switch, change control para prompts, herramientas, fuentes de retrieval y políticas, y reglas de retención de evidencia.

Ejemplo: agente de soporte para reembolsos

Un agente de soporte puede leer historial de pedidos, resumir mensajes, revisar políticas y preparar reembolsos.

Dimensión Puntuación Justificación
Autonomía 2 Propone y prepara acciones, pero los reembolsos requieren aprobación
Herramientas 3 La API de reembolso cambia registros financieros
Datos 2 Datos de cliente e historial de pedidos están en alcance
Impacto 2 Reembolsos o rechazos erróneos impactan clientes, finanzas y cumplimiento

Nivel final: Alto.

Controles requeridos:

  • Herramienta de reembolso limitada al scope mínimo.
  • Umbral de monto.
  • Aprobación humana sobre un monto definido.
  • Bloqueo automático de patrones inusuales.
  • Pruebas de prompt injection con mensajes y adjuntos.
  • Audit log de solicitud, política recuperada, decisión propuesta, aprobación, llamada de herramienta y resultado.
  • Dueño de soporte y ruta de incidentes claros.

El objetivo no es bloquear sistemas útiles, sino hacer visibles los controles antes de tocar clientes y dinero reales.

Ejemplo: asistente de políticas HR

Un asistente HR responde preguntas de empleados usando documentos aprobados. No tiene herramientas de escritura ni acceso a expedientes individuales.

Dimensión Puntuación Justificación
Autonomía 0 Solo responde preguntas
Herramientas 1 Recupera contenido aprobado
Datos 1 Usa políticas internas, no expedientes
Impacto 1 Respuestas incorrectas pueden confundir, pero deben escalar a HR

Nivel final: Bajo a medio, según audiencia y temas.

Controles: fuentes aprobadas, dueño de actualización, enlaces a fuentes, ruta de escalación para temas laborales, legales, beneficios o datos sensibles, y logging de uso.

Base de referencia

Este patrón se alinea con NIST AI Risk Management Framework 1.0, NIST AI RMF Generative AI Profile, NIST AI 600-1, OWASP Top 10 for LLM Applications 2025, OWASP Agentic AI - Threats and Mitigations, EU AI Act, Regulation (EU) 2024/1689 y GDPR, Regulation (EU) 2016/679.

La lección práctica es simple: evaluar agentes no debe ser documentación de modelo con otro título. Debe conectar capacidades reales con impacto de negocio y controles de producción.

Regla práctica

Si un agente solo responde, evalúa calidad y acceso a datos.

Si puede actuar, evalúa la ruta de acción.

Si puede actuar sin esperar a una persona, evalúa el modelo operativo.

Y si nadie puede explicar quién es dueño del agente, qué puede hacer, qué hizo y cómo detenerlo, no está listo para producción.