Cómo evaluar el riesgo de un agente de IA antes de producción

10 de mayo de 2026 · 10 min de lectura
La evaluación de riesgo de un agente de IA debe ocurrir antes de producción, no después del primer incidente, la primera solicitud de auditoría o una escalada confusa.
No tiene que ser pesada. Si el proceso pesa demasiado, los equipos lo esquivarán. La versión útil es una entrada estructurada que ayuda a producto, cumplimiento, seguridad, arquitectura y responsables de negocio a responder una pregunta:
¿Qué podría hacer este agente, quién se vería afectado y qué controles deben existir antes de permitirle operar?
Este artículo propone un modelo práctico para evaluar agentes de IA empresariales cuando ya hay un caso de uso real, una arquitectura aproximada y una ruta de lanzamiento, pero todavía no hay aprobación de producción.
Versión corta
Antes de producción, evalúa siete dimensiones:
| Dimensión | Qué determinar |
|---|---|
| Intake del caso de uso | Propósito, usuarios, responsable, proceso y contexto de despliegue |
| Autonomía | Si el agente solo responde, recomienda, actúa o corre desde disparadores |
| Acceso a herramientas | Qué sistemas puede llamar y si las llamadas son de lectura o escritura |
| Sensibilidad de datos | Qué datos personales, confidenciales, regulados o privilegiados puede consultar |
| Supervisión humana | Dónde una persona revisa, aprueba, interrumpe o revierte |
| Impacto de negocio | Qué daño puede ocurrir si el agente falla, es manipulado, no está disponible o actúa con exceso de confianza |
| Nivel final de riesgo | Si el agente es de riesgo bajo, medio, alto o inaceptable sin rediseño |
El resultado debe ser un nivel de riesgo breve, una checklist de controles, responsables nombrados y evidencia reutilizable para revisiones de seguridad, privacidad, cumplimiento y arquitectura.
Por qué evaluar agentes es diferente
Las revisiones tradicionales de IA suelen centrarse en el modelo, los datos, el uso previsto, la calidad de salida, sesgos, explicabilidad y privacidad. Todo eso sigue importando.
Los agentes añaden riesgo operativo.
Un agente puede:
- Llamar herramientas o APIs.
- Recuperar documentos o registros.
- Usar permisos delegados.
- Guardar memoria.
- Ejecutar planes de varios pasos.
- Correr desde disparadores en segundo plano.
- Enviar mensajes, actualizar registros, abrir tickets, aprobar pasos de workflow o activar procesos de clientes, empleados, finanzas, legal, seguridad o infraestructura.
La evaluación no puede quedarse en "¿la respuesta es correcta?" También debe preguntar: "¿qué puede hacer el sistema con esa respuesta?"
El modelo debe evaluar comportamiento, no etiquetas. Un chatbot llamado agente puede ser de bajo riesgo. Un asistente de workflow con herramientas puede ser de alto riesgo aunque use un modelo conocido.
Paso 1: empezar con el intake
El intake define los límites. Sin límites, el resto se vuelve abstracto.
Captura:
- Nombre del agente y responsable de negocio.
- Propósito previsto.
- Usuarios principales.
- Clientes, empleados, proveedores o terceros afectados.
- Proceso de negocio soportado.
- Canal de despliegue: web, Teams, Slack, portal interno, API o workflow en segundo plano.
- Disparador de producción: prompt de usuario, creación de ticket, e-mail entrante, tarea programada, webhook o evento de cola.
- Alcance de lanzamiento: piloto, producción interna, cara al cliente o despliegue amplio.
- Responsable de soporte e incidentes.
La propiedad importa. Si el agente no tiene dueño de negocio, ruta de soporte y dueño de incidentes, no está listo para producción.
Paso 2: puntuar autonomía
La autonomía mide cuánto puede decidir y actuar el agente sin que una persona guíe cada paso.
| Puntuación | Nivel de autonomía | Descripción |
|---|---|---|
| 0 | Solo respuesta | El agente responde preguntas y no actúa |
| 1 | Recomienda | Sugiere acciones, pero un humano las ejecuta |
| 2 | Actúa con aprobación | Prepara o ejecuta acciones después de aprobación explícita |
| 3 | Actúa autónomamente | Opera desde disparadores o completa pasos sin aprobación caso por caso |
Preguntas:
- ¿Puede correr sin mensaje de usuario?
- ¿Puede completar más de un paso antes de volver a una persona?
- ¿Puede elegir qué herramienta llamar?
- ¿Puede decidir cuándo una tarea está completa?
- ¿Puede reintentar, escalar, delegar o cambiar planes?
- ¿Puede afectar registros de negocio, comunicaciones con clientes, pagos, decisiones laborales, contratos, controles de seguridad o infraestructura?
Alta autonomía no es automáticamente inaceptable. Sí exige límites más claros, mejor logging, aprobación para acciones de alto impacto, monitoreo y una forma rápida de detener el agente.
Paso 3: puntuar acceso a herramientas
El acceso a herramientas hace concreto el riesgo. Incluye APIs, bases de datos, navegadores, e-mail, ticketing, CRM, ERP, HR, automatización, ejecución de código, archivos, pagos y herramientas de seguridad.
| Puntuación | Acceso a herramientas | Descripción |
|---|---|---|
| 0 | Sin herramientas | El agente solo genera respuestas |
| 1 | Solo lectura | Recupera datos pero no modifica sistemas |
| 2 | Escritura limitada | Crea borradores, tickets, notas o registros de bajo impacto |
| 3 | Alto impacto | Modifica estado de clientes, finanzas, HR, legal, seguridad o infraestructura |
Para cada herramienta, documenta nombre, propósito, lectura o escritura, autenticación, identidad usada, scopes, límites, si el modelo elige argumentos, si la salida influye llamadas posteriores y si requiere aprobación.
Aquí aplica mínimo privilegio. Si solo necesita estado de pedido, no le des permisos de reembolso. Si solo debe crear un borrador, no le permitas enviarlo.
Paso 4: puntuar sensibilidad de datos
Los agentes pueden exponer datos directamente o de forma indirecta al resumirlos, transformarlos, combinarlos o enviarlos por otro canal.
| Puntuación | Nivel de datos | Descripción |
|---|---|---|
| 0 | Público | Solo información pública |
| 1 | Interno | Información no pública de baja sensibilidad |
| 2 | Confidencial o personal | Datos de clientes, empleados, comerciales, contractuales u operativos |
| 3 | Restringido o regulado | Datos personales sensibles, credenciales, secretos, pagos, privilegio legal, registros regulados o información de seguridad |
Pregunta:
- ¿A qué fuentes puede acceder?
- ¿Puede combinar datos de varios sistemas?
- ¿Puede acceder a datos personales?
- ¿Puede ver contratos confidenciales, expedientes laborales, finanzas, código fuente, credenciales, logs de seguridad o material legal?
- ¿Puede mover datos a canales menos protegidos?
- ¿Puede guardar memoria?
- ¿Están definidas retención y eliminación?
- ¿Se cubren minimización y limitación de propósito?
Cuando hay datos personales, conecta la evaluación con privacidad. En contextos europeos, el GDPR es relevante para base legal, minimización, seguridad, brechas y DPIA cuando corresponda.
Paso 5: definir supervisión humana
Supervisión humana no significa que una persona esté cerca del proceso. Debe ser específica para cambiar resultados.
Para cada acción relevante, define quién revisa, qué ve, qué decisión puede tomar, si puede rechazar, editar, escalar o pausar, si la aprobación queda en auditoría, qué pasa si no está disponible y si puede detener el agente.
Debe requerirse aprobación cuando una acción es difícil de revertir, afecta derechos o acceso, mueve dinero, cambia estado laboral, envía comunicaciones externas, modifica registros legales o contractuales, cambia seguridad o afecta infraestructura productiva.
Supervisión débil:
Hay un humano en el loop.
Supervisión útil:
Un supervisor de soporte debe aprobar reembolsos superiores a CHF 100. La pantalla muestra solicitud del cliente, política recuperada, monto propuesto, razón, pedido origen, flags de riesgo y trace ID. La aprobación o rechazo se registra antes de llamar la API de reembolso.
Ese nivel de detalle sobrevive producción.
Paso 6: puntuar impacto de negocio
El impacto de negocio describe qué ocurre si el agente falla.
| Puntuación | Impacto | Descripción |
|---|---|---|
| 0 | Mínimo | Molestia menor o salida fácil de corregir |
| 1 | Bajo | Retrabajo interno, confusión limitada o pequeño coste operativo |
| 2 | Moderado | Impacto a clientes, brecha de evidencia, pérdida financiera, exposición de datos o interrupción de proceso |
| 3 | Severo | Daño legal, financiero, de seguridad, derechos, regulatorio o reputacional material |
Considera si el agente se equivoca, actúa con exceso de confianza, sigue prompt injection, llama la herramienta correcta con argumentos incorrectos, expone datos, salta aprobación, actúa a escala, falla en silencio, no puede explicar lo ocurrido o crea registros confiados por sistemas posteriores.
La escala es clave. Un borrador malo no es igual a 10.000 e-mails erróneos. Una mala recomendación no es igual a un disparador autónomo que se repite cada pocos minutos.
Paso 7: asignar el nivel final
Una forma práctica es puntuar autonomía, herramientas, datos e impacto de 0 a 3, y usar la puntuación máxima junto con señales rojas.
| Nivel | Perfil típico | Postura de producción |
|---|---|---|
| Bajo | Respuesta o recomendación, baja sensibilidad, bajo impacto | Revisión estándar, dueño asignado, logging básico |
| Medio | Herramientas de lectura, datos internos o confidenciales, impacto limitado | Revisión seguridad/privacidad, controles de acceso, monitoreo, guía de usuario |
| Alto | Herramientas de escritura, alta autonomía, datos restringidos, impacto cliente o regulatorio | Revisión de arquitectura, aprobaciones, audit logs, pruebas, plan de incidentes, aceptación de riesgo |
| Inaceptable sin rediseño | Acciones irreversibles de alto impacto, permisos excesivos, sin dueño, sin logs, sin supervisión real o base legal incierta | No lanzar hasta rediseñar |
La fórmula ayuda, pero no reemplaza el juicio. Un agente con baja autonomía y acceso a nómina merece revisión fuerte. Un agente sin datos sensibles pero con permisos de firewall no es bajo riesgo.
Checklist de gate de producción
Antes del lanzamiento, exige evidencia:
- Dueño de negocio y dueño técnico.
- Intake aprobado.
- Entrada de inventario.
- Matriz de permisos de herramientas.
- Clasificación de datos y revisión de privacidad donde aplique.
- Diseño de supervisión humana.
- Plan de logging y trazabilidad.
- Pruebas de prompt injection y mal uso para agentes con herramientas.
- Plan de monitoreo y alertas.
- Dueño de incidentes y ruta de escalación.
- Fecha de revisión y disparadores de reevaluación.
Los agentes de alto riesgo también necesitan revisión de arquitectura, aceptación explícita del riesgo, pruebas de aprobaciones, escenarios red team, rollback o kill switch, change control para prompts, herramientas, fuentes de retrieval y políticas, y reglas de retención de evidencia.
Ejemplo: agente de soporte para reembolsos
Un agente de soporte puede leer historial de pedidos, resumir mensajes, revisar políticas y preparar reembolsos.
| Dimensión | Puntuación | Justificación |
|---|---|---|
| Autonomía | 2 | Propone y prepara acciones, pero los reembolsos requieren aprobación |
| Herramientas | 3 | La API de reembolso cambia registros financieros |
| Datos | 2 | Datos de cliente e historial de pedidos están en alcance |
| Impacto | 2 | Reembolsos o rechazos erróneos impactan clientes, finanzas y cumplimiento |
Nivel final: Alto.
Controles requeridos:
- Herramienta de reembolso limitada al scope mínimo.
- Umbral de monto.
- Aprobación humana sobre un monto definido.
- Bloqueo automático de patrones inusuales.
- Pruebas de prompt injection con mensajes y adjuntos.
- Audit log de solicitud, política recuperada, decisión propuesta, aprobación, llamada de herramienta y resultado.
- Dueño de soporte y ruta de incidentes claros.
El objetivo no es bloquear sistemas útiles, sino hacer visibles los controles antes de tocar clientes y dinero reales.
Ejemplo: asistente de políticas HR
Un asistente HR responde preguntas de empleados usando documentos aprobados. No tiene herramientas de escritura ni acceso a expedientes individuales.
| Dimensión | Puntuación | Justificación |
|---|---|---|
| Autonomía | 0 | Solo responde preguntas |
| Herramientas | 1 | Recupera contenido aprobado |
| Datos | 1 | Usa políticas internas, no expedientes |
| Impacto | 1 | Respuestas incorrectas pueden confundir, pero deben escalar a HR |
Nivel final: Bajo a medio, según audiencia y temas.
Controles: fuentes aprobadas, dueño de actualización, enlaces a fuentes, ruta de escalación para temas laborales, legales, beneficios o datos sensibles, y logging de uso.
Base de referencia
Este patrón se alinea con NIST AI Risk Management Framework 1.0, NIST AI RMF Generative AI Profile, NIST AI 600-1, OWASP Top 10 for LLM Applications 2025, OWASP Agentic AI - Threats and Mitigations, EU AI Act, Regulation (EU) 2024/1689 y GDPR, Regulation (EU) 2016/679.
La lección práctica es simple: evaluar agentes no debe ser documentación de modelo con otro título. Debe conectar capacidades reales con impacto de negocio y controles de producción.
Regla práctica
Si un agente solo responde, evalúa calidad y acceso a datos.
Si puede actuar, evalúa la ruta de acción.
Si puede actuar sin esperar a una persona, evalúa el modelo operativo.
Y si nadie puede explicar quién es dueño del agente, qué puede hacer, qué hizo y cómo detenerlo, no está listo para producción.