Cómo Evaluar AI Agents en 2026: El Harness de 4 Buckets que Detecta Errores Silenciosos

Cómo Evaluar AI Agents en 2026: El Harness de 4 Buckets que Detecta Errores Silenciosos

Programming· 7 min read

El Error Silencioso de un AI Agent No lo Detecta Ningún Test Unitario

Tu agente acaba de responder con un 99% de confianza. Está seguro. Ha ejecutado la tool call, modificado la base de datos, y enviado la respuesta al cliente.

*El problema: su decisión fue catastróficamente incorrecta. *

Y ningún try-catch del mundo lo va a detectar.

Porque un AI Agent no falla como falla el software tradicional. No lanza una excepción. No devuelve un código de error. Simplemente toma una decisión errónea con la misma confianza que una correcta.

*El error silencioso — ese momento en que el agente cree firmemente haber hecho lo correcto — es el modo de fallo dominante en producción. *

Y casi todos los harnesses de evaluación siguen midiendo cobertura de código como si esto fuera Java en 2005.

Si estáis aprendiendo how to build ai agents 2026, este artículo es la primera parada antes de desplegar nada en producción.

---

Por Qué el Try-Catch Es un Error Categorial

La industria asume que evaluar un AI Agent es igual que evaluar software tradicional. Métricas de cobertura. Tests unitarios. Manejo de errores con try-catch.

*Esto es estructuralmente incorrecto. *

Software tradicional: Una función falla → lanza excepción → la capturas → registras el error.

AI Agent: Un agente decide incorrectamente → no lanza nada → continúa ejecutando → empeora el estado del sistema.

La diferencia no es técnica. Es ontológica.

El software tradicional falla haciendo ruido. El AI Agent falla en silencio. Y como no genera señal de error, tus métricas tradicionales de "tasa de error" subestiman drásticamente los fallos reales.

He visto agentes en producción con un 0% de errores de ejecución y un 40% de errores silenciosos. El dashboard mostraba verde. El sistema estaba ardiendo.

---

La Evidencia: Por Qué los 4 Buckets Cambian Todo

Tras años construyendo y rompiendo agents en producción — desde gestorías hasta fontaneros de emergencia — el patrón que emerge es siempre el mismo.

La recuperación de errores en AI Agents no es un tema de manejo de excepciones. Es un tema de arquitectura de clasificación.

Los decoradores de validación permiten interceptar y clasificar outputs del agente antes de que se ejecuten acciones. Funcionan como puntos de medición estructurados.

Y los checkpoints humanos no son botones de pánico. Son puntos de recolección de datos para entrenar al clasificador.

La evidencia es clara: un harness basado en clasificación de 4 buckets revela errores silenciosos que el try-catch jamás detecta. Y esos errores silenciosos son los que realmente queman el presupuesto y la confianza del cliente.

---

El Sistema de 4 Buckets para Evaluación de AI Agents

Aquí está el framework. Es modular, componible, y lo podéis implementar esta tarde.

1. Diseñar la Taxonomía de Fallos Específica para tu Dominio

Olvida las métricas genéricas. Necesitas 4 buckets con criterios semánticos, no sintácticos:

| Bucket | Definición | Señal |

|--------|-----------|-------|

| Correcto | El agente tomó la decisión óptima | Output válido + semánticamente correcto |

| Incorrecto detectable | El error es visible (JSON inválido, tool call fallida) | Excepción o validación sintáctica |

| Incorrecto silencioso | El error no es visible, pero la decisión es mala | Sin excepción, pero semánticamente erróneo |

| Ambiguo | No se puede determinar sin intervención humana | Baja confianza o colisión de criterios |

El bucket más importante es el incorrecto silencioso. Es el que no tiene señal de error. Es el que destruye sistemas sin hacer ruido.

2. Implementar Decoradores de Validación como Middleware

Cada output del agente pasa por un decorador que lo clasifica antes de ejecutar la acción. Aquí tenéis el código:

[@portabletext/react] Unknown block type "code", specify a component for it in the `components.types` prop

Los decoradores tienen una ventaja crítica: pueden ser compuestos y jerárquicos. Un decorador sintáctico se compone con uno semántico y otro de dominio. Así el harness es modular, reutilizable y específico por tarea.

3. Integrar Checkpoints Humanos como Datos de Entrenamiento

Esta es la parte que casi todo el mundo hace mal.

Un checkpoint humano no es un botón de pánico. Es un punto de recolección de datos estructurado. Cuando el agente clasifica un output como ambiguo (bucket 4), el humano no solo decide — también etiqueta por qué lo consideró ambiguo.

[@portabletext/react] Unknown block type "code", specify a component for it in the `components.types` prop

El dato recolectado en esos checkpoints sirve para mejorar el clasificador y reducir la tasa de ambigüedad. Es un bucle de mejora continua, no una muleta.

4. Construir el Dashboard de Evaluación con Dos Paneles

Tu dashboard necesita dos paneles. Uno para métricas tradicionales. Otro para métricas de agente.

Panel 1 — Métricas tradicionales:

  • Latencia media por decisión
  • Tokens consumidos
  • Tasa de error de ejecución (excepciones)

Panel 2 — Métricas de agente:

  • Distribución de buckets (porcentaje en cada uno)
  • Tasa de error silencioso (la métrica más importante)
  • Ratio de ambigüedad (idealmente decreciente)
  • Precisión de decisión (correcto / total)
[@portabletext/react] Unknown block type "code", specify a component for it in the `components.types` prop

5. Ejecutar Evaluaciones Ciegas Comparativas

El test definitivo. Mismo task set. Dos harnesses.

Harness A: Try-catch tradicional. Captura excepciones, registra errores, sigue adelante.

Harness B: Sistema de 4 buckets. Clasifica cada output antes de ejecutar la acción.

[@portabletext/react] Unknown block type "code", specify a component for it in the `components.types` prop

La diferencia es abismal. El primer harness te dirá "100% tasa de éxito". El segundo te dirá "65% correcto, 20% silencioso, 10% detectable, 5% ambiguo".

Uno miente. El otro mide.

---

Objeción: "Esto es más lento y caro"

Sí. Los decoradores de validación y los checkpoints humanos añaden latencia y coste tokens.

*La pregunta no es si podéis permitiros esta latencia. Es si podéis permitiros el coste de un error silencioso no detectado. *

Un error silencioso en producción puede:

  • Corromper datos que cuestan días restaurar
  • Enviar comunicaciones incorrectas a clientes
  • Tomar decisiones financieras erróneas
  • Destruir la confianza en vuestro sistema

La latencia de evaluación es un coste asumible. Los decoradores pueden ejecutarse en paralelo o de forma asíncrona. El coste de un error silencioso no tiene reparación.

Objeción: "Los checkpoints humanos destruyen la autonomía del agente"

Esta es la objeción más común. Y la que requiere más matiz.

Los checkpoints humanos no son para cada decisión. Son solo para el bucket de ambigüedad. Idealmente, ese bucket es pequeño (menos del 10% de los outputs) y se reduce con el tiempo.

Cada checkpoint humano genera datos que entrenan al clasificador. La tasa de ambigüedad baja. El agente se vuelve progresivamente más autónomo.

*Paradójicamente, los checkpoints humanos son el camino hacia la autonomía real. * Sin ellos, el agente "autónomo" está condenado a repetir los mismos errores silenciosos sin saberlo.

---

La Metáfora Correcta: Línea de Producción, No Test Suite

En manufactura, no inspeccionas la calidad del producto final solo midiendo si la máquina se apagó o no. Eso sería try-catch.

Tienes puntos de control a lo largo de la línea. Clasificadores de defectos (aceptable/rework/scrap). Estaciones de inspección humana diseñadas como parte del proceso.

*Un harness de evaluación de AI Agents debería verse más como una línea de producción que como un test suite de pytest. *

La evaluación no es un paso previo al deploy. Es el sistema nervioso que mantiene al agente funcionando correctamente en producción.

---

Lo Que Llevarte

La industria sigue evaluando AI Agents como si fueran funciones de Java. Midiendo cobertura. Capturando excepciones. Ignorando el error más peligroso de todos.

*El error silencioso no se captura con try-catch. Se clasifica con buckets, se mide con decoradores, y se reduce con checkpoints humanos diseñados como datos de entrenamiento. *

El Sistema de 4 Buckets para Evaluación de AI Agents no es teoría. Es lo que uso en cada agente que despliego. En gestorías, en fontaneros, en plataformas legales. Y es lo que separa a los agents que sobreviven en producción de los que arden sin hacer ruido.

Si estáis aprendiendo how to build ai agents 2026, construid el harness de evaluación antes que el agente. Medid lo que importa. Clasificad antes de ejecutar.

Porque el error silencioso no avisa. Pero vosotros ya sabéis dónde mirar.

Artículos relacionados

---

¿Quieres recibir contenido como este cada semana? Suscríbete a mi newsletter

Brian Mena

Brian Mena

Software engineer building profitable digital products: SaaS, directories and AI agents. All from scratch, all in production.

LinkedIn