La demo suele impresionar. La producción suele cobrar. Cuando la IA entra a un flujo real, aparecen cuatro temas inevitables: observabilidad, seguridad, costos y calidad. Si no los diseñas desde el inicio, terminas operando a ciegas.
Qué se rompe primero
- Cambios de datos (drift) y de distribución de consultas.
- Prompts que degradan por “pequeños ajustes” sin control de versiones.
- Costos que crecen con el tráfico (y sin presupuesto por endpoint).
- Errores silenciosos: respuestas plausibles, pero incorrectas.
Qué medir (mínimo viable)
- Latencia p95/p99 y tasa de error por endpoint.
- Costo por request y por funcionalidad.
- Calidad con un set de casos reales (y criterios claros de aceptación).
- Seguridad: bloqueos, sanitización, permisos y auditoría.
Cómo instrumentarlo sin sobre-ingeniería
- Un request id que atraviese todo.
- Versionado de prompt/config + modelo + herramientas por request.
- Fallbacks explícitos: “no sé”, respuesta parcial, o derivación a humano.
Checklist antes de desplegar
- Límites definidos (timeouts, rate limiting, máximos de tokens).
- Logs suficientes para reproducir un incidente.
- Un “interruptor” para desactivar o degradar la funcionalidad.
Operar IA bien es parecido a operar batch crítico: menos magia, más control.