IA en producción: el verdadero trabajo es operarla

La demo suele impresionar. La producción suele cobrar. Cuando la IA entra a un flujo real, aparecen cuatro temas inevitables: observabilidad, seguridad, costos y calidad. Si no los diseñas desde el inicio, terminas operando a ciegas.

Qué se rompe primero

Cambios de datos (drift) y de distribución de consultas.
Prompts que degradan por “pequeños ajustes” sin control de versiones.
Costos que crecen con el tráfico (y sin presupuesto por endpoint).
Errores silenciosos: respuestas plausibles, pero incorrectas.

Qué medir (mínimo viable)

Latencia p95/p99 y tasa de error por endpoint.
Costo por request y por funcionalidad.
Calidad con un set de casos reales (y criterios claros de aceptación).
Seguridad: bloqueos, sanitización, permisos y auditoría.

Cómo instrumentarlo sin sobre-ingeniería

Un request id que atraviese todo.
Versionado de prompt/config + modelo + herramientas por request.
Fallbacks explícitos: “no sé”, respuesta parcial, o derivación a humano.

Checklist antes de desplegar

Límites definidos (timeouts, rate limiting, máximos de tokens).
Logs suficientes para reproducir un incidente.
Un “interruptor” para desactivar o degradar la funcionalidad.

Operar IA bien es parecido a operar batch crítico: menos magia, más control.