El coste real de la IA barata: lo que las agencias no enseñan en la demo

La demo siempre funciona. El correo entra, el agente responde, el ticket se clasifica, todo el mundo asiente. La factura del primer mes en producción es lo que sorprende.

El problema no está en ChatGPT ni en OpenAI, sino en cómo se cotiza la automatización con IA. Hay un puñado de partidas que casi nunca aparecen en la propuesta y que terminan siendo el grueso del coste real.

Conviene enumerarlas antes de firmar.

Lo que sí está en la propuesta

Una propuesta típica de agencia incluye análisis, diseño, integración, despliegue y un mes de hipercuidado. Los números varían entre 3.000 € y 30.000 € según alcance.

Esa parte no suele ser el problema. Lo que falla es lo que no aparece.

Iceberg en estilo plano: la pequeña punta visible es la demo, la masa grande sumergida son los costes reales — La demo es la punta. Lo que paga el proyecto vive debajo de la línea de flotación.

Lo que casi nunca está en la propuesta

Coste del modelo en producción real

La demo usa un par de cientos de llamadas. Producción son miles o decenas de miles. Y los costes por token de los modelos potentes (GPT-4.1, Claude Sonnet 4.6, Gemini 2.5 Pro) suman rápido cuando hay contexto largo o herramientas encadenadas.

El número de la propuesta normalmente refleja el modelo más barato. La demo, el más capaz. La diferencia entre uno y otro puede ser de 10x. Si la agencia no separa explícitamente qué modelo va a producción y cuánto va a costar al volumen previsto, la primera factura sorpresa va a llegar.

Pídelo en la propuesta como un cálculo: peticiones esperadas/mes, tokens medios por petición, modelo, coste mensual estimado, margen de error.

Observabilidad y evals

LangSmith, Langfuse, Helicone o instrumentación propia con OpenTelemetry. Sin esto, cuando algo se rompe en producción nadie ve dónde. Y se va a romper.

Las herramientas de eval (promptfoo, Braintrust, Patronus AI) cuestan tiempo de configurar y mantener. Una agencia seria mete la observabilidad y un set mínimo de evals desde el día uno. Una agencia barata lo deja para “una segunda fase” — que rara vez llega antes del primer incidente.

Coste real estimado: entre 100 € y 500 € al mes en herramientas, más el tiempo de configurarlo bien.

Mantenimiento de prompts

Los prompts derivan. No porque tú los cambies, sino porque el proveedor actualiza el modelo por debajo. Lo que funcionaba con GPT-4 dejó de funcionar igual con GPT-4o. Lo que funcionaba con Claude 3.5 cambió de carácter en Claude 4. Anthropic ha deprecado versiones; OpenAI ha hecho rollouts silenciosos.

Cualquier prompt crítico necesita una suite de tests que se pase cada vez que cambia el modelo. Y necesita a alguien que la mire cuando rompe.

Esto suele estar fuera del contrato de mantenimiento estándar. Pregúntalo: ¿qué pasa cuando OpenAI deprecia el modelo que usamos?

Integraciones que se rompen

Cada conector con un sistema externo (CRM, ERP, helpdesk, tu correo, tu calendario) tiene su propia tasa de fallo. Salesforce cambia su API. HubSpot cambia los webhooks. Google modifica los OAuth scopes. Microsoft hace algo raro con Graph cada trimestre.

Si la propuesta no contempla un porcentaje fijo del coste de mantenimiento dedicado a integraciones, asume que cada vez que algo se rompa será una intervención facturada por separado. En automatizaciones con muchos conectores (Make, Zapier, n8n) el ratio de mantenimiento sube — son frágiles por diseño.

Tratamiento de PII y seguridad

Si tu agente toca datos personales, hay trabajo invisible que casi nadie cotiza:

Redacción / enmascaramiento de PII antes de mandar al modelo (presidio, scrubadub, soluciones propias).
Política de retención y borrado de logs.
Filtros de inyección de prompt y outputs (Lakera, Protect AI, NeMo Guardrails, o filtros propios).
Auditoría de subprocesadores y residencia de datos.

Esto no es opcional bajo GDPR. La pregunta es si te lo cobran por separado o si está incluido. Léelo en la propuesta.

Casos límite y fallback

¿Qué hace el agente cuando el modelo cae? ¿Cuando el output es ambiguo? ¿Cuando un usuario intenta abusar del sistema?

El caso de Air Canada en 2024 es ilustrativo: un tribunal de British Columbia falló que la aerolínea era responsable de la información incorrecta dada por su chatbot a un cliente — y el argumento de “es un agente independiente” no se sostuvo. La factura por no haber definido bien los límites del agente acabó siendo legal, no técnica.

DPD en 2024 vivió algo parecido: su chatbot terminó insultando a un cliente y escribiendo poemas críticos sobre la propia empresa después de una actualización. Tuvieron que desactivarlo en horas.

Diseñar bien el fallback (cuándo deriva a humano, cuándo se calla, cuándo pide confirmación) es trabajo serio. No suele estar cotizado.

El coste de marcha atrás

Klarna anunció en 2024 que su asistente de IA hacía el trabajo de 700 agentes humanos. En 2025, su CEO admitió que habían recortado demasiado y empezaron a recontratar — la calidad había caído de forma medible y los clientes lo notaban.

McDonald’s canceló en junio de 2024 su piloto de IA en drive-thru con IBM, después de tres años y vídeos virales del sistema fallando.

Builder.ai, valorada en 1.500 millones de dólares, colapsó en mayo de 2025. Parte de la historia: lo que vendía como “IA construyendo apps” era, en buena medida, equipos de ingeniería en India sin la automatización prometida.

Lo que esto enseña en la práctica: los proyectos de IA tienen un coste de marcha atrás importante. Migrar de un agente fallido al proceso anterior no es trivial — los flujos cambiaron, las personas que sabían hacer ese trabajo se reorganizaron, los datos están enredados. Cualquier propuesta seria debería incluir un plan de salida creíble.

La regla simple

Pide la propuesta desglosada en cuatro líneas distintas:

Build — análisis, diseño, integración, despliegue.
Run — coste mensual de modelos, infraestructura, herramientas de observabilidad y evals.
Maintain — horas mensuales contratadas para incidentes, regresiones de modelo, evolución de prompts e integraciones.
Exit — qué pasa con el código, los datos y los embeddings cuando termina el contrato.

Si a una agencia le cuesta darte estas cuatro líneas por separado, no es un problema de transparencia: es que no las ha pensado.

Y si las ha pensado pero no las ha cotizado en la propuesta, las vas a pagar igual. Solo que más tarde, en facturas pequeñas que suman.

El primer paso para evaluar bien una propuesta es saber qué quieres automatizar y cuánto vale ese trabajo hoy. Empieza por el diagnóstico gratuito en canihireanai.com — antes de pedir presupuestos.