12 preguntas para hacer a una agencia de IA antes de firmar

La mayoría de propuestas de agencia de IA se parecen entre sí. Diapositivas con casos de uso, una arquitectura de bloques con flechas, un precio que parece razonable, una promesa de “automatización end-to-end”.

El problema no es la propuesta. Es que muchas agencias venden lo mismo con stacks muy distintos por debajo. Algunas montan agentes con LangGraph, observabilidad seria y control de coste por token. Otras encadenan webhooks en Make o n8n, lo llaman “agente” y facturan como si fuera ingeniería.

Estas doce preguntas no garantizan que aciertes con la agencia, pero filtran a quien no tiene respuesta clara.

Arquitectura y stack

1. ¿Qué construyes en código y qué en no-code?

Una respuesta honesta separa las dos cosas. No-code es legítimo para flujos sencillos, baja criticidad y bajo volumen. Cuando hay datos sensibles, integraciones a medida o lógica de negocio compleja, hace falta código. Si la respuesta es “todo en n8n / Make / Zapier porque es más rápido”, asume que vas a pagar la deuda técnica más adelante — normalmente cuando intentes escalar o cambiar de proveedor.

2. ¿Qué orquestador o framework usáis para los agentes?

Esperas oír nombres concretos: LangGraph, CrewAI, AutoGen, Semantic Kernel, Pydantic AI, o un orquestador propio. “Lo hacemos con prompts y APIs directas” es válido para casos pequeños — no para un agente que toma decisiones encadenadas en producción. “Usamos GPTs personalizados” no es una arquitectura.

3. ¿Cómo gestionáis el estado y la memoria del agente entre ejecuciones?

Es una pregunta sencilla pero la respuesta es reveladora. Si el agente solo responde a un input y no recuerda nada, es un workflow, no un agente. Si la respuesta menciona vector stores (Pinecone, Weaviate, pgvector), bases de conocimiento sincronizadas, o gestión explícita de contexto, vas bien.

4. ¿Qué modelos usáis y por qué ese y no otro?

Una agencia que solo trabaja con OpenAI tiene un punto ciego. Cada familia tiene compromisos distintos en coste, latencia, calidad de razonamiento y disponibilidad en la UE. La respuesta razonable menciona varios — Claude para razonamiento largo y código, GPT para generación generalista, Mistral o Gemini para latencia y coste, modelos open-source autoalojados cuando el dato no puede salir. Y debe haber un argumento de por qué este caso encaja con ese modelo, no solo “es el que mejor funciona”.

Operación y coste

5. ¿Cómo monitorizáis los agentes en producción?

Esperas oír herramientas concretas. LangSmith, Langfuse, Arize, Helicone, Datadog con instrumentación propia. Si no hay observabilidad, cuando algo se rompa nadie sabrá por qué. Y se va a romper — los modelos cambian, los proveedores actualizan APIs, los prompts derivan.

6. ¿Cómo controláis el coste por petición y el coste mensual?

La respuesta debería incluir alguna combinación de: límites por usuario o por tenant, alertas de gasto, caché de respuestas frecuentes, ruteo de tareas simples a modelos más baratos, y tracking por feature. Si nadie ha pensado esto antes de arrancar, la primera factura sorpresa de OpenAI llegará en mes tres.

7. ¿Qué pasa cuando el modelo cambia o el proveedor cae?

Anthropic deprecia versiones. OpenAI tuvo varias caídas globales en 2025. Azure OpenAI ha tenido cuotas regionales saturadas. Una agencia seria responde con: capa de abstracción sobre el proveedor, regression tests sobre prompts críticos cuando se cambia de modelo, y un plan de fallback. Si la respuesta es “ya nos ocupamos cuando pase”, asume que pagarás esa intervención como mejora futura.

8. ¿Cómo testeáis los prompts y los outputs?

La práctica seria pasa por evaluación automatizada — promptfoo, Braintrust, Patronus, o conjuntos de tests propios. La pregunta detrás: ¿cómo sabéis que un cambio mejora el sistema y no lo empeora en silencio? Si la respuesta es “lo probamos manualmente”, solo escala hasta que se rompe.

Compliance, datos y responsabilidad

9. ¿Dónde se procesan los datos y qué cláusula de procesador firmáis?

Pregunta directa, con respuesta verificable. Esperas oír: residencia de datos en UE cuando aplique, contrato de procesador GDPR firmado, listado de subprocesadores, y política de retención. Si la agencia no diferencia entre procesador y controlador, ya tienes una respuesta.

10. ¿Qué hacéis para cumplir con el AI Act?

Desde febrero de 2025 hay sistemas prohibidos. Desde agosto de 2025, obligaciones para modelos de propósito general. En agosto de 2026 entran las obligaciones para sistemas de alto riesgo — y muchos casos de RRHH, scoring crediticio, atención sanitaria o gestión de empleados caen ahí. La respuesta razonable identifica si tu caso es de alto riesgo y, si lo es, qué documentación de gestión de riesgos, supervisión humana y registro técnico van a entregar.

11. ¿Cómo registráis las decisiones del agente para auditarlas?

Toda automatización que toma decisiones sobre personas (filtrar CVs, priorizar tickets, aprobar trámites) debe poder explicarse. La respuesta debería describir logs estructurados de cada llamada al modelo, persistencia del razonamiento intermedio cuando aplique, y un mecanismo para que un humano pueda revisar y corregir. Si esto no existe, no podrás defender el sistema cuando alguien lo cuestione internamente o desde fuera.

12. ¿Qué pasa con el código y los datos cuando termina el contrato?

Pregúntalo de forma específica: ¿el código queda en un repositorio que controlas tú? ¿los prompts y configuraciones también? ¿qué pasa con embeddings y bases vectoriales? Demasiados proyectos terminan con la lógica crítica viviendo en una cuenta de Make o un GPT personalizado del que la agencia es propietaria. Esa dependencia es invisible hasta que quieres cambiar de proveedor.

Lupa sobre tres carpetas de colores con iconos: una llave inglesa, una moneda y un escudo — Tres bloques: arquitectura, operación y compliance. Las doce preguntas se reparten entre ellos.

Cómo leer las respuestas

Una agencia sólida no tiene respuesta perfecta a todo. Va a admitir que algunas decisiones dependen del caso, que algunas herramientas las eligen tarde, que la observabilidad la van a montar progresivamente. Lo importante es que la conversación se sostenga en concreto — nombres de herramientas, decisiones técnicas con argumentos, ejemplos de proyectos previos donde algo se rompió y aprendieron algo.

Una agencia débil va a contestar con generalidades. “Usamos las mejores herramientas”. “Tenemos un stack robusto”. “Cumplimos con todas las normativas”. Cuando la conversación se queda en ese registro, ya tienes la respuesta.

Estas doce preguntas no son un examen. Son una conversación sobre cómo se va a construir y operar algo que va a tomar decisiones por tu negocio. Si la conversación no se sostiene, el problema de fondo no es técnico, es de criterio.

Antes de hacer estas preguntas a una agencia, vale la pena saber qué quieres automatizar exactamente. Empieza por el diagnóstico gratuito en canihireanai.com — y entra a las reuniones con datos, no con intuición.