Costos de Codificación con IA — Cómo Dejar de Gastar Dinero en Contextos Grandes y Modo MAX

La factura que cambió mi comportamiento

Abrí mi panel de facturación un lunes por la mañana y me quedé mirando el número. Quinientos doce dólares. Una semana. No un mes, una semana.

No había hecho nada inusual. Estaba construyendo una característica, depurando una integración, refactorizando algunas pruebas. Trabajo de ingeniería normal. Pero lo había estado haciendo con cada configuración al máximo: Opus 4.6 Thinking en modo MAX, contexto completo del repositorio, largas conversaciones de múltiples turnos que acumulaban miles de tokens por mensaje.

Cada solicitud individual parecía inofensiva. Un rápido "refactoriza este módulo" aquí, un "depura este error con contexto completo" allá. Pero a las tarifas de tokens para los modelos de pensamiento de vanguardia, lo "inofensivo" se acumula rápidamente. Básicamente, estaba ejecutando un pequeño clúster de GPU cada vez que hacía una pregunta.

Esa factura fue el comienzo de un proceso muy deliberado para entender a dónde iba el dinero y, lo que es más importante, a dónde no necesitaba ir.

Dónde va realmente el dinero

Los costos de codificación con IA no se distribuyen uniformemente. Después de rastrear mi uso durante dos semanas, el desglose fue claro:

El tamaño del contexto es el multiplicador. Cada solicitud envía tu historial de conversación, archivos adjuntos y prompts del sistema al modelo. Una conversación nueva con una pregunta pequeña podría usar 2,000 tokens. Una conversación larga con 15 archivos adjuntos y una sesión de depuración de múltiples turnos puede alcanzar fácilmente más de 100,000 tokens por solicitud. Esa es una diferencia de costo de 50x para un solo mensaje.

Los modelos de pensamiento complican el problema. Modelos como Opus 4.6 Thinking no solo leen tu entrada, sino que generan una cadena de pensamiento interna antes de producir la respuesta visible. Esa cadena de razonamiento puede ser 3-5 veces la longitud de la respuesta final, y estás pagando por cada token de ella. Una respuesta que parece de 500 tokens podría haber costado 3,000 tokens entre bastidores.

El modo MAX es el nivel premium. Ejecutar un modelo de pensamiento en modo MAX elimina el límite de salida y te proporciona la profundidad de razonamiento completa. Es extraordinariamente capaz, y extraordinariamente caro. Una sola solicitud compleja en modo MAX puede costar más que un día entero de uso normal.

Aquí tienes un modelo mental aproximado de los niveles de costo:

| Configuración | Costo Relativo | Cuándo Destaca | |---| | Modelo rápido, contexto pequeño | 1x | Preguntas rápidas, ediciones simples | | Modelo estándar, contexto medio | 5-10x | Implementación de características, revisión de código | | Modelo de pensamiento, contexto grande | 30-50x | Depuración compleja, decisiones de arquitectura | | Modelo de pensamiento, modo MAX, contexto completo del repositorio | 100-200x | Refactorizaciones de múltiples archivos, análisis profundo |

Esa última fila es donde se fueron mis $500. Estaba usando la configuración de 200x para tareas que una configuración de 5x habría manejado igual de bien.

El flujo de trabajo consciente de los costos

Después del shock de la factura, desarrollé un enfoque por niveles. La idea central: adapta el modelo a la tarea, no al revés. Usar el modelo más potente para todo es como ir en helicóptero al supermercado. Funciona, pero estás pagando por capacidades que no necesitas.

Nivel 1: Modelo rápido para tareas mecánicas

La mayor parte de lo que hacemos con los asistentes de codificación de IA es mecánico. Renombrar una variable en un archivo. Generar un tipo a partir de una muestra JSON. Escribir una prueba unitaria para una función pura. Añadir manejo de errores a un bloque try/catch.

Estas tareas no requieren razonamiento. Requieren coincidencia de patrones y generación de código, exactamente en lo que sobresalen los modelos rápidos y baratos. Cambié a usar el modelo más rápido disponible para cualquier cosa que encaje en esta descripción:

Generación de boilerplate
Refactorizaciones simples (renombrar, extraer función, variable en línea)
Escribir pruebas para funciones sencillas
Generar tipos, interfaces o esquemas
Formatear o reestructurar código
Documentación y comentarios

Esto por sí solo redujo mi costo diario en un 60%. La calidad de la salida para estas tareas es prácticamente idéntica entre un modelo rápido y un modelo de pensamiento de vanguardia.

Nivel 2: Modelo estándar para el trabajo de características

Cuando estoy implementando una característica —escribiendo nueva lógica, integrando una API, construyendo un componente— uso un modelo de nivel estándar sin modo de pensamiento. Es lo suficientemente inteligente como para entender la intención, generar código idiomático y manejar una complejidad moderada.

La disciplina clave aquí es la gestión del contexto. En lugar de adjuntar toda mi base de código y preguntar "construye esta característica", adjunto solo los archivos que son directamente relevantes:

El archivo que estoy editando
Los tipos/interfaces de los que depende
Uno o dos ejemplos de patrones similares en la base de código

De tres a cinco archivos, no treinta. Esto mantiene la ventana de contexto pequeña y el costo predecible. También produce mejores resultados: los modelos funcionan peor con demasiado contexto irrelevante, no mejor.

Nivel 3: Modelo de pensamiento para problemas difíciles

Reservó los modelos de pensamiento caros para problemas genuinamente difíciles, aquellos en los que necesito que el modelo razone, no solo genere:

Depurar una condición de carrera entre múltiples servicios
Diseñar la arquitectura para un nuevo componente del sistema
Comprender un error complejo con un rastreo de pila profundo
Revisar código crítico en busca de errores sutiles
Desenredar un error de tipo complicado en una función genérica de TypeScript

Estas son las tareas donde los modelos de pensamiento justifican su costo. La cadena de pensamiento extendida les permite considerar casos extremos, sopesar compensaciones y detectar problemas que los modelos estándar pasan por alto. Pero representan quizás el 10-15% de mi trabajo diario.

Nivel 4: Modo MAX — la opción nuclear

El modo MAX con contexto completo se usa una o dos veces por semana, como máximo. Es para momentos en los que estoy genuinamente atascado y necesito que el modelo analice una gran superficie de código con un razonamiento profundo:

Un error que abarca cinco archivos y tres capas de abstracción
Una refactorización importante donde el modelo necesita entender todo el módulo para sugerir un enfoque seguro
Revisar un PR completo en busca de problemas arquitectónicos

Antes de recurrir al modo MAX, me pregunto: "¿He intentado resolver esto primero con un modelo más barato?" Si la respuesta es no, empiezo por ahí. La mayoría de las veces, el Nivel 2 o 3 me da la respuesta.

Estrategias prácticas que realmente ahorran dinero

Más allá del enfoque de modelo por niveles, algunos hábitos marcaron una diferencia significativa:

Inicia conversaciones nuevas con frecuencia. Las conversaciones largas acumulan contexto. Cada nuevo mensaje incluye todo el historial de la conversación. Para el mensaje 20, estás enviando un prompt del tamaño de una novela para cada solicitud. Ahora inicio una nueva conversación cada vez que cambio de tarea, y a veces a mitad de tarea cuando la conversación se alarga.

Sé específico en tus prompts. "Arregla este error" con 10 archivos adjuntos es caro y lento. "La función processOrder en order-service.ts lanza una referencia nula en la línea 47 cuando customer.address no está definido — añade una cláusula de guarda" es barato y rápido. La especificidad reduce el trabajo que el modelo necesita hacer, lo que reduce los tokens, lo que reduce el costo.

Usa la IA para planificar, luego ejecuta tú mismo. Para características complejas, usaré un modelo de pensamiento una vez para diseñar el enfoque: qué archivos cambiar, qué patrones seguir, qué casos extremos manejar. Luego ejecuto el plan usando un modelo rápido (o simplemente mis propias manos). Una llamada de planificación costosa reemplaza diez llamadas de implementación costosas.

Lee el código tú mismo primero. Esto suena obvio, pero es el hábito que perdí. Cuando cada respuesta está a un prompt de distancia, dejas de leer el código. Le preguntas a la IA "¿qué hace esta función?" en lugar de pasar dos minutos leyéndola. Esas preguntas de dos minutos, a las tarifas de tokens del modelo de pensamiento, cuestan dinero real. Y leer el código tú mismo construye una comprensión que ningún modelo puede sustituir.

Aprovecha el contexto en caché e indexado. Muchas herramientas de codificación de IA mantienen un índice local de tu base de código. Las consultas contra el índice son baratas o gratuitas. Usa la búsqueda, la consulta de símbolos y la navegación a la definición antes de adjuntar archivos manualmente. Deja que la herramienta encuentre el contexto relevante en lugar de volcar todo en el prompt.

La regla del 90/10

Después de un mes de gestión deliberada de costos, mi gasto semanal bajó de $500 a alrededor de $80-100, una reducción del 80%. Mi productividad no cambió notablemente. Si acaso, mejoró, porque estaba pensando con más cuidado sobre lo que preguntaba y por qué.

La incómoda verdad es que la mayoría de la codificación asistida por IA no necesita modelos de vanguardia. Necesita modelos rápidos y baratos aplicados a tareas bien definidas. Los modelos de vanguardia son genuinamente transformadores para el 10% difícil de los problemas, aquellos en los que estás atascado, confundido o tomando una decisión con consecuencias significativas. Usarlos para todo no solo es caro; es una muleta que atrofia tu propio juicio de ingeniería.

El mejor flujo de trabajo asistido por IA que he encontrado es uno en el que yo hago el pensamiento sobre qué construir y la IA me ayuda a construirlo más rápido. Cuando invierto eso —cuando subcontrato el pensamiento a la IA y me convierto en un "prompt jockey"— tanto la calidad como el costo van en la dirección equivocada.

Una nota sobre la economía

Los precios de los modelos de IA seguirán bajando. Lo que hoy cuesta $500 podría costar $50 en un año. Pero el principio seguirá siendo el mismo: siempre habrá una jerarquía de capacidades y costos de los modelos, y el nivel caro siempre será tentador. La disciplina de adaptar la herramienta a la tarea —de no recurrir reflexivamente a la opción más potente— es una habilidad que rinde dividendos independientemente del precio por token.

Y si estás cargando esto a tu empresa, tienes una razón aún más fuerte para ser intencional. Un equipo de diez ingenieros, cada uno gastando $500/semana en herramientas de IA, suma $260,000 al año. Eso es el salario de un ingeniero senior. En algún momento, alguien en finanzas se dará cuenta, y preferirías tener una historia sobre un uso deliberado y optimizado que "simplemente teníamos todo en modo MAX."

Este artículo forma parte de una serie sobre ingeniería de IA y productividad del desarrollador.

Gasté $500 en una Semana en Codificación Asistida por IA. Esto es lo que Aprendí sobre Cómo No Hacerlo.