Cómo estimar costos de tokens en Claude Code, Cursor, Copilot y Gemini CLI

Empieza en 5 minutos

  1. Crea una cuenta de RutaAPI.
  2. Agrega créditos prepago.
  3. Crea una API key desde el panel.
  4. Revisa modelos disponibles con /v1/models.
  5. Usa uno de los modelos devueltos como MODEL_NAME.
  6. Envía tu primera solicitud chat/completions.

Cuando usas un agente de código como Claude Code, Cursor, GitHub Copilot, Codex, Gemini CLI o Cline, cada solicitud que envías consume tokens. Los tokens de entrada cubren tus prompts, el contenido de archivos y el historial de conversación. Los tokens de salida son los que el modelo genera en respuesta. Los tokens cached representan el contexto repetido que el proveedor ya procesó. Cada tipo tiene un precio distinto, y seguirlos con precisión es más difícil de lo que parece.

Esta guía explica cómo se acumulan los costos de tokens entre herramientas de AI coding, cómo estimarlos a partir de logs en formato CSV o JSON, y cómo construir un flujo simple de rastreo sin cambiar tu infraestructura. Si trabajas con desarrolladores en México, Colombia, Argentina o cualquier otro país de LatAm, esto te interesa porque muchas de estas herramientas se pagan en USD.

Respuesta rápida

Para estimar costos de tokens en agentes de código, normaliza tus logs en CSV o JSON con campos como tool, project, model, input_tokens, output_tokens y cached_tokens. Luego aplica precios por millón de tokens según el modelo. Esta guía explica el flujo y enlaza a una herramienta gratuita de RutaAPI para probarlo con ejemplos.

1. Por qué los costos de AI coding son difíciles de ver

Hace unos años, un desarrollador podía pagar una tarifa mensual fija por un asistente de IA. Hoy, los costos se miden por token en múltiples proveedores, y la mayoría de los equipos usa varias herramientas al mismo tiempo. Un solo equipo puede usar Claude Code para depuración compleja, Cursor para sugerencias en el IDE, GitHub Copilot para autocompletado y Gemini CLI para generación de scripts, cada uno facturado por un proveedor distinto a tarifas distintas.

El problema es que ninguna de estas herramientas presenta una vista unificada de costos. Claude Code factura a través de Anthropic. Cursor puede usar su propia API o enrutar a través de OpenAI. Copilot tiene su propio modelo de facturación. Sin una forma de agregar el uso entre todas, solo ves el total cuando llega la factura.

Más allá de la complejidad multi-herramienta, está el tema del contexto reutilizado. Cuando un agente de código procesa un codebase grande, típicamente envía todo el historial de conversación en cada solicitud. Si no sigues cuántos tokens se reenvían, vas a sobreestimar significativamente el valor de cualquier descuento por cache que ofrezca el proveedor.

2. Qué son los tokens de entrada, salida y cached

Entender los tres tipos de tokens es la base de cualquier estimación de costo.

Tokens de entrada son los que envías al modelo en cada solicitud. Para un agente de código de IA, esto incluye tu prompt actual, el contexto de archivos circundantes, instrucciones del sistema y el historial de conversación completo que el agente elige incluir. Se facturan por millón de tokens (por 1M).

Tokens de salida son los que el modelo genera en respuesta. Incluyen sugerencias de código, explicaciones, archivos refactorizados y cualquier otro texto que el modelo produzca. Los tokens de salida casi siempre son más caros por token que los de entrada para el mismo modelo, a veces dos a cinco veces más.

Tokens cached son tokens de entrada que el proveedor del modelo ya procesó y guardó. Cuando el mismo prompt se reutiliza, los proveedores cobran solo la tarifa cached, típicamente entre 10% y 20% del precio de entrada completo. Este descuento solo aparece si tus logs de uso reportan el conteo de tokens cached por separado.

Tipo de token Qué cubre Costo relativo
Entrada Prompts, contexto de código, historial, instrucciones de sistema Tarifa base
Salida Respuestas del modelo, código generado, explicaciones 2–5× la tarifa de entrada
Cached Contexto repetido ya procesado por el proveedor 10–20% de la tarifa de entrada

3. Por qué el contexto repetido puede aumentar el costo

Los agentes de código de IA funcionan mejor con contexto rico. Leen tus archivos de proyecto, incorporan módulos relacionados y referencian decisiones anteriores de la conversación. Esto funciona bien para la calidad, pero significa que cada solicitud lleva más tokens que una conversación típica con un LLM.

El problema es que muchos agentes envían el historial completo de conversación en cada solicitud, incluso cuando solo una porción pequeña es contexto genuinamente nuevo. En una sesión de depuración de 30 minutos con 20 intercambios de ida y vuelta, el agente puede estar reenviando los mismos 30,000 tokens de contexto 20 veces. Sin cache, eso son 600,000 tokens de entrada consumidos. Con un 90% de acierto de cache, baja a 60,000, pero solo si el proveedor reporta el conteo cached en tus logs.

Por eso el ratio de contexto repetido importa: es el porcentaje de tokens de entrada que se sirvieron desde cache. Un ratio alto significa que el modelo está reprocesando grandes cantidades de contexto repetido, lo que infla los costos aunque el trabajo nuevo sea pequeño. El monitor de costos de AI coding calcula este ratio automáticamente desde tus logs.

Puedes probar este flujo con un CSV o JSON de ejemplo en el monitor de costos de AI coding.

4. Un formato CSV simple para comparar herramientas

La mayoría de las herramientas de AI coding aún no tienen funciones de exportación de costos integradas. La solución práctica es instrumentar tu pipeline de logging para capturar los campos de token que los proveedores devuelven con cada respuesta de API. Aquí está el formato CSV mínimo que funciona con el monitor:

tool,project,model,input_tokens,output_tokens,cached_tokens,cost_usd,timestamp,session_id
Claude Code,bugfix-auth,claude-3-5-sonnet,45000,12000,30000,,2026-05-10T10:30:00Z,sess_001
Cursor,feat-api,claude-3-5-sonnet,32000,9000,20000,,2026-05-10T12:00:00Z,
GitHub Copilot,docs-readme,gpt-4o-mini,15000,4200,0,,2026-05-10T13:00:00Z,

Todos los campos excepto tool son opcionales. Si exportas desde un sistema de logging que usa nombres de campo distintos, el monitor intenta hacer match con alias comunes automáticamente, como prompt_tokens, completion_tokens o usage.total_tokens.

Descarga un CSV de ejemplo desde el monitor de costos de AI coding.

5. Cómo estimar el costo por modelo

Una vez que tienes los conteos de tokens, la estimación de costo es aritmética directa. La fórmula es:

Costo estimado =
  input_tokens  × (precio de entrada por 1M tokens)
+ output_tokens × (precio de salida por 1M tokens)
+ cached_tokens × (precio de cached por 1M tokens)

Aquí un ejemplo con precios de Claude 3.5 Sonnet:

Entrada:   45,000 tokens × $3.00 / 1M  = $0.135
Salida:    12,000 tokens × $15.00 / 1M = $0.180
Cached:    30,000 tokens × $0.30 / 1M  = $0.009
                                       Total = $0.324

Si tus logs ya incluyen un campo cost_usd, ese valor se usa directamente. De lo contrario, el monitor aplica la fórmula con los precios que tengas configurados. Puedes ajustar los precios por modelo en la herramienta para que coincidan con tus tarifas reales.

Revisa los precios activos de modelos en el monitor de costos o en tu panel de precios de RutaAPI.

6. Errores comunes al comparar herramientas de AI coding

Comparar costos de herramientas de forma justa requiere atención a detalles sutiles que confunden a la mayoría.

Ignorar el modelo dentro de la herramienta. Cursor puede usar Claude 3.5 Sonnet, GPT-4o o GPT-4o Mini dependiendo de tu configuración. El nombre de la herramienta por sí solo no te dice el costo, el modelo importa más.

Comparar precios de lista en lugar de precios efectivos. Los precios por token estándar se publican como referencia, pero precios negociados empresarialmente, descuentos por volumen y cache de prompts pueden cambiar el costo efectivo significativamente. Edita la tabla de precios para que coincida con tus tarifas reales.

No considerar la longitud de la sesión. Una herramienta que se siente barata por solicitud puede ser cara en una sesión larga si reenvía grandes cantidades de contexto. Mira el costo total por sesión, no el costo por llamada API.

Asumir que los datos de tokens cached siempre están disponibles. No todos los sistemas de logging exponen conteos de tokens cached. Si tus logs los omiten, el monitor estimará costos usando precios de entrada completos, que serán más altos que la realidad. Algunos proveedores tampoco exponen datos de cache en sus respuestas de API.

Comparar herramientas con diferentes tamaños de ventana de contexto. Un modelo con ventana de 200K tokens naturalmente tendrá conteos de tokens por llamada más altos que uno con límite de 32K. Esto no necesariamente es signo de desperdicio, puede reflejar casos de uso fundamentalmente distintos.

Explora cómo se desglosan los costos en el monitor de costos de AI coding.

7. Cómo rastrear costos de Claude Code

Claude Code envía el contexto completo de conversación en cada solicitud por defecto. En una sesión típica de depuración, esto significa que cada turno reenvía todos los intercambios previos, archivos de proyecto e instrucciones de sistema. Sin monitoreo, es fácil subestimar qué tan rápido se acumulan los conteos de tokens a través de una sesión larga.

Para rastrear costos de Claude Code, activa el logging detallado con claude --verbose --log-file ./usage.log, exporta el log periódicamente y pásalo al monitor de costos de AI coding. El monitor separará los costos por proyecto y sesión, y mostrará el ratio de contexto repetido para que puedas ver cuánto del input es cacheado versus tokens nuevos.

Si notas un ratio alto de contexto repetido en tus logs de Claude Code, considera dividir sesiones largas en tareas más cortas y enfocadas. Cada nueva sesión empieza con contexto mínimo, manteniendo los conteos de tokens por sesión más bajos.

Pruébalo con un CSV de ejemplo en el monitor de costos de AI coding.

8. Cómo rastrear costos de Cursor

Cursor usa un modelo de sesión diferente: mantiene una ventana de contexto persistente dentro del IDE. Los costos se acumulan según cuánto contenido de archivo incluyas en cada solicitud de Composer o Chat. Como Cursor puede incluir archivos de proyecto enteros, los conteos de tokens de entrada pueden dispararse de forma inesperada durante refactors grandes.

La clave para mantener los costos de Cursor manejables es ser intencional sobre qué archivos adjuntas. Adjuntar solo los archivos directamente relacionados con la tarea actual, en lugar de todo el proyecto, puede reducir los conteos de tokens de entrada significativamente sin degradar la calidad de salida. Si exportas tus logs de uso de Cursor, puedes usar el monitor de costos de AI coding para ver qué proyectos tienen el mayor consumo de tokens y ajustar tu estrategia de contexto en consecuencia.

Abre el monitor de costos de AI coding y carga un CSV de ejemplo.

9. Gemini CLI: uso de tokens y costo

Gemini CLI cobra por tokens de entrada y salida como la mayoría de los proveedores, pero sus modelos de contexto largo (hasta 1M de tokens) significan que una sola solicitud grande puede costar más que una docena de solicitudes pequeñas. Gemini 2.5 Flash es significativamente más barato que Gemini 1.5 Pro para la mayoría de tareas de código, y la diferencia de precio se复合a cuando procesas codebases grandes en una sola llamada.

Cuando trabajes con Gemini CLI, presta atención al conteo de tokens de entrada en cada solicitud. Una solicitud que incluye un archivo de codebase de 50,000 tokens más un prompt de 500 tokens cuesta aproximadamente lo mismo que un prompt de 50,500 tokens. Entonces hacer batching de contenido de archivos en menos llamadas más grandes es más costo-efectivo que enviar muchas solicitudes pequeñas con contexto overlapped.

Revisa un ejemplo de cómo se ven los costos de Gemini CLI en el monitor de costos.

10. Cómo estimar el costo de tokens en Cline

Cline, como Claude Code, envía el historial completo de conversación en cada solicitud. Las sesiones que abarcan muchos ciclos de uso de herramientas, donde Cline lee un archivo, lo edita, corre un test y lee el resultado, acumulan tokens de entrada rápidamente. Cada lectura de archivo suma al contexto, y el total crece con el tamaño del proyecto que se está modificando.

Los logs de Cline se pueden capturar habilitando output detallado en tu terminal o pasando las respuestas de API a través de un proxy de logging. El monitor de costos de AI coding acepta estos logs directamente como CSV o JSON, y desglosará los costos por sesión y proyecto. Si ves que las sesiones de Cline consumen más tokens de lo esperado, intenta dividir la tarea en objetivos más pequeños con límites más claros: esto reduce la cantidad de contexto que el agente necesita mantener entre pasos.

Abre el monitor de costos de AI coding para ver el desglose por sesión y proyecto.

11. Pruébalo con el monitor gratuito

Si tienes logs de uso de cualquier herramienta de AI coding, puedes obtener un desglose completo de costos en menos de un minuto. El monitor de costos de AI coding es una herramienta basada en navegador. Todo el procesamiento ocurre localmente. No se sube ningún dato, no se requiere cuenta.

Prueba el monitor de costos de AI coding

Carga un CSV o pega JSON con datos de uso. Ve el costo total estimado, desglosado por herramienta, proyecto y modelo, más el ratio de contexto repetido. Todo se procesa localmente en tu navegador.

Usar el monitor de costos →

La herramienta funciona con cualquier herramienta de AI coding que pueda producir logs estructurados, desde Claude Code hasta Cline o tooling personalizado. También puedes explorar todas las herramientas gratuitas de RutaAPI o leer la documentación de la API para entender cómo el rastreo de tokens encaja en una estrategia de observabilidad más amplia.

12. Preguntas frecuentes

¿Esta herramienta sube mis logs?
No. El procesamiento ocurre en el navegador. Los datos nunca salen de tu dispositivo.

¿Necesito una API key?
No. Solo necesitas tus propios logs en formato CSV o JSON. No se requiere cuenta ni autenticación.

¿Cuáles herramientas son compatibles?
Claude Code, Cursor, GitHub Copilot, Codex, Gemini CLI, Cline y cualquier herramienta que pueda exportar uso como CSV o JSON. El monitor intenta inferir el modelo a partir del nombre de la herramienta cuando falta el campo de modelo.

¿Qué son los tokens de entrada, salida y cached?
Los tokens de entrada son los que envías al modelo. Los de salida son los que el modelo genera. Los tokens cached son los que el proveedor ya procesó y cobra a tarifa reducida.

¿Puedo editar los precios de los modelos?
Sí. En la herramienta puedes cambiar los precios por millón de tokens para cualquier modelo y ver cómo se actualizan los resultados al instante.

¿Por qué la estimación puede diferir de mi factura real?
Puede diferir por: precios contractuales distintos a los públicos, cargos adicionales no cubiertos por el conteo de tokens simple, diferencias de redondeo o ausencia de datos de tokens cached en tus logs.


¿Necesitas acceso a una API compatible con OpenAI?
RutaAPI ofrece un gateway de API para OpenAI, Anthropic, Google, DeepSeek y otros proveedores. Crea una cuenta gratis para empezar.

¿Necesitas acceso a modelos de IA?

RutaAPI enruta solicitudes a través de múltiples proveedores con una sola base URL compatible con OpenAI. Configura cadenas de fallback, rastrea uso y gestiona costos en un solo lugar.

Probar RutaAPI →
¿Listo para probar RutaAPI? Usa una base URL compatible con OpenAI, créditos prepago y API keys desde el panel.