El desafío de los tokens en los idiomas y su impacto en el costo de la IA
Parece sorprendente, pero hablar en español con chatbots de inteligencia artificial es más costoso que hacerlo en inglés. La razón es que estas inteligencias trabajan en tokens, no en palabras.
La palabra «desarrollador» en inglés se traduce como «developer» y consume diferentes cantidades de tokens según el idioma y el modelo de IA utilizado. Cada modelo de lenguaje tiene su «tokenizador» propio, un traductor al idioma de tokens, que generalmente favorece el inglés debido a que el 95% de los datos de entrenamiento están en este idioma.
Hablar en español implica el uso de más tokens, encareciendo la interacción. Por ejemplo, el modelo Claude Opus 4.7 tiene un sobrecosto del 30% en español. El árabe es aún más caro, con un incremento del 76.3% respecto al inglés.
OpenAI ha optimizado su tokenizador, usando hasta 1.1 veces menos tokens en español y 2.9 veces menos en hindi. Sin embargo, en Claude Opus 4.7, el rediseño ha llevado a un mayor consumo de tokens.
Los chatbots están diseñados para pensar en inglés, traduciéndose al idioma de la interacción. Esta traducción constante consume tokens adicionales, afectando los tiempos de respuesta en tareas complejas.
El inglés no solo es eficiente en el consumo de tokens, sino también en precisión, especialmente en programación. Estudios han demostrado que razonar en inglés mejora las respuestas debido al entrenamiento mayoritariamente en ese idioma.
A pesar de estas diferencias, los costos de usar IA están disminuyendo, haciendo que el sobrecoste en tokens al hablar en español sea menos relevante para el usuario promedio. Muchos aprovechan planes como ChatGPT Plus o Claude Pro, que ofrecen tarifas planas.
No obstante, al usar APIs donde se paga por uso, ahorrar en tokens puede ser crucial, y optar por inglés puede tener un impacto financiero significativo.
