Token es la unidad mínima de datos que procesan los modelos de Inteligencia Artificial. Puede ser una palabra, una simple letra o incluso un signo de puntuación.

En qué consiste la "tokenización"

Un token es la pieza más pequeña en la que los sistemas de IA pueden fragmentar un contenido para analizarlo y procesarlo. Estos tokens son los elementos con los que el modelo trabaja para entender, generar texto, traducir idiomas, crear contenido o responder preguntas. Al proceso de conversión de información en token se le conoce como "tokenización".

Para esta "tokenización", el texto se separa según reglas específicas. En el caso de ChatGPT, por ejemplo, el sistema usa un método de codificación de pares que divide las palabras en fragmentos frecuentes. Cada fragmento es un token y cada token recibe un identificador numérico único que el modelo procesa internamente.

El conjunto de todos los tokens y su correspondencia numérica dan lugar al vocabulario del modelo.

Tipos de Token

  • Token por palabra. Es el más estándar y fácil de aplicar: cada palabra es un token. En su contra, no es el más exacto para palabras complejas, polisémicas o compuestas.
  • Token por carácter. Cada carácter individual (sea letra, número o símbolo) es un token. Es capaz de procesar vocabularios más extensos, aunque las secuencias a procesar por los modelos son más largas y se complican.
  • Token por subpalabra. Divide las palabras en fragmentos comunes o raíces. Maneja bien palabras raras o nuevas pero su implementación es más compleja.
  • Token por byte. Cada byte (o unidad binaria de información) es un token. Lo utilizan algunos de los modelos más habituales, como GPT-4, porque ofrece unas capacidades muy completas para todo el conjunto, aunque no sea el más optimizado en cuanto a espacio y tiempos.
  • Token semántico o simbólico. Lo usan modelos muy avanzados y se basa en el significado o función sintáctica. Necesita un análisis semántico profundo y modelos simbólicos de IA pero apunta a convertirse en el mayoritario en un futuro.

¿Por qué son importantes los token en Inteligencia Artificial?

El uso de tokens permite el procesamiento eficiente del lenguaje humano por la IA. De esta manera, puede comprenderlo y responder a preguntas o generar contenido creativo.

En la IA generativa, la cantidad de tokens que puede manejar un modelo define su capacidad y rendimiento.

Los modelos LLM (Grandes Modelos de Lenguaje) cuentan con un límite de tokens por solicitud; es decir, la entrada y la respuesta combinadas no pueden superar ese límite.

Cuanto más eficiente sea la tokenización, mejor se aprovechará el contexto y la capacidad del modelo, permitiendo una mejor comprensión del lenguaje y respuestas o generaciones de texto/imagen de mayor calidad y más ajustadas a la demanda.