Viernes 18 de Octubre de 2024

Hoy es Viernes 18 de Octubre de 2024 y son las 02:24 -

INTERNACIONALES

21 de septiembre de 2024

Cómo las empresas chinas de IA eluden las prohibiciones de chips

Los ajustes en el software palian la escasez de hardware potente

Los mejores modelos de inteligencia artificial (IA) de hoy en día dependen de un gran número de procesadores de última generación conocidos como unidades de procesamiento gráfico (GPU). La mayoría de las empresas occidentales no tienen problemas para adquirirlas. Llama 3, el último modelo de Meta, un gigante de las redes sociales, se entrenó con 16.000 GPU H100 de Nvidia, un fabricante de chips estadounidense. Meta tiene previsto almacenar 600.000 más antes de fin de año. XAI, una startup respaldada por Elon Musk, ha construido un centro de datos en Memphis alimentado por 100.000 H100. Y aunque OpenAI, el otro gran fabricante de modelos, no dice nada sobre sus reservas de GPU, Jensen Huang, el jefe de Nvidia, le entregó en mano sus últimos procesadores en abril.

Entre los innovadores se encuentra DeepSeek, una empresa china con sede en Hangzhou. Su último modelo, DeepSeek-v2.5, lanzado a principios de septiembre, compite con los principales modelos de código abierto en retos de codificación y tareas tanto en inglés como en chino. Estos avances no se deben al tamaño: se dice que DeepSeek cuenta con poco más de 10.000 de las antiguas GPU de Nvidia, un gran número para una empresa china, pero pequeño en comparación con sus competidores estadounidenses.

DeepSeek no es el único que ha encontrado soluciones creativas a la escasez de GPU. MiniCPM, un modelo de código abierto desarrollado por la Universidad de Tsinghua y ModelBest, una startup de IA, presenta variedades con 2.400 millones y 1.200 millones de parámetros, respectivamente. A pesar de su pequeño tamaño, el rendimiento de MiniCPM en tareas relacionadas con el lenguaje es comparable al de grandes modelos lingüísticos (LLM) con entre 7.000 y 13.000 millones de parámetros. Al igual que el modelo de DeepSeek, combina un enfoque de mezcla de expertos con compresión de entrada. Sin embargo, al igual que otros modelos pequeños con menos parámetros, es posible que MiniCPM no tenga un gran rendimiento en áreas ajenas a su campo de entrenamiento específico.

En otros lugares se están probando enfoques similares. FlashAttention-3, un algoritmo desarrollado por investigadores de Together.ai, Meta y Nvidia, acelera el entrenamiento y la ejecución de los LLM adaptando su diseño a las GPU H100 de Nvidia. JEST, otro algoritmo lanzado en julio por Google DeepMind, se alimenta de pequeñas cantidades de datos de alta calidad para su entrenamiento inicial antes de soltarse en conjuntos de datos más grandes y de menor calidad. La empresa afirma que este método es 13 veces más rápido y diez veces más eficiente que otros. Los investigadores de Microsoft, que respalda OpenAI, también han lanzado un pequeño modelo lingüístico llamado Phi-3 mini con unos 4.000 millones de parámetros.

Para las empresas chinas, a diferencia de las occidentales, hacer más con menos no es opcional. Pero puede que esto no sea malo. Al fin y al cabo, afirma Nathan Benaich, de Air Street Capital, un fondo de inversión en IA, “la mentalidad de escasez incentiva sin duda el aumento de la eficiencia”.

COMPARTIR:

Comentarios