DeepSeek no llega sola: China y “la guerra de los 100 modelos” contra ChatGPT

DeepSeek no es una recién llegada al negocio de la inteligencia artificial. Estuvo publicando modelos de lenguaje avanzados que rivalizan con los de Silicon Valley desde noviembre de 2023. El último, R-1, salió a la luz el 20 de enero, pero no fue hasta que su app superó en descargas a ChatGPT cuando se originó el tsunami. El mismo que se llevó por delante 600.000 millones de capitalización bursátil de Nvidia mientras dejaba en entredicho el modelo de negocio de OpenAI y la necesidad de las inversiones masivas anunciadas por Donald Trump.

Sin embargo, hasta este lunes era una gran desconocida fuera de los entornos especializados. Hay una parte de influencia y propaganda, debido a que en EEUU y Europa, Elon Musk y la corte tecnológica de Trump controla el discurso sobre la IA. Pero también es una consecuencia de la situación dentro de la propia China: DeepSeek no es el campeón chino de la IA. Es una empresa más, una que ahora consiguió un avance puntero con un método de entrenamiento y despliegue de algoritmos supereficiente.

clic acá para sumarte

“En China hay una gran competencia, con muchas empresas intentando ser 'el OpenAI chino'. Esto es una característica muy típica de China: se le echa dinero al sistema, se les dan una serie de ventajas a las empresas, y luego se deja que compitan entre ellas hasta que se maten”, explica Claudio Feijóo, catedrático Jean Monnet en Diplomacia tecnológica y Soberanía digital en la Universidad Politécnica de Madrid.

“Lo curioso de esto es que, dentro de la propia China, había ya muchas voces que decían que esta política era fatal porque se estaban dispersando los recursos en vez de concentrarlos en una especia de campeón al estilo de OpenAI. Defendían que esa competencia extrema los estaba retrasando en materia de inteligencia artificial, donde la cosa va de reunir músculo”, continúa.

El experto, que pasó siete años en el gigante asiático estudiando sus procesos de innovación tecnológica, revela que la competición de múltiples empresas peleando por imponer sus inteligencias artificiales en China recibió el nombre de “la guerra de los cien modelos”. Un juego de palabras con el período de las Cien escuelas de pensamiento, la época dorada de la filosofía china (475-221 a.C.), cuando diferentes corrientes como el confucianismo, el taoísmo y el legalismo competían por influir en los gobernantes y la sociedad, de manera similar a como las empresas tecnológicas actuales luchan por dominar el mercado de la IA.

Finalmente, esa competencia y el embargo de chips estadounidense hicieron de la necesidad virtud para DeepSeek, que dieron con un método que consume muchos recursos porque sabe economizar mejor aquellos de los que dispone. Lo llaman “modelo de expertos”.

Que hable el que más sabe

A diferencia de los sistemas como ChatGPT o Gemini (la IA de Google), que son “sabelotodos” que buscan en todo su conocimiento para responder a las consultas del usuario, DeepSeek usa un enfoque de expertos especializados. No es una IA que sabe de todo, sino muchas “expertas” en diferentes campos reunidas en un solo lugar. Su sistema no las moviliza a todas para resolver las tareas, sino solo a las que detecta que serán necesarias.

Esta tecnología permite optimizar los recursos computacionales al fragmentar el procesamiento del lenguaje entre diversos módulos especializados. Los expertos, cada uno centrado en aspectos específicos como gramática, semántica o análisis contextual, trabajan de forma coordinada para procesar la información de manera más eficiente. Este mismo sistema es el que le permitió necesitar conjuntos de datos más reducidos para su entrenamiento, abaratando el proceso.

El sistema se inspira en los procesos cognitivos humanos, replicando la dinámica de trabajo de un equipo de especialistas. Esta arquitectura modular no solo mejora la eficiencia, sino que también permite una adaptabilidad excepcional: los expertos pueden activarse o desactivarse según los requerimientos específicos de cada tarea, facilitando así la personalización del modelo para diferentes campos de aplicación. También hace más transparente y similar al humano su proceso de “razonamiento”, motivo por el que muchos usuarios dicen que la comunicación es más natural con ella que con su competencia.

Múltiples enfoques

El comité de expertos que plantea DeepSeek para su IA ganó tracción en “la guerra de los cien modelos”. Este martes, Alibaba (que, como Amazon, también tiene un negocio de computación en la nube muy importante en China y su zona de influencia) presentó una nueva versión de su IA, Qwen, que utiliza este mismo enfoque. Asegura que supera a DeepSeek en algunas tareas.

No obstante, el comité de expertos no es el único modelo en liza. También está el de ModelBest, que está desarrollando sistemas capaces de funcionar directamente en el dispositivo del usuario. “Este enfoque es verdaderamente disruptivo porque puedes meter el modelo y sus contestaciones en tu móvil. Tu información no va a la nube, sino que el sistema es capaz de mezclar su razonamiento con los datos de tu entorno y convertirse en un verdadero copiloto”, expone Feijóo.

Para que uno de estos modelos pueda trabajar en un dispositivo común es necesario reducir dramáticamente el número de parámetros respecto a las inteligencias artificiales como ChatGPT. Estos parámetros son los componentes internos del modelo de IA que determinan su capacidad de aprendizaje y funcionamiento, y reducir su número permite que el modelo opere de manera más eficiente en dispositivos con menos recursos. De conseguirlo, ModelBest podría generar una sacudida similar a la que provocó DeepSeek.

Esto se debe a que Silicon Valley también está centrada en el desarrollo de “agentes” de IA personalizados, modelos más pequeños pero superespecializados en las características de los usuarios u organizaciones que los despliegan. Son, por ejemplo, la gran aspiración de Google y Microsoft en sus investigaciones actuales, aunque en su caso, con sistemas que sí deben conectarse a Internet y procesar la información en sus gigantescos centros de datos.

La censura de los modelos chinos

Este desarrollo tecnológico en China, sin embargo, viene con sus propias particularidades. Al igual que las empresas deben competir por la eficiencia técnica, también deben adherirse a estrictas regulaciones gubernamentales: los modelos que llegan del país asiático tienen una capa de censura que les impide hablar de temas incómodos para Pekín. “Lo siento, no puedo responder a esa pregunta. Soy un asistente de inteligencia artificial diseñado para ofrecer respuestas útiles e inofensivas”, dice DeepSeek cuando se le pregunta por Tiananmen. “Lo siento, no sé cómo afrontar este tipo de pregunta todavía. ¡Hablemos de matemáticas, código o problemas lógicos en vez de ello!”, responde sobre el estatus político de Taiwán.

“Para tener un modelo de lenguaje aprobado en China, tienes que pasar algunos tests. Entre ellos, tienen una regulación que es para, digamos, establecer una 'IA ética con características chinas'. Ahí tienen bloques que son para evitar sesgos de la misma manera que los nuestros, como los sesgos racistas. Pero también tienen todo un bloque que es sobre la perspectiva china del universo”, revela Feijóo. “No les dejan que contesten”.

Esta situación no es nueva, sino que se remonta a principios de 2023. En cuanto empresas chinas como Alibaba anunciaron que estaban desarrollando sus propias inteligencias artificiales, el Gobierno les marcó unas líneas rojas. “Los contenidos generados por inteligencia artificial generativa deben encarnar los valores socialistas fundamentales y no deben contener ningún contenido que subvierta el poder del Estado, abogue por el derrocamiento del sistema socialista, incite a dividir el país o socave la unidad nacional”, ordenó el regulador chino de Internet.

Los sistemas que llegan ahora al resto del mundo son responsables de esas órdenes. Sin embargo, estas limitaciones ya se han visto en inteligencias artificiales occidentales. Gemini, por ejemplo, tiene vetado contestar ninguna pregunta que pueda tener un cariz remotamente político. “Ahora mismo no puedo ayudarte con respuestas sobre elecciones y personajes políticos. Aunque nunca compartiría algo inexacto deliberadamente, puedo cometer errores. Así que, mientras trabajo para mejorar, puedes intentar usar la Búsqueda de Google”, responde a un sencillo ¿Quién es Pedro Sánchez?

En este caso, Google tomó esta decisión por que las alucinaciones que estaba presentando Gemini podían provocar respuestas equivocadas en temas sensibles como la política. “Esto es lo que nos diferencia a nosotros como europeos de China o de EEUU. No es el gobierno con un Gran Hermano el que debe decir qué está bien y qué está mal. Pero tampoco debería ser el mercado porque, ¿quién es el mercado? ¿Elon Musk? ¿Mark Zuckerberg? En Europa el pensamiento predominante es que se debe llegar a acuerdos entre la sociedad civil sobre qué es lo correcto y esto es por lo que deberíamos pelear ahora”, concluye Claudio Feijóo.

Apúntate aquí al boletín de economía

En un momento convulso para las noticias de economía, es más importante que nunca estar bien informado. Las repercusiones de cada movimiento de empresas, de la política económica de los gobiernos y su impacto en los ciudadanos, explicadas desde un punto de vista riguroso y diferente.