El Centro Nacional de Inteligencia Artificial (Cenia) ha coordinado el desarrollo de Latam-GPT, el primer modelo de lenguaje de inteligencia artificial (IA) con enfoque en América Latina y el Caribe. Este proyecto, destacado por el presidente chileno Gabriel Boric, tiene como objetivo mejorar el rendimiento de soluciones tecnológicas para los países de la región. Busca la adopción ética y responsable de la IA. La primera versión de esta tecnología gratuita será estrenada este mes.
Un enfoque en la identidad Latinoamericana: Latam-GPT
Latam-GPT se distingue de otros modelos de IA por haber sido entrenado con una proporción significativa de datos de la región. Según Rodrigo Durán, gerente de Cenia, si bien no busca superar a modelos como ChatGPT en áreas como bioquímica o modelos de negocios globales, su «gran virtud estará en el conocimiento del contexto local». Esto significa que Latam-GPT ofrecerá respuestas más precisas y relevantes sobre América Latina que cualquier otro modelo no entrenado con datos regionales.
El subsecretario chileno de Ciencia, Cristián Cuevas Vega, explicó que la meta es que el modelo «responda al origen cultural de Latinoamérica, que es diverso», y que también ofrezca «independencia y soberanía tecnológica a la región». Esta iniciativa surgió de un grupo de investigadores de Cenia. Desde finales de 2022, comenzaron a trabajar en el proyecto, logrando reunir una vasta cantidad de información de diversos países latinoamericanos para robustecer su algoritmo.
Colaboración regional y desafíos en la recolección de datos
La colaboración para Latam-GPT se ha expandido más allá de Chile. Brasil se unió oficialmente al proyecto en abril de 2025 tras la firma de un Memorando de Entendimiento (MoE) durante una gira del presidente Boric. Además, países como Colombia y Paraguay han manifestado interés en sumarse a la iniciativa, que ya cuenta con la participación de cerca de treinta instituciones de distintas naciones de la región.
El proyecto ha recibido inversiones del Banco de Desarrollo de América Latina y el Caribe (CAF) y de la Fundación Data Observatory, a través de créditos de Amazon Web Services (AWS). Sin embargo, uno de los mayores desafíos ha sido la construcción de una base de datos voluminosa y representativa de la región. A diferencia de grandes corporaciones tecnológicas, Cenia no posee fuentes de información propias.
Por ello, se lanzó una campaña para convocar a centros de investigación, instituciones públicas, archivos, bibliotecas, universidades, organizaciones sociales, editoriales, productoras de cine y personas con acceso a grandes volúmenes de datos a colaborar en el entrenamiento de Latam-GPT.
Los datos recopilados son procesados y depurados en Cenia por un equipo de aproximadamente 12 coordinadores y 60 colaboradores, que podría ampliarse. El desarrollo se realiza bajo una lógica de código abierto (Open Source), permitiendo la interacción con el modelo desde cualquier parte del mundo.
Preservación lingüística y proyecciones futuras
Un aspecto innovador de Latam-GPT es la aspiración de adaptar el modelo a lenguas de pueblos originarios. Actualmente, los investigadores ya están trabajando en el desarrollo de software en idiomas como el mapudungún, hablado por el pueblo mapuche en el sur de Chile, y el rapanui, propio de las comunidades ancestrales de la Isla de Pascua.
Rodrigo Durán estima que esta adaptación podría concretarse en marzo de 2026, aunque depende del desarrollo de un traductor que enfrente la complejidad de lenguas ágrafas o indígenas con escasos recursos escritos y conceptos sin traducción literal.
Inicialmente, la primera versión de Latam-GPT se comunicará fluidamente en español, portugués e inglés, funcionando como un chatbot. Sin embargo, se espera que en el futuro pueda expandirse a otras funciones. Álvaro Soto, director de Cenia, enfatizó que la mayoría de los modelos de IA han sido entrenados con datos generados en inglés y en un contexto del «norte global».
Latam-GPT busca subsanar esta realidad, construyendo una IA con una «perspectiva latinoamericana, entrenada con textos, documentos y datos provenientes de la región», y con el propósito de «preservar lenguas originarias» al incorporar dialectos locales. (10).