Nuestro Desafío

Los Grandes Modelos de Lenguaje (LLMs) han llegado para establecerse como solucionadores de problemas, abordando desde las cuestiones cotidianas hasta los desafíos empresariales más complejos, y extendiéndose incluso a áreas tan diversas como la investigación científica, los servicios estatales y mucho más. Esta tecnología está liderando una auténtica revolución tecnológica de la cual Latinoamérica no se puede quedar afuera. Esta iniciativa es una invitación a la comunidad de IA en Latinoamérica a unir fuerzas para desarrollar un primer gran modelo de lenguaje de código abierto que sea una semilla inicial para embarcar a nuestra región en esta revolución.

¿Quiénes Somos?

Todo Metas Alianzas Líneas de Investigación

Revolución Tecnológica

LLM en Español

Diversidad Linguística

LLM Abierto

Alianzas

Dialectos

Conocimiento Latinoamericano

Innovación y Desarrollo

Preservación cultural

Soberanía Tecnológica

Necesidades locales

Colaboraciones LATAM

Argentina

Colombia

México

Ecuador

Uruguay

Chile

Perú

Datos

Alineamiento

Evaluación

Alianzas

Bibliotecas UC (Chile)
Biblioteca Nacional del Congreso (BCN, Chile)
CRUCH (Chile)
Universidad de los Andes (Colombia)
INFOTEC (México)
INAOE (México)
Centro Geo (México)
Universidad Nacional de Córdoba (UCN, Argentina)
Fundación Vía Libre (Argentina)
DatySoc (Uruguay)
Omar Florez (Perú)
Cristina Benalcazar (Ecuador)

Link

Súmate

Contacto

Para más información contactarse con alexandra.garcia@cenia.cl

Proyectos Open Source

Actualmente tenemos 3 líneas de trabajo activas, donde puedes sumarte desde colaborar con datos latinoamericanos, construcción de benchmarks hasta colaborar con tu expertiz en el entrenamiento del modelo.

Link

Datos Alineamiento Evaluación

Link

Súmate

Corpus LLM Latino

Datos

Actualmente contamos con un Corpus de aproximadamente 7 T compuesto por datos filtrados curados y de la web.

Filtros

Deduplicación
Calidad
Idioma
Heurística
Contenido Prohíbido
Tópico

Fuente	Tamaño (GB)	País/Origen
Red Pajamas	11264	Common Crawl
mc4-es	750	Common Crawl
Tweets	137	Twitter API
Compilation of Large Spanish Unannotated Corpora	8.1	Common Crawl
Spanish Billion Words Corpus	2.76	Common Crawl
Hemeroteca Digital	66	España
Repositorio Universidad de Chile	7.5	Chile
Emol	5.22	Chile
Repositorio y Revistas Universidad Católica	941	Chile
Repositorio Conicet	4.8	Argentina
Repositorio Universidad de los Andes	5.87	Colombia
Repositorio CONALITEG	8.4	México

Cronograma del Proyecto

Para más información descargar aquí Brochure .

Construcción Corpus Latino Enero 2024 - Presente

Equipo Datos CENIA - Alianzas LATAM
Pipeline filtro datos Alianzas Recopilación dirigida
Alineamiento Julio 2024 - Presente

Equipo Desarrollo CENIA
DPO Instruccional Multiturno
Evaluación Agosto 2024 - Diciembre 2024

Equipo Desarrollo CENIA
Benchmarks Sesgo Toxicidad
Pre-entrenamiento Final Octubre 2024 - Diciembre 2024

Equipo Desarrollo CENIA
UTA H100

Contacto

Para más información contactarse con alexandra.garcia@cenia.cl

Hola, bienvenid@ a nuestro proyecto

Nuestro Desafío

¿Quiénes Somos?

Alianzas

Contacto

Proyectos Open Source

Corpus LLM Latino

Cronograma del Proyecto

Contacto