Inicio
Acerca de
Alianzas
Contacto

Hola, bienvenid@ a nuestro proyecto

Logo

Nuestro Desafío

Los Grandes Modelos de Lenguaje (LLMs) han llegado para establecerse como solucionadores de problemas, abordando desde las cuestiones cotidianas hasta los desafíos empresariales más complejos, y extendiéndose incluso a áreas tan diversas como la investigación científica, los servicios estatales y mucho más. Esta tecnología está liderando una auténtica revolución tecnológica de la cual Latinoamérica no se puede quedar afuera. Esta iniciativa es una invitación a la comunidad de IA en Latinoamérica a unir fuerzas para desarrollar un primer gran modelo de lenguaje de código abierto que sea una semilla inicial para embarcar a nuestra región en esta revolución.

¿Quiénes Somos?

Revolución Tecnológica
LLM en Español
Diversidad Linguística
LLM Abierto
Alianzas
Dialectos
Conocimiento Latinoamericano
Innovación y Desarrollo
Preservación cultural
Soberanía Tecnológica
Necesidades locales
Colaboraciones LATAM
Argentina
Colombia
México
Ecuador
Uruguay
Chile
Perú
Datos
Alineamiento
Evaluación

Alianzas

Link
Súmate

Contacto

Para más información contactarse con alexandra.garcia@cenia.cl

Logo

Proyectos Open Source

Descripción de la imagen

Actualmente tenemos 3 líneas de trabajo activas, donde puedes sumarte desde colaborar con datos latinoamericanos, construcción de benchmarks hasta colaborar con tu expertiz en el entrenamiento del modelo.

Link
Datos Alineamiento Evaluación
Descripción de la imagen

Link
Súmate

Corpus LLM Latino

Datos

Actualmente contamos con un Corpus de aproximadamente 7 T compuesto por datos filtrados curados y de la web.

Filtros
  • Deduplicación
  • Calidad
  • Idioma
  • Heurística
  • Contenido Prohíbido
  • Tópico

Fuente Tamaño (GB) País/Origen
Red Pajamas 11264 Common Crawl
mc4-es 750 Common Crawl
Tweets 137 Twitter API
Compilation of Large Spanish Unannotated Corpora 8.1 Common Crawl
Spanish Billion Words Corpus 2.76 Common Crawl
Hemeroteca Digital 66 España
Repositorio Universidad de Chile 7.5 Chile
Emol 5.22 Chile
Repositorio y Revistas Universidad Católica 941 Chile
Repositorio Conicet 4.8 Argentina
Repositorio Universidad de los Andes 5.87 Colombia
Repositorio CONALITEG 8.4 México

Cronograma del Proyecto

Para más información descargar aquí Brochure .

  • Construcción Corpus Latino Enero 2024 - Presente
    Equipo Datos CENIA - Alianzas LATAM
    Pipeline filtro datos Alianzas Recopilación dirigida
  • Alineamiento Julio 2024 - Presente
    Equipo Desarrollo CENIA
    DPO Instruccional Multiturno
  • Evaluación Agosto 2024 - Diciembre 2024
    Equipo Desarrollo CENIA
    Benchmarks Sesgo Toxicidad
  • Pre-entrenamiento Final Octubre 2024 - Diciembre 2024
    Equipo Desarrollo CENIA
    UTA H100

Contacto

Para más información contactarse con alexandra.garcia@cenia.cl

Logo