Los Grandes Modelos de Lenguaje (LLMs) han llegado para establecerse como solucionadores de problemas, abordando desde las cuestiones cotidianas hasta los desafíos empresariales más complejos, y extendiéndose incluso a áreas tan diversas como la investigación científica, los servicios estatales y mucho más. Esta tecnología está liderando una auténtica revolución tecnológica de la cual Latinoamérica no se puede quedar afuera. Esta iniciativa es una invitación a la comunidad de IA en Latinoamérica a unir fuerzas para desarrollar un primer gran modelo de lenguaje de código abierto que sea una semilla inicial para embarcar a nuestra región en esta revolución.
Para más información contactarse con alexandra.garcia@cenia.cl
Datos
Actualmente contamos con un Corpus de aproximadamente 7 T compuesto por datos filtrados curados y de la web.
Fuente | Tamaño (GB) | País/Origen |
---|---|---|
Red Pajamas | 11264 | Common Crawl |
mc4-es | 750 | Common Crawl |
Tweets | 137 | Twitter API |
Compilation of Large Spanish Unannotated Corpora | 8.1 | Common Crawl |
Spanish Billion Words Corpus | 2.76 | Common Crawl |
Hemeroteca Digital | 66 | España |
Repositorio Universidad de Chile | 7.5 | Chile |
Emol | 5.22 | Chile |
Repositorio y Revistas Universidad Católica | 941 | Chile |
Repositorio Conicet | 4.8 | Argentina |
Repositorio Universidad de los Andes | 5.87 | Colombia |
Repositorio CONALITEG | 8.4 | México |
Para más información descargar aquí Brochure .
Para más información contactarse con alexandra.garcia@cenia.cl