Los Grandes Modelos de Lenguaje (LLMs) han llegado para establecerse como solucionadores de problemas, abordando desde las cuestiones cotidianas hasta los desafíos empresariales más complejos, y extendiéndose incluso a áreas tan diversas como la investigación científica, los servicios estatales y mucho más. Esta tecnología está liderando una auténtica revolución tecnológica de la cual Latinoamérica no se puede quedar afuera. Esta iniciativa es una invitación a la comunidad de IA en Latinoamérica a unir fuerzas para desarrollar un primer gran modelo de lenguaje de código abierto que sea una semilla inicial para embarcar a nuestra región en esta revolución.
Para más información contactarse con alexandra.garcia@cenia.cl
Datos
Actualmente contamos con un Corpus de aproximadamente 7 T compuesto por datos filtrados curados y de la web.
| Fuente | Tamaño (GB) | País/Origen |
|---|---|---|
| Red Pajamas | 11264 | Common Crawl |
| mc4-es | 750 | Common Crawl |
| Tweets | 137 | Twitter API |
| Compilation of Large Spanish Unannotated Corpora | 8.1 | Common Crawl |
| Spanish Billion Words Corpus | 2.76 | Common Crawl |
| Hemeroteca Digital | 66 | España |
| Repositorio Universidad de Chile | 7.5 | Chile |
| Emol | 5.22 | Chile |
| Repositorio y Revistas Universidad Católica | 941 | Chile |
| Repositorio Conicet | 4.8 | Argentina |
| Repositorio Universidad de los Andes | 5.87 | Colombia |
| Repositorio CONALITEG | 8.4 | México |
Para más información descargar aquí Brochure .
Para más información contactarse con alexandra.garcia@cenia.cl