La Pila


“The Pile” o “La Pila” es un dataset de 825GB de información en formato texto, lenguaje natural, de diversos idiomas recopilado por la organización Eleuther. Esta está subdividida en 22 dataset más pequeños. En La Pila encontrarás contenidos muy variados: páginas webs, código de Github, papers de filosofía,  libros, matemáticas, física, etc.

Web de La Pila.