
Curso de text-mining literario con R #03: Preparación de los datos
Cuando ya hemos conseguido importar el texto, sea con el formato que sea, es momento de hacer una preparación previa de esos datos. Porque aunque sea texto literario, nosotros lo trataremos como datos.
Para ello, necesitamos ordenar, filtrar y transformar la información. Por ejemplo, eliminando texto que se haya importado y que no aporte información, dando el formato correcto al texto, etc.
La clase será contraria a la anterior: en lugar de ver un único concepto más complejo (si no estabas acostumbrado a trabajar con HTML), aquí veremos muchos, pero muy simples. Entre ellos, quizá el más importante: las expresiones regulares.