
Curso de text-mining literario con R #06: Document.term matrix
Hasta ahora hemos aprendido a transformar nuestro texto en datos para sacar toda la información posible. El siguiente paso, es conseguir lo que se conoce como document-term matrix. No es más que una tabla en la que se resume lo que aparece cada palabra en cada documento.
Aunque en principio parezca fácil, hay que dominar las transformaciones de datos para hacerlo bien. Además, en nuestro caso, primero tendremos que separar el texto por capítulos; estos serán nuestros documentos de la matriz.
No te preocupes si aún no tienes mucha experiencia con R, iremos paso a paso explicando cada cosa de varias formas distintas. Y si tienes cualquier duda, es el momento de preguntarme para que te eche una mano desde soporte.