5 funciones de R para text-mining 📚

El text mining en R es una de esas cosas que parecen complicadas al principio, pero que en cuanto conoces las funciones clave, todo empieza a encajar.

En este artículo te voy a mostrar 5 funciones de R fundamentales para trabajar con texto, limpiar datos y empezar a hacer análisis de texto de forma sencilla y práctica.


¿Qué es el text mining en R?

El text mining consiste en analizar datos en formato texto para extraer información útil:

  • Palabras más frecuentes

  • Patrones

  • Opiniones

  • Temas comunes

En R, el text mining se usa mucho para analizar:

  • Comentarios

  • Opiniones de clientes

  • Redes sociales

  • Encuestas abiertas

  • Documentos


Función 1: tolower() – pasar todo a minúsculas

Uno de los primeros pasos al trabajar con texto es normalizarlo.

No es lo mismo “R”, “r” o “R ” con espacios.

Ejemplo:

texto <- c("Hola Mundo", "HOLA mundo")
tolower(texto)

Esto evita contar la misma palabra varias veces solo por estar en mayúsculas.


Función 2: gsub() – limpiar y reemplazar texto

gsub() es una de las funciones más potentes para limpiar texto.

Se usa para:

  • Eliminar signos

  • Quitar números

  • Reemplazar palabras

  • Limpiar caracteres raros

Ejemplo típico:

texto <- "R es genial!!!"
gsub("[^a-zA-Z ]", "", texto)

Esto deja el texto limpio para análisis posteriores.


Función 3: strsplit() – dividir texto en palabras

Para hacer text mining necesitas separar el texto en palabras.

Ahí entra strsplit():

texto <- "Aprender R es divertido"
strsplit(texto, " ")

Esto convierte una frase en una lista de palabras, paso clave para contar frecuencias o analizar términos.


Función 4: table() – contar palabras

Una vez tienes las palabras separadas, toca contarlas.

Ejemplo sencillo:

palabras <- c("r", "es", "genial", "r", "es")
table(palabras)

Esto te devuelve cuántas veces aparece cada palabra.

Es una función básica, pero imprescindible en análisis de texto.


Función 5: sort() – ordenar resultados

Para ver las palabras más frecuentes, normalmente quieres ordenarlas.

Ejemplo:

frecuencias <- table(palabras)
sort(frecuencias, decreasing = TRUE)

Así puedes identificar rápidamente los términos más importantes de un texto.


Flujo típico de text mining en R

Resumiendo, un flujo muy habitual sería:

  1. Pasar todo a minúsculas

  2. Limpiar caracteres raros

  3. Separar en palabras

  4. Contar frecuencias

  5. Ordenar resultados

Con solo estas funciones ya puedes hacer muchísimo en text mining básico.


Conclusión

Qué tienes que quedarte de este artículo:

  • tolower() para normalizar texto

  • gsub() para limpiar

  • strsplit() para separar palabras

  • table() para contar

  • sort() para ordenar resultados

Si dominas esto, ya puedes empezar a hacer análisis de texto en R sin complicarte. En la academia online tienes cursos paso a paso para aprender R de forma práctica y sin perder tiempo.