5 funciones de R para text-mining 📚
El text mining en R es una de esas cosas que parecen complicadas al principio, pero que en cuanto conoces las funciones clave, todo empieza a encajar.
En este artículo te voy a mostrar 5 funciones de R fundamentales para trabajar con texto, limpiar datos y empezar a hacer análisis de texto de forma sencilla y práctica.
¿Qué es el text mining en R?
El text mining consiste en analizar datos en formato texto para extraer información útil:
-
Palabras más frecuentes
-
Patrones
-
Opiniones
-
Temas comunes
En R, el text mining se usa mucho para analizar:
-
Comentarios
-
Opiniones de clientes
-
Redes sociales
-
Encuestas abiertas
-
Documentos
Función 1: tolower() – pasar todo a minúsculas
Uno de los primeros pasos al trabajar con texto es normalizarlo.
No es lo mismo “R”, “r” o “R ” con espacios.
Ejemplo:
texto <- c("Hola Mundo", "HOLA mundo")
tolower(texto)
Esto evita contar la misma palabra varias veces solo por estar en mayúsculas.
Función 2: gsub() – limpiar y reemplazar texto
gsub() es una de las funciones más potentes para limpiar texto.
Se usa para:
-
Eliminar signos
-
Quitar números
-
Reemplazar palabras
-
Limpiar caracteres raros
Ejemplo típico:
texto <- "R es genial!!!"
gsub("[^a-zA-Z ]", "", texto)
Esto deja el texto limpio para análisis posteriores.
Función 3: strsplit() – dividir texto en palabras
Para hacer text mining necesitas separar el texto en palabras.
Ahí entra strsplit():
texto <- "Aprender R es divertido"
strsplit(texto, " ")
Esto convierte una frase en una lista de palabras, paso clave para contar frecuencias o analizar términos.
Función 4: table() – contar palabras
Una vez tienes las palabras separadas, toca contarlas.
Ejemplo sencillo:
palabras <- c("r", "es", "genial", "r", "es")
table(palabras)
Esto te devuelve cuántas veces aparece cada palabra.
Es una función básica, pero imprescindible en análisis de texto.
Función 5: sort() – ordenar resultados
Para ver las palabras más frecuentes, normalmente quieres ordenarlas.
Ejemplo:
frecuencias <- table(palabras)
sort(frecuencias, decreasing = TRUE)
Así puedes identificar rápidamente los términos más importantes de un texto.
Flujo típico de text mining en R
Resumiendo, un flujo muy habitual sería:
-
Pasar todo a minúsculas
-
Limpiar caracteres raros
-
Separar en palabras
-
Contar frecuencias
-
Ordenar resultados
Con solo estas funciones ya puedes hacer muchísimo en text mining básico.
Conclusión
Qué tienes que quedarte de este artículo:
-
tolower()para normalizar texto -
gsub()para limpiar -
strsplit()para separar palabras -
table()para contar -
sort()para ordenar resultados
Si dominas esto, ya puedes empezar a hacer análisis de texto en R sin complicarte. En la academia online tienes cursos paso a paso para aprender R de forma práctica y sin perder tiempo.