¿Qué es el Text Mining y cuáles son sus aplicaciones?

¿Qué es el Text Mining y cuáles son sus aplicaciones?

La minería de texto (text mining en inglés) la podemos englobar dentro de las técnicas y modelos de minería de datos. Por tanto, lo primero es saber qué es y en qué consiste esta técnica de análisis de datos.

Minería de datos

La minería de datos se puede definir como el análisis matemático para deducir patrones y tendencias que existen en los datos. Estos patrones pueden detectarse mediante una exploración clásica porque las relaciones son muy complejas o porque el volumen de datos es abrumador.

Estos patrones y tendencias se recopilan y definen como un modelo de minería de datos (data mining). El Data Mining se refiere al conjunto de métodos estadísticos que proporcionan información (en forma de relaciones y patrones) cuando se dispone de inmensas cantidades de datos. Es una parte no paramétrica de la la estadística, que se usa para solventar problemas que se presentan en el Análisis de datos.

Introducido el concepto de minería de datos, podemos entender qué abarca la Minería de textos: tecnología cuyo objetivo es la búsqueda de conocimiento en ingentes cantidades de documentos.

Introducido el concepto de minería de datos, podemos entender qué abarca la Minería de textos: tecnología cuyo objetivo es la búsqueda de conocimiento en ingentes cantidades de documentos.
Magnifying glass and documents with analytics data lying on table

El proceso text mining no se diferencia mucho de la definición que hemos visto para el data mining, pero en la primera obtenemos información a partir de grandes cantidades de texto, con información no estructurada. En la minería de datos, el conocimiento lo obtenemos de bases de datos, en la que la información está bien estructurada. Por tanto, en la minería de textos los datos serán los documentos de las compañías, en lugar de datos de obtenidos de bases de datos.

Fases de la minería de textos

Podemos decir que la minería de textos se encarga de descubrir información que no existía previamente de forma explícita, pero que surge de relacionar el contenido de varios de ellos. Para realizar este proceso la minería de textos comprende tres actividades:

  1. Recuperación: selección de los textos oportunos.
  2. Extracción: extracción de la información incluida en esos textos mediante el procesamiento del lenguaje natural: acontecimientos, datos clave, hechos concretos, relaciones entre ellos, etc.
  3. Minería de datos: encontrar asociaciones entre los datos clave previamente extraídos de entre los textos.

Estas actividades dividimos dentro de tres fases:

  • Fase de pre-procesamiento: los textos se transforman en algún tipo de representación estructurada o semi-estructurada que facilite su análisis posterior. El primer paso dentro de la minería de texto sería definir el conjunto de documentos; además se debe evitar la duplicación de documentos dentro del corpus.

Con el conjunto de documentos seleccionado y estructurado, debemos reconocer los tokens (unidades gramaticales esenciales), lo que implica representar el texto como una lista de palabras mediante una representación vectorial.

  • Etapa de descubrimiento: las representaciones internas se analizan para descubrir patrones interesantes o nueva información.
  • Etapa de visualización: los usuarios pueden observar y explorar los resultados de una forma amena y sencilla.

Aplicaciones de la Minería de Texto

Al ser la minería de texto una variante del data mining, adquirirá técnicas de aprendizaje automático para el reconocimiento de patrones y la comprensión de la nueva información.

Posts

La minería de textos tiene aplicación en diferentes áreas; por ejemplo en el ámbito de la medicina, la biología, la gestión documental o el análisis de opiniones, etc. En pocas palabras, el text mining se podrá aplicar en las áreas de:

  • Extracción de información
  • Análisis de sentimientos o minería de opiniones
  • Clasificación documental
  • Elaboración de resúmenes

De este modo vemos cómo la minería de textos es muy útil para todas las compañías, administraciones y organizaciones en general que por las características propias de su funcionamiento, composición y actividades generan gran cantidad de documentos y que están interesadas en obtener información a partir de todo este volumen de datos. Esto les puede servir para conocer mejor a sus clientes, así como para conocer sus hábitos o preferencias.

Related Posts

Deja un comentario

Your email address will not be published. Required fields are marked.*

× ¿Cómo puedo ayudarte?