lunes
27 AbrMódulo 11. Text mining
Introducción a las tareas básicas y principales de minería de textos. Introducción a Docker. Introducción a técnicas de web scrapping. Exposición de técnicas de auto resumen de texto. Exposición de técnicas de transformación de texto en vectores para proceder a su análisis mediante técnicas clásicas de Machine Learning. Exposición de arquitecturas asociadas al análisis de texto en un entorno Big Data. Aplicación práctica de técnicas de análisis de sentimientos.
Tecnologías: Python, Sklearn, NLTK, Docker, BeautifulSoap.
Docentes: David Cuesta (davidcuestamerino@gmail.com).
David Cuesta recibió el premio al mejor expediente académico de la edición 2017 del Máster en Advanced Analytics on Big Data-Universidad de Málaga con una dotación económica de 3.000 euros concedida por la empresa Piksel. Los diplomas al segundo y tercer mejor expediente fueron recogidos por José Joaquín Rojas y Antonio Fenna respectivamente.
David Cuesta es experto en análisis de datos, sistemas distribuidos y arquitectura de Big Data. Imparte el módulo de minería de textos.
Distribución horaria:
- Clase 1: Presentación(30m), descripción del entorno (Docker)(1h), introducción y primera parte del preprocesado de texto (1h 30m).
- Clase 2: Segunda parte del preprocesado de texto (1h 30m) y autoresumen de textos (1h 30m).
- Clase 3: Aplicando machine learning a texto(3h).
- Clase 4: Arquitecturas de plataformas de NLP (1h 30m). Análisis de sentimientos (Introducción e identificación) (1h 30m).
- Clase 5: Análisis de sentimientos (Basado en reglas) (3h).
- Clase 6: Análisis de sentimientos (Basado en machine learning) (3h).
Pre-Requisitos:
- Conceptos básicos de algebra lineal.
- Conceptos básicos de Jupyter notebooks.
- Conceptos básicos de modelado predictivo.
- Conceptos básicos de programación en Python. Conceptos básicos de sintaxis de lenguaje natural.
Tareas:
Básicas (70%):
- Test sobre la parte teórica de la asignatura (5/7pts).
- Preprocesado de texto (5/7pts).
- Autoresumen de textos (5/7pts).
- Clusterización de textos (5/7pts).
- Clasificación de textos (5/7pts).
Avanzadas (30%):
- Análisis de sentimientos basado en reglas (1.5pts).
- Análisis de sentimientos basados en machine learning (1.5pts).
Challenges (20%) (Se debe elegir una de las siguientes tareas en el caso de querer realizar el challenge):
- Diseño de una arquitectura de text mining en un entorno big data (2pts).
- Diseño de un pipeline de NLP (2pts).
Deja un comentario