Curso: Data Mining.
PRESENTACIÓN.
No toda la información está a la vista. Si bien muchas veces se puede llegar a conclusiones analizando datos a través del armado de reportes, pueden existir patrones ocultos, correlaciones o tendencias que pasan desapercibidos. La minería de datos o data mining es una herramienta que ayuda a generar conocimiento para la toma de decisiones, descubriendo patrones ocultos en los datos y realizando predicciones.
Este curso procura explicar diferentes técnicas de minería de datos y sus diversas aplicaciones. Se utilizan herramientas de software libre para obtener modelos de ejemplo sobre conjuntos de datos sencillos. El curso incluye un trabajo práctico donde el alumno deberá generar su propio modelo a partir de los conceptos aprendidos.
OBJETIVOS.
• Presentar los conceptos básicos y las etapas del proceso de extracción de conocimiento.
• Mostrar técnicas para exploración y preparación de datos
• Conocer diferentes técnicas de minería de datos.
• Generar modelos con conjuntos de datos sencillos utilizando herramientas de software libre.
• Evaluar la calidad de los modelos. Poder compararlos.
• Comparar técnicas y elegir, para un problema concreto, qué técnicas de minería de datos resultan más apropiadas.
• Presentar ejemplos de problemas resueltos con Data Mining que sirvan como futuros disparadores.
• Trabajar en la resolución un caso práctico que permita aplicar gran parte de las técnicas vistas.
• Desarrollar las competencias necesarias para brindar soluciones de Minería de Datos (Data Mining) que permitan apoyar la toma de decisiones en sus organizaciones.
DESTINATARIOS.
Personas con formación en sistemas, actuarios, cs, económicas, etc que se encuentren interesadas en el procesamiento de datos y análisis de información orientado al negocio, con curiosidad en descubrir relaciones entre los datos.
DURACIÓN.
El curso tiene una duración de 48 hs.
REQUISITOS DE LOS DESTINATARIOS PARA CURSAR.
El curso puede ser tomado por cualquier persona con título universitario independientemente del título de grado obtenido.
TEMARIO Y CRONOGRAMA DE CLASES.
Clase 1: Introducción General y Proceso de Extracción de Conocimiento.
• Presentación de posgrado y cuerpo docente. Presentación de alumnos. Calendario. Forma de aprobación
• Motivación del Data Mining y Evolución de los sistemas para la toma de decisiones
• Minería de datos y descubrimiento de conocimiento. Definiciones y conceptos.
• Dominios de aplicaciones y ejemplos.
• Presentación de las diferentes técnicas de Data Mining. Aprendizaje supervisado y no supervisado.
• El proceso de extracción de conocimiento. Etapas.
• Presentación del Trabajo Práctico
Clase 2: Exploración y preparación de datos.
• Tipos de atributos (categóricos, ordinales, continuos).
• Análisis exploratorio de datos. Medidas estadísticas resumen (media, mediana, …). Visualizaciones (Histogramas, box plot, matriz de dispersión, coordenadas paralelas, diagramas estrella, etc)
• Calidad de datos. Problemas (Ruido, outliers, valores faltantes)
• Preparación de datos (Agregaciones, Muestreo, Reducción de la dimensionalidad, Selección de atributos, Creación de atributos, Discretización, Transformación de atributos.
• Práctica con Weka. Ejemplos, Ejercicios y TP
Clase 3: Métodos de Clasificación. Árboles de decisión.
• Definición. Características.
• Ejemplo de aplicación del modelo.
• Mecanismo de construcción.
• Condiciones de corte según el tipo de atributo.
• Homegeneidad e Impureza. Entropía. Criterios de parada.
• Sobreajuste. Poda.
• Métricas de evaluación.
• Práctica con Weka. Ejemplos, Ejercicios y TP
Clase 4: Métodos de Clasificación. Bayes Ingenuo y Vecinos más cercanos.
• Bayes Ingenuo
Teorema de Bayes. Ejemplo de aplicación.
Clasificador Bayes Ingenuo. Características.
• Vecinos más cercanos
Características y consideraciones.
Elección del K.
Distancias.
Diagramas de Voronoi.
• Comparación de las técnicas
• Ejemplos de trabajos utilizando técnicaxs de clasificación
• Práctica con Weka. Ejemplos, Ejercicios y TP
Clase 5. Práctica sobre TP.
• Trabajo sobre el caso de negocio y la herramienta de SW.
• Objetivos. Consultas de avance. Creación de variables.
Clase 6: Predicción Numérica. Regresión lineal simple y múltiple.
• Regresión lineal simple y múltiple.
• Estimación por Cuadrados Mínimos. Suposiciones del modelo. Prueba de hipótesis. Coeficiente de determinación R². Análisis de la varianza y de residuales. Multicolinealidad.
• Transformaciones. Variables dummy.
• Interacción. Métodos de ajuste paso a paso.
• Práctica con Weka. Ejemplos y Ejercicios.
Clase 7: Regresión Logística.
• Odds Ratio. Riesgo Relativo (RR). Modelo de Regresión logística
• Estimación por Máxima Verosimilitud.
• Interpretación de los coeficiente. Significación de variables. Intervalo de Confianza. Selección de variables. Comparación de modelos
• Medidas de ajuste: R², test de Hosmer-Lemeshow.
• Puntos influyentes y outliers. Análisis de residuales. Residuos dePearson, Leverage, Distancia de Cook.
• Clasificación. Precisión. Curvas ROC, gráficos lift, ganancia, etc.
• Práctica con Weka. Ejemplos, Ejercicios y TP
Clase 8: Redes Neuronales.
• Definición. Similitudes entre neuronas biológicas y artificiales. Estructura de procesamiento de una RNA.
• Algoritmo de aprendizaje. Funciones de activación.
• Arquitecturas. Perceptrón. Backpropagation.
• Características. Wificultades
• Práctica con Weka. Ejemplos, Ejercicios y TP
Clase 9: Reglas de Asociación.
• Definiciones.
• Construcción de las reglas. Algoritmo Apriori.
• Evaluación (Soporte, Confianza, Lift, ...)
• Distintos tipos de asociaciones.
• Ejemplos de trabajos realizados
• Práctica con Weka. Ejemplos y Ejercicios.
Clase 10: Métodos de Aglomeramiento (Clustering).
• Métodos jerárquicos y no jerárquicos (Kmeans).
• Distancias.
• Construcción de los clusters.
• Ventajas y limitaciones de cada técnica.
• Evaluación.
• Ejemplos de agrupamientos óptimos y problemáticos.
• Ejemplos de trabajos realizados utilizando clustering.
• Práctica con Weka. Ejemplos y Ejercicios.
Clase 11: Ensamble. Evaluación. Implementación.
• Votación por mayoría. Boosting. Bagging. Ensambles personalizados
• Evaluación de modelos. Matriz de confusión, métricas, costos. Curvas ROC, etc
• Implementación del modelo.
• PML. Integración de los modelos en suite de BI.
• Consultas sobre TP
Clase 12: Presentación de otras herramientas de DM.
• Presentación de diferentes herramientas del mercado, libres y no.
4 Ejemplos de modelos desarrollados.
• Consultas sobre TP
Clases 13 y 14: Tópicos relacionados. Tendencias en Data Mining.
El contenido de estas clases se irá actualizando continuamente en relación con
las tendencias del mercado.
Algunos ejemplos: SNA (Análisis de redes sociales), Web Mining, Big Data, Text Mining, Recuperación de información, Visualización de información, etc.
Clase 15: Exposición de los Trabajos Prácticos.
Presentación y defensa del trabajo práctico integrador
Repaso de temas para el examen
Clase 16: Examen.
Cronograma de Clases.
1. Introducción a DM y KDD. Presentación del Trabajo Práctico
2. Exploración y preparación de datos
3. Árboles de decisión
4. Bayes Ingenuo y Vecinos más cercanos
5. Trabajo sobre TP
6. Regresión lineal simple y múltiple
7. Regresión Logística
8. Redes Neuronales
9. Reglas de Asociación
10. Métodos de Aglomeramiento (Clustering)
11. Ensamble. Evaluación. Implementación
12. Herramientas de DM.
13 y 14. Clases Especiales. Tópicos relacionados. Tendencias en Data Mining
15. Presentación de TP
16. Examen
METODOLOGÍA DE TRABAJO.
El curso contendrá clases teórico-prácticas, a lo largo de las mismas se irán estudiando las diferentes técnicas de minería de datos acompañadas por ejemplos específicos que se realizarán en computadora. Se contempla un trabajo práctico integrador con un caso de negocio real, donde el alumno deberá armar su proceso de explotación de información. Al finalizar el curso los alumnos los alumnos defenderán dicho trabajo.
DOCENTES.
Lic. Cecilia Dómina.
Ing. Pablo Cigliuti.
Lic. Ramiro Galvez.
COORDINADOR.
Ing. Pablo Cigliuti.
PROCEDIMIENTOS DE EVALUACIÓN Y ACREDITACIÓN – CERTIFICACIÓN.
Se evaluará al participante con un examen teórico-práctico al finalizar el curso. Para aprobar el examen se deberá responder en forma correcta el 60% del mismo.
Adicionalmente el participante deberá exponer el trabajo práctico integrador junto a su grupo.
Se entregará certificado de aprobación.
INICIO Y CURSADA.
El curso comenzará el 30 de marzo y se cursará los miércoles de 19 a 22 hs en CABA.