Análisis comparativo de herramientas Open Source para Data Mining sobre datos públicos del Ministerio de Educación de la República del Ecuador
Diariamente grandes cantidades de datos son recolectadas en muchas áreas de la actividad humana, y la necesidad que tenemos de encontrar la utilidad de dichos datos hacen que el análisis de éstos sea importante. Hablamos de grandes cantidades de datos en muchas situaciones como investigaciones, nego...
Autor Principal: | Páez Juka, Sergio David |
---|---|
Formato: | bachelorThesis |
Idioma: | Spanish / Castilian |
Publicado: |
PUCE - Quito
2020
|
Materias: | |
Acceso en línea: |
8287 |
Etiquetas: |
Agregar Etiqueta
Sin Etiquetas, Sea el primero en etiquetar este registro!
|
Sumario: |
Diariamente grandes cantidades de datos son recolectadas en muchas áreas de la actividad humana, y la necesidad que tenemos de encontrar la utilidad de dichos datos hacen que el análisis de éstos sea importante. Hablamos de grandes cantidades de datos en muchas situaciones como investigaciones, negocios, entretenimiento, etcétera. Tal cantidad de datos es el resultado de la computarización de nuestro mundo, que ha supuesto la creación de herramientas que facilitan el almacenamiento y gestión de los datos. Lo anterior se puede comprobar mirando a las muchas organizaciones que poseen una gran colección de datos que pasan por reseñas de usuarios, tipos de productos, todos los datos involucrados en transacciones, historial de ventas, etcétera. Empresas como supermercados se encargan, a la semana, de realizar millones de transacciones que son almacenadas sistemas computarizados; asimismo, los científicos, entre experimentos, observaciones, mediciones, etcétera, se encargan de almacenar muchos datos puros. Las empresas de telecomunicaciones viven a diario con un tráfico considerable proveniente de las intercomunicaciones de las personas. Las billones de búsquedas diarias en la web, los miles de videos almacenados en línea, la información de pacientes de la industria de la medicina, y muchos otros componen una lista de fuentes de datos que no para de crecer actualmente. Las organizaciones comprendieron que los datos netos que recolectaban podían convertirse en un beneficio si se aplicaba alguna clase de proceso sobre ellos. Es justamente eso, lo que busca la minería de datos, encontrar un bien mayor tomando como base a los datos puros; la minería de datos convierte un gran conjunto de datos en conocimiento. El objetivo es, por lo tanto, encontrar patrones de un conjunto de datos, que nos lleven a levantar conocimiento que, usualmente, no puede ser encontrado estudiando los datos por separado, o también encontrar predicciones para en base a éstos, tener un mayor control sobre los datos. A pesar de que previamente se estableció el objetivo central de la Minería de Datos, existen muchas definiciones válidas. Data Mining consiste en un conjunto de metodologías estadísticas y computacionales que, junto a un enfoque desde las ciencias de la conducta, permite el análisis de datos y la elaboración de modelos matemáticos descriptivos y predictivos de la conducta del consumidor (Palma, Palma, & Pérez, 2009, pág. 43) Podemos decir pues, que la Minería de Datos es un grupo de metodologías apoyadas en la Estadística y la Computación que permiten analizar datos para obtener conocimiento que entregue un valor agregado a los interesados en dichos datos. Un objetivo derivado de la búsqueda de encontrarle utilidad a un conjunto de datos es el enfoque hacia la predicción de eventos. Como bien menciona Casas, Gironés, Minguillón, & Caihuelas (2017) la Física en la actualidad apunta a un estudio de un universo de eventos y no tanto de partículas, lo que hace que muchas ramas de la Ciencia se encarguen del entendimiento y/o predicción de los mencionados eventos; precisamente la minería de datos encuentra una de sus principales metas en este aspecto de pronóstico de situaciones, adelantarse a ciertos escenarios con el fin de obtener ventaja. Sin embargo, también es preciso anotar que la simple visualización de datos tiene una utilidad limitada que termina por insatisfacer la meta antes mencionada de la minería de datos; esto supone que detrás, existan procesos fundamentados correctamente para poder realizar análisis de los datos. Tal y como mencionan Gibert, Ruiz, & José (2006) debido a los conceptos que se mencionaron, se tiende a confundir a la minería de datos como un sinónimo del proceso de descubrimiento de información de los datos (o KDD por sus siglas en inglés); mientras que otros ven a la minería de datos como un paso más dentro del proceso general de KDD. Por tanto, es necesario mencionar cada uno de los pasos de este proceso para obtener una nueva definición de Minería de Datos: • Limpieza de datos: aquí se busca eliminar el ruido e inconsistencia de los datos, es decir, eliminar aquellos datos que, a simple vista, no aportarán nada para la construcción del conocimiento. • Integración de datos: aquí se busca la combinación de varias fuentes de datos para simplificar el resto del proceso. • Selección de datos: paso en donde se extrae de una base de datos, todo aquello que sea relevante para el análisis actual. • Minería de datos: paso esencial que aplica distintos métodos para extraer patrones de los datos, o realiza predicciones de los mismos. |
---|