Modelo

La Ciencia de Datos tiene el objetivo de llevar al investigador (Científico de Datos) hacia un mayor y mejor nivel en el conocimiento de los datos. Para lograrlo, se propone considerar el siguiente modelo de seis etapas. 

Modelo de un proyecto en Ciencia de Datos.

El primer paso es reconocer que dentro de la institución se maneja un importante cúmulo de datos; pudiendo estar en diferentes fuentes, formatos y niveles de referencia. En su mayoría, estos datos carecen de estructura, no se conocen sus metadatos y necesitan ser clasificados. En esta primera etapa no se tienen claros los alcances de acumular los datos, ni se identifican sus posibles relaciones.

Una vez que se ha reconocido la existencia y la diversidad de los datos, el siguiente paso es darles estructura. Con el análisis de datos, se busca dar explicar sus metadatos y dar la respestiva clasificación que mejor los explique. En esta segunda etapa, se ofrece la posibilidad de conocer mejor los datos y prepararlos para su procesamiento. Se sugiere iniciar con estudios descriptivos e inferenciales.

Luego de haber estructurado y analizado los datos, el tercer paso es aplicar técnicas de minería de datos. Estas técnicas permiten considerar a la totalidad del cúmulo de datos, ya dotados de estructura, que reflejan un mejor entendimiento de los mismos. El propósito de esta etapa es descubrir las posibles relaciones entre las variables, así como medir el grado de dependencia entre ellas.

En la cuarta etapa se concentra en interpretar los resultados obtenidos. Para ello, además de haber realizado todo el procesamiento de los datos indicado hasta ahora, habrá que conocer del proyecto en su contexto, es decir, cuáles son los objetivos a cumplir y las preguntas a responder, además de la incorporación de las nuevas relaciones que anteriormente eran desconocidas. En esta etapa, se aporta mayor sentido y validez a la información obtenida, generando así un mejor conocimiento.

De acuerdo a las particularidades del proyecto, dependerá si se continúa con la etapa que permita visualizar de una forma dinámica e interactiva las relaciones entre variables y sus resultados asociados y, por último, se evaluará la pertinencia de socializar todo el proyecto de Ciencia de Datos. Cabe mencionar que estas dos últimas etapas están más orientadas hacia proyectos de Business Intelligence.

No todo lo que puede ser contado cuenta, y no todo lo que cuenta puede ser contado
William Bruce Cameron (1963)