Diferencia entre ciencia de datos y minería de datos
La minería de datos se trata de encontrar las tendencias en un conjunto de datos. Y utilizando estas tendencias para identificar patrones futuros. Es un paso importante en el proceso de descubrimiento de conocimiento. A menudo incluye el análisis de la gran cantidad de datos históricos que se ignoraron anteriormente. Data Science es un campo de estudio que incluye todo, desde Big Data Analytics, Data Mining, Predictive Modeling, Data Visualization, Mathematics y Statistics. La ciencia de datos se ha denominado el cuarto paradigma de la ciencia. (los otros tres son teóricos, empíricos y computacionales). La academia a menudo realiza investigaciones exclusivas en ciencia de datos.
Perspectiva historica
Antes de pasar a las descripciones técnicas, echemos un vistazo a la evolución de los términos. Una investigación histórica aclarará cómo se usan los términos actualmente.
- La palabra 'Ciencia de datos' se ha utilizado alrededor de la década de 1960, pero en aquel entonces se usaba como una alternativa a 'Ciencia de la computación'. Actualmente, tiene un significado completamente diferente.
- En 2008, DJ Patil y Jeff Hammerbacher se convirtieron en los primeros individuos en llamarse a sí mismos 'Data Scientists' para describir su papel en LinkedIn y Facebook, respectivamente.
- En 2012, el artículo de Harvard Business Review citaba a Data Scientist como el "trabajo más sexy del siglo XXI".
- El término Minería de datos ha evolucionado paralelamente. Se hizo frecuente entre las comunidades de bases de datos en la década de 1990.
- Data Mining debe su origen a KDD (Knowledge Discovery in Databases). KDD es un proceso de búsqueda de conocimiento a partir de información presente en bases de datos. Y Data Mining es un importante subproceso en KDD.
- La minería de datos a menudo se usa indistintamente junto con KDD.
Aunque estos nombres han aparecido de forma independiente, a menudo aparecen como complementarios entre sí, ya que, después de todo, están estrechamente relacionados con el análisis de datos.
Comparación directa entre la ciencia de datos y la minería de datos (infografía)
A continuación se muestra la comparación de los 9 principales de Data Science Vs Data Mining
Ejemplo de caso de uso
Considere un escenario en el que es un minorista importante en la India. Tiene 50 tiendas que operan en 10 ciudades principales de la India y ha estado operativo durante 10 años.
Digamos que desea estudiar los datos de los últimos 8 años para encontrar el número de ventas de dulces durante las temporadas festivas de 3 ciudades. Si ese es su objetivo, le recomendaría que contrate a una persona con experiencia en minería de datos. Un minero de datos probablemente revise la información histórica almacenada en sistemas heredados y emplee algoritmos para extraer tendencias.
Considere otro caso en el que desea saber qué dulces han recibido críticas más positivas. En este caso, sus fuentes de datos pueden no estar limitadas a bases de datos, sino que podrían extenderse a sitios web sociales o mensajes de comentarios de los clientes. En este caso, mi sugerencia para usted sería contratar a un científico de datos. Una persona empleada como Data Scientist es más adecuada para aplicar algoritmos y realizar este análisis socio-computacional.
Diferencias clave entre la ciencia de datos y la minería de datos
A continuación se muestra la diferencia entre ciencia de datos y minería de datos de la siguiente manera
- La minería de datos es una actividad que forma parte de un proceso más amplio de descubrimiento de conocimiento en bases de datos (KDD), mientras que la ciencia de datos es un campo de estudio al igual que las matemáticas aplicadas o la informática.
- A menudo, Data Science se considera en un sentido amplio, mientras que Data Mining se considera un nicho.
- Algunas actividades en Minería de datos, como el análisis estadístico, la escritura de flujos de datos y el reconocimiento de patrones pueden cruzarse con Data Science. Por lo tanto, Data Mining se convierte en un subconjunto de Data Science.
- Machine Learning en Data Mining se usa más en el reconocimiento de patrones, mientras que en Data Science tiene un uso más general.
Nota
- La ciencia de datos y la minería de datos no deben confundirse con Big Data Analytics y uno puede tener tanto mineros como científicos trabajando en grandes conjuntos de datos.
Tabla comparativa de Data Science Vs Data Mining
Bases para la comparación | Procesamiento de datos | Ciencia de los datos |
¿Qué es? | Una tecnica | Un área |
Atención | Procesos de negocio | Estudio científico |
Objetivo | Hacer los datos más utilizables | Creación de productos centrados en datos para una organización |
Salida | Patrones | Variado |
Propósito | Encontrar tendencias previamente desconocidas | Análisis social, construcción de modelos predictivos, desenterrar hechos desconocidos y más. |
Perspectiva vocacional | Alguien con conocimiento de navegación a través de datos y comprensión estadística puede realizar minería de datos | Una persona necesita comprender el aprendizaje automático, la programación, las técnicas de información gráfica y tener el conocimiento del dominio para convertirse en un científico de datos |
Grado | La minería de datos puede ser un subconjunto de la ciencia de datos ya que las actividades de minería son parte de la tubería de ciencia de datos | Multidisciplinar: la ciencia de datos consta de visualizaciones de datos, ciencias sociales computacionales, estadísticas, minería de datos, procesamiento del lenguaje natural, etc. |
Trata con (el tipo de datos) | Mayormente estructurado | Todas las formas de datos: estructurados, semiestructurados y no estructurados |
Otros nombres menos populares | Arqueología de datos, recolección de información, descubrimiento de información, extracción de conocimiento | Ciencia basada en datos |
Conclusión - Data Science Vs Data Mining
¡Así que aquí tienes! Estoy seguro de que ahora es más consciente de cuáles son las diferencias clave entre los dos y en qué contexto deben utilizarse los dos. Una cosa que debe recordar es que no hay definiciones formales y precisas de ciencia de datos y minería de datos. Todavía hay debates entre la academia y la industria sobre lo que constituye una definición precisa. Sin embargo, todos están en la misma página con respecto a las diferencias de alto nivel y las descripciones de los dos términos que exploramos en este artículo.
Artículo recomendado
Esta ha sido una guía de Data Science Vs Data Mining, su significado, comparación directa, diferencias clave, tabla de comparación y conclusión. También puede consultar los siguientes artículos para obtener más información:
- La ciencia de datos y su creciente importancia
- 7 técnicas importantes de minería de datos para obtener los mejores resultados
- Análisis predictivo versus ciencia de datos: conozca las 8 comparaciones útiles
- 8 técnicas importantes de minería de datos para negocios exitosos