¿Qué es el análisis de datos?
Data Analytics es un proceso de descubrimiento de información clave y conclusiones valiosas de una gran cantidad de datos recopilados o recopilados de varias fuentes para respaldar la toma de decisiones. Mayor potencia computacional, alta velocidad de procesamiento. El advenimiento de las interfaces interactivas de usuario final y la eficacia comprobada del paradigma de computación distribuida para manejar grandes cantidades de datos hicieron que el análisis de datos avanzara en todos los dominios, de manera destacada en el sector minorista, bancario, sanitario, logístico, de defensa, administración pública, etc.
Tipos de análisis de datos
El proceso de análisis de datos se clasifica subjetivamente en tres tipos según el propósito de analizar datos como
- Analítica descriptiva
- Analítica predictiva
- Analítica prescriptiva
Las características de los tipos de análisis mencionados anteriormente se describen a continuación:
1. Análisis descriptivo
El análisis descriptivo se centra en resumir datos pasados para derivar inferencias. Las medidas más utilizadas para caracterizar la distribución de datos históricos incluyen cuantitativamente
- Medidas de tendencia central : media, mediana, cuartiles, modo.
- Medidas de variabilidad o dispersión : rango, rango intercuartil, percentiles.
En los últimos tiempos, las dificultades y limitaciones involucradas para recopilar, almacenar y comprender grandes cantidades de datos se superan con el proceso de inferencia estadística. Las inferencias generalizadas sobre las estadísticas del conjunto de datos de la población se deducen mediante el uso de métodos de muestreo junto con la aplicación de la teoría de limitación central.
Un destacado presentador de noticias reúne detalles de los votos emitidos de los votantes elegidos al azar a la salida de una estación de votación el día de las elecciones para derivar inferencias estadísticas sobre las preferencias de toda la población.
El muestreo repetido del conjunto de datos de la población da como resultado trozos de muestras con un tamaño de muestra suficientemente grande. Por lo general, se prefiere el muestreo agrupado para generar representantes imparciales y bien estratificados del conjunto de datos de la población. La medida estadística de interés se calcula sobre los fragmentos de datos muestreados para obtener una distribución de valores estadísticos de muestra llamada distribución de muestreo. Las características de la distribución de muestreo están relacionadas con las del conjunto de datos de la población utilizando la teoría limitante central.
2. Análisis predictivo
El análisis predictivo explota patrones en datos históricos o pasados para estimar resultados futuros, identificar tendencias, descubrir riesgos y oportunidades potenciales o pronosticar el comportamiento del proceso. Como los casos de uso de predicción son de naturaleza plausible, estos enfoques emplean modelos probabilísticos para medir la probabilidad de todos los resultados posibles.
El chatBot en el Portal de Servicio al Cliente de la firma financiera aprende de manera proactiva la intención de los clientes o necesita basarse en sus actividades pasadas en su dominio web. Con el contexto predicho, chatBot conversa interactivamente con el cliente para brindar servicios aptos rápidamente y lograr una mejor satisfacción del cliente.
Además de los escenarios de extrapolación para predecir lo que sucederá en el futuro en función de los datos pasados disponibles, hay pocas aplicaciones que adivinen las entradas de datos perdidos con la ayuda de muestras de datos disponibles. Esta aproximación de valores perdidos dentro del rango de muestras de datos dados se conoce técnicamente como interpolación.
Una potente aplicación de editor de imágenes admite la reconstrucción de partes perdidas de textura debido al texto superpuesto al interpolar la función de función en el bloque perdido. La función característica puede interpretarse como una notación matemática de patrones en la textura de una imagen distorsionada.
Los factores significativos que influyen en la elección de modelos / estrategias predictivas son:
- Precisión de predicción: que transmite el grado de cercanía entre un valor predicho y el valor real. Una variación menor de la diferencia entre el valor predicho y el valor real implica una mayor precisión del modelo predictivo.
- Velocidad de predicciones: se prioriza en aplicaciones de seguimiento en tiempo real
- Tasa de aprendizaje del modelo: depende de la complejidad del modelo y los cálculos involucrados en el cálculo de los parámetros del modelo.
3. Análisis prescriptivo
La analítica prescriptiva utiliza el conocimiento descubierto como parte del análisis descriptivo y predictivo para recomendar un curso de acciones conscientes del contexto. Se implementan técnicas estadísticas avanzadas y métodos de optimización computacionalmente intensivos para comprender la distribución de predicciones estimadas.
En términos precisos, el impacto y el beneficio de cada resultado, que se estiman durante el análisis predictivo, se evalúa para tomar decisiones heurísticas y sensibles al tiempo para un conjunto dado de condiciones.
Una empresa de consultoría bursátil realiza análisis FODA (Fortaleza, Debilidad, Oportunidades y Amenaza) sobre los precios pronosticados para las acciones en la cartera de inversores y recomienda las mejores opciones de Compra-Venta a sus clientes.
Flujo de proceso en análisis de datos
El proceso de análisis de datos tiene varias etapas de procesamiento de datos como se explica a continuación:
1. Extracción de datos
La ingestión de datos de múltiples fuentes de datos de varios tipos, incluidas páginas web, bases de datos, aplicaciones heredadas, da como resultado conjuntos de datos de entrada de diferentes formatos. Los formatos de datos ingresados al flujo de análisis de datos se pueden clasificar en términos generales como
- Los datos estructurados tienen una definición clara de los tipos de datos junto con la longitud del campo asociado o los delimitadores de campo. Este tipo de datos puede consultarse fácilmente como el contenido almacenado en la Base de datos relacional (RDBMS)
- Los datos semiestructurados carecen de una definición de diseño precisa, pero los elementos de datos se pueden identificar, separar y agrupar en función de un esquema estándar u otras reglas de metadatos. Un archivo XML emplea el etiquetado para contener datos, mientras que el archivo de notación de objetos Javascript (JSON) contiene datos en pares nombre-valor. Las bases de datos NoSQL (no solo SQL) como MongoDB, sino también la base de datos también se utilizan para almacenar datos semiestructurados.
- Los datos no estructurados incluyen conversaciones en redes sociales, imágenes, clips de audio, etc. Los métodos de análisis de datos tradicionales no comprenden estos datos. Los datos no estructurados se almacenan en lagos de datos.
La implementación del análisis de datos para datos estructurados y semiestructurados se incorpora en varias herramientas ETL como Ab Initio, Informatica, Datastage y alternativas de código abierto como Talend.
2. Limpieza y transformación de datos.
La limpieza de los datos analizados se realiza para garantizar la consistencia de los datos y la disponibilidad de datos relevantes para las etapas posteriores de un flujo de proceso. Las principales operaciones de limpieza en análisis de datos son:
- Detección y eliminación de valores atípicos en los volúmenes de datos.
- Eliminar duplicados en el conjunto de datos
- Manejo de entradas faltantes en registros de datos con la comprensión de la funcionalidad o casos de uso
- Las validaciones para valores de campo permitidos en registros de datos como "31 de febrero" no pueden ser valores válidos en ninguno de los campos de fecha.
Los datos limpios se transforman en un formato adecuado para analizar datos. Las transformaciones de datos incluyen
- Un filtro de registros de datos no deseados.
- Unirse a los datos obtenidos de diferentes fuentes.
- Agregación o agrupación de datos
- Tipografía de datos
3. Derivación de KPI / Insight
Los métodos de minería de datos y aprendizaje profundo se utilizan para evaluar los indicadores clave de rendimiento (KPI) o derivar información valiosa de los datos limpios y transformados. Basado en el objetivo de la analítica, el análisis de datos se realiza utilizando varias técnicas de reconocimiento de patrones como agrupación de k-medias, clasificación SVM, clasificadores bayesianos, etc. y modelos de aprendizaje automático como modelos de Markov, modelos de mezcla gaussiana (GMM), etc.
Los modelos probabilísticos en la fase de entrenamiento aprenden los parámetros óptimos del modelo y en la fase de validación, el modelo se prueba usando pruebas de validación cruzada k-fold para evitar errores de sobreajuste y subadaptación.
El lenguaje de programación más utilizado para el análisis de datos son R y Python. Ambos tienen un rico conjunto de bibliotecas (SciPy, NumPy, Pandas) que son de código abierto para realizar análisis de datos complejos.
4. Visualización de datos
La visualización de datos es el proceso de presentación clara y efectiva de patrones descubiertos, conclusiones derivadas de los datos mediante gráficos, diagramas, paneles y gráficos.
- Las herramientas de informes de datos como QlikView, Tableau, etc., muestran KPI y otras métricas derivadas en varios niveles de granularidad.
- Las herramientas de creación de informes permiten a los usuarios finales crear informes personalizados con opciones dinámicas y detalladas utilizando interfaces fáciles de arrastrar y soltar
- Las bibliotecas interactivas de visualización de datos como D3.js (documentos basados en datos), HTML5-Anycharts, etc. se utilizan para aumentar la capacidad de explorar datos analizados.
Artículos recomendados
Esta ha sido una guía de Qué es el análisis de datos. Aquí discutimos los diferentes tipos de análisis de datos con el flujo del proceso. También puede consultar otros artículos sugeridos para obtener más información:
- Preguntas y respuestas de la entrevista del analista de datos
- ¿Qué es la visualización de datos?
- ¿Qué es el análisis de Big Data?
- ¿Qué es minitab?