La mejor respuesta
Básicamente, puede tener un millón de ejemplos de análisis de datos en Google, así que le daré aquí algunos ejemplos más «divertidos ”Análisis, en el que no siempre pensamos.
– Analytics para BEER (ahora tengo la atención de todos;))
Al implementar un «autoservicio» para cervezas (todos pueden servirse un poco de diferentes tipos), los licitadores no solo se dieron cuenta de que el consumo promedio era mayor, sino que también pudieron saber qué son las cervezas favoritas. La analítica de cervezas también puede ayudar a saber cuáles son las cervezas que se consumen más rápido y cuándo (los barriles Guiness están alcanzando récords el día de San Patricio), para anticipar y ordenar con mayor precisión. En un nivel más de «espionaje», puede ver si algunos bartenders son más «generosos» al servir pintes, o si tienden a ofrecer mucho (a sí mismos o a los clientes).
– Analytics in Casinos
Al rastrear los datos que cada máquina de casino (o alfombra) está produciendo, los gerentes tienen más conocimiento sobre qué se usa y qué no, cuáles son los más populares y en qué momento del día, mes o año , qué está generando la mayor ganancia (o pérdida). Con todos estos conocimientos, pueden actuar en consecuencia y tomar las medidas adecuadas para rectificar o ajustar algunas partes de su casino.
En cualquier caso, para realizar su análisis, siempre es bueno equiparse con los herramientas de análisis de datos que facilitarán el trabajo de limpieza de datos, para una exploración mejorada.
Si desea leer más ejemplos como los proporcionados arriba, lo invito a leer este artículo: ¡5 ejemplos de Big Data en su vida real en bares, restaurantes y casinos !
Respuesta
El análisis se refiere a dividir un todo en sus componentes separados para un examen individual. El análisis de datos es un proceso para obtener datos sin procesar y convertirlos en información útil para la toma de decisiones de los usuarios. Los datos se recopilan y analizan para responder preguntas, probar hipótesis o refutar teorías.
El estadístico John Tukey definió el análisis de datos en 1961 como: «Procedimientos de análisis de datos, técnicas de interpretación de los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o más exacto, y toda la maquinaria y resultados de la estadística (matemática) que se aplican al análisis de datos «.
Hay varias fases que se pueden distinguir, que se describen a continuación. Las fases son iterativas, ya que los comentarios de las fases posteriores pueden generar trabajo adicional en las fases anteriores.
Requisitos de datos
Los datos necesarios como insumos para el análisis se especifican en función de los requisitos de quienes dirigen el análisis o de los clientes que utilizarán el producto terminado del análisis. El tipo general de entidad sobre la que se recopilarán los datos se denomina unidad experimental (por ejemplo, una persona o población de personas). Se pueden especificar y obtener variables específicas con respecto a una población (por ejemplo, edad e ingresos). Los datos pueden ser numéricos o categóricos (es decir, una etiqueta de texto para números).
Recopilación de datos
Los datos son recopilados de una variedad de fuentes. Los analistas pueden comunicar los requisitos a los custodios de los datos, como el personal de tecnología de la información dentro de una organización. Los datos también se pueden recopilar de sensores en el entorno, como cámaras de tráfico, satélites, dispositivos de grabación, etc. También se pueden obtener a través de entrevistas, descargas de fuentes en línea o lectura de documentación.
Procesamiento de datos
Los datos obtenidos inicialmente deben procesarse u organizarse para su análisis. Por ejemplo, estos pueden implicar colocar datos en filas y columnas en un formato de tabla para un análisis más detallado, como dentro de una hoja de cálculo o software estadístico.
Limpieza de datos
Una vez procesados y organizados, los datos pueden estar incompletos, contener duplicados o contener errores. La necesidad de limpiar los datos surgirá de problemas en la forma en que se ingresan y almacenan los datos. La limpieza de datos es el proceso de prevenir y corregir estos errores. Las tareas comunes incluyen la coincidencia de registros, la identificación de datos inexactos, la calidad general de los datos existentes, la deduplicación y la segmentación de columnas. Estos problemas de datos también se pueden identificar a través de una variedad de técnicas analíticas. Por ejemplo, con información financiera, los totales de variables particulares pueden compararse con números publicados por separado que se consideran confiables. También pueden revisarse los montos inusuales por encima o por debajo de los umbrales predeterminados. Hay varios tipos de limpieza de datos que dependen del tipo de datos, como números de teléfono, direcciones de correo electrónico, empleadores, etc.Los métodos de datos cuantitativos para la detección de valores atípicos se pueden utilizar para deshacerse de los datos probablemente ingresados incorrectamente. Los correctores ortográficos de datos textuales se pueden utilizar para reducir la cantidad de palabras mal escritas, pero es más difícil saber si las palabras en sí son correctas.
Análisis exploratorio de datos
Una vez que se limpian los datos, se pueden analizar. Los analistas pueden aplicar una variedad de técnicas denominadas análisis de datos exploratorios para comenzar a comprender los mensajes contenidos en los datos. El proceso de exploración puede resultar en una limpieza de datos adicional o solicitudes adicionales de datos, por lo que estas actividades pueden ser de naturaleza iterativa. Estadísticas descriptivas , como el promedio o la mediana, pueden generarse para ayudar a comprender los datos. La visualización de datos también se puede utilizar para examinar los datos en formato gráfico, para obtener información adicional sobre los mensajes dentro de los datos.
Modelado y algoritmos
Se pueden aplicar fórmulas o modelos matemáticos llamados algoritmos los datos para identificar relaciones entre las variables, como correlación o causalidad . En términos generales, se pueden desarrollar modelos para evaluar una variable particular en los datos en base a otra (s) variable (s) en los datos, con algún error residual dependiendo de la precisión del modelo (es decir, Datos = Modelo + Error).
Fuente: Esto