Melhor resposta
Você pode basicamente ter um milhão de exemplos de análise de dados no Google, então vou dar aqui mais alguns exemplos “divertidos ”Análise, na qual nem sempre pensamos.
– Analytics para BEER (agora tenho a atenção de todos;))
Ao implementar um “self-service” de cervejas (cada um pode servir-se de um pouco de diferentes tipos), não só os donos do bar perceberam que o consumo médio era maior, mas também puderam saber o que são as cervejas favoritas. A análise de cervejas também pode ajudar a saber quais são as cervejas consumidas mais rapidamente e quando (os barris de Guiness estão atingindo recordes no dia de São Patrício), de modo a antecipar e pedir com uma precisão aprimorada. Em um nível mais “espião”, você pode ver se alguns bartenders são mais “generosos” ao servir pintes, ou se eles tendem a oferecer muito (para si próprios ou para clientes).
– Analytics em cassinos
Ao rastrear os dados que cada máquina de cassino (ou tapete) está produzindo, os gerentes têm mais conhecimento sobre o que é usado e o que não é, quais são as mais populares e em que hora do dia, mês ou ano , o que está gerando mais lucro (ou prejuízo). Com todos esses insights, eles podem agir de acordo e tomar as medidas adequadas para retificar ou ajustar algumas partes do cassino.
Em qualquer caso, para realizar sua análise, é sempre bom se equipar com os ferramentas de análise de dados que irão facilitar o trabalho de limpeza de dados, para uma exploração aprimorada.
Se você deseja ler mais exemplos como os fornecidos acima, convido você a ler este artigo: 5 exemplos de Big Data em sua vida real em bares, restaurantes e cassinos !
Resposta
Análise refere-se à divisão de um todo em seus componentes separados para exame individual. A análise de dados é um processo para obter dados brutos e convertê-los em informações úteis para a tomada de decisão pelos usuários. Os dados são coletados e analisados para responder a perguntas, testar hipóteses ou refutar teorias.
O estatístico John Tukey definiu a análise de dados em 1961 como: “Procedimentos para análise de dados, técnicas de interpretação dos resultados de tais procedimentos, formas de planejar a coleta de dados para tornar sua análise mais fácil, mais precisa ou mais exata, e todo o maquinário e resultados das estatísticas (matemáticas) que se aplicam à análise de dados. ”
Existem várias fases que podem ser distinguidas, descritas a seguir. As fases são iterativas, em que o feedback das fases posteriores pode resultar em trabalho adicional nas fases anteriores.
Requisitos de dados
Os dados necessários como entradas para a análise são especificados com base nos requisitos daqueles que dirigem a análise ou clientes que usarão o produto acabado da análise. O tipo geral de entidade sobre a qual os dados serão coletados é referido como uma unidade experimental (por exemplo, uma pessoa ou população de pessoas). Variáveis específicas em relação a uma população (por exemplo, idade e renda) podem ser especificadas e obtidas. Os dados podem ser numéricos ou categóricos (ou seja, um rótulo de texto para números).
Coleta de dados
Os dados são coletados de uma variedade de fontes. Os requisitos podem ser comunicados por analistas aos custodiantes dos dados, como pessoal de tecnologia da informação dentro de uma organização. Os dados também podem ser coletados de sensores no ambiente, como câmeras de tráfego, satélites, dispositivos de gravação, etc. Também podem ser obtidos por meio de entrevistas, downloads de fontes online ou leitura de documentação.
Processamento de dados
Os dados inicialmente obtidos devem ser processados ou organizados para análise. Por exemplo, isso pode envolver a colocação de dados em linhas e colunas em um formato de tabela para análise posterior, como em uma planilha ou software estatístico.
Limpeza de dados
Uma vez processados e organizados, os dados podem estar incompletos, conter duplicatas ou conter erros. A necessidade de limpeza de dados surgirá de problemas na maneira como os dados são inseridos e armazenados. A limpeza de dados é o processo de prevenção e correção desses erros. As tarefas comuns incluem correspondência de registros, identificação da imprecisão dos dados, qualidade geral dos dados existentes, desduplicação e segmentação da coluna. Esses problemas de dados também podem ser identificados por meio de uma variedade de técnicas analíticas. Por exemplo, com informações financeiras, os totais para variáveis específicas podem ser comparados com números publicados separadamente considerados confiáveis. Valores incomuns acima ou abaixo de limites predeterminados também podem ser revisados. Existem vários tipos de limpeza de dados que dependem do tipo de dados, como números de telefone, endereços de e-mail, empregadores, etc.Os métodos de dados quantitativos para detecção de valores discrepantes podem ser usados para eliminar dados provavelmente inseridos incorretamente. Os corretores ortográficos de dados textuais podem ser usados para diminuir a quantidade de palavras digitadas incorretamente, mas é mais difícil dizer se as próprias palavras estão corretas.
Análise exploratória de dados
Depois que os dados são limpos, eles podem ser analisados. Os analistas podem aplicar uma variedade de técnicas conhecidas como análise exploratória de dados para começar a entender as mensagens contidas nos dados. O processo de exploração pode resultar em limpeza de dados adicionais ou solicitações adicionais de dados, portanto, essas atividades podem ser de natureza iterativa. Estatísticas descritivas , como a média ou mediana, podem ser geradas para ajudar a compreender os dados. A visualização de dados também pode ser usada para examinar os dados em formato gráfico, para obter informações adicionais sobre as mensagens nos dados.
Modelagem e algoritmos
Fórmulas matemáticas ou modelos chamados algoritmos podem ser aplicados a os dados para identificar relações entre as variáveis, como correlação ou causalidade . Em termos gerais, os modelos podem ser desenvolvidos para avaliar uma determinada variável nos dados com base em outra (s) variável (s) nos dados, com algum erro residual dependendo da precisão do modelo (ou seja, Dados = Modelo + Erro).
Fonte: Isto