Melhor resposta
Obrigado Yashashri Pahade por A2A. Vou adicionar mais um na lista. Existem três tipos de conjunto de dados. Discutirei todos eles em detalhes.
Quando você tem um grande conjunto de dados , é recomendado dividi-lo em 3 partes :
- Conjunto de treinamento (60\% do conjunto de dados original) : Isso é usado para construir nosso algoritmo de previsão e ajustar os pesos na rede neural. Nosso algoritmo tenta se ajustar às peculiaridades dos conjuntos de dados de treinamento. Nessa fase, geralmente criamos vários algoritmos para comparar seus desempenhos durante a fase de validação cruzada. Cada tipo de algoritmo tem seu próprio parâmetro opções (o número de camadas em uma rede neural, o número de árvores em uma floresta aleatória, etc.) Para cada um de seus algoritmos, você deve escolher uma opção. É por isso que você tem um conjunto de treinamento.
- Conjunto de validação cruzada (20\% do conjunto de dados original): este conjunto de dados é usado para comparar o desempenho dos algoritmos de previsão que foram criados com base no conjunto de treinamento. Você agora tem uma coleção de algoritmos. Você deve escolher um algoritmo que tenha o melhor desempenho. É por isso que você tem um conjunto de teste. Um conjunto de dados de validação é uma amostra de dados impedidos de treinar seu modelo que é usado para fornecer uma estimativa da habilidade do modelo durante o ajuste dos hiperparâmetros do modelo. Este conjunto de dados é usado para minimizar o ajuste excessivo. Você “não está ajustando os pesos de a rede com este conjunto de dados, você está apenas verificando se qualquer aumento na precisão sobre o conjunto de dados de treinamento realmente produz um aumento na precisão sobre um conjunto de dados que não foi mostrado à rede antes, ou pelo menos a rede não foi treinado nele (ou seja, conjunto de dados de validação). Se a precisão do conjunto de dados de treinamento aumentar, mas a precisão do conjunto de dados de validação permanecer a mesma ou diminuir, então você está sobre ajustar sua rede neural e você deve parar de treinar .
- Conjunto de testes (20\% do conjunto de dados original): Agora, escolhemos nosso algoritmo de predição preferido, mas não sabemos ainda como ele se comportará em dados completamente invisíveis do mundo real. Então, aplicamos nosso algoritmo de predição escolhido em nosso conjunto de teste para ver como ele vai se comportar, para que possamos ter uma ideia sobre o desempenho de nosso algoritmo em dados não vistos. Suponho que, se seus algoritmos não tivessem parâmetros, você não precisaria de uma terceira etapa. Nesse caso, sua etapa de validação seria sua etapa de teste. Este conjunto de dados é usado apenas para testar a solução final a fim de confirmar o poder preditivo real da rede.
Observações:
- É muito importante ter em mente que pular a fase de teste não é recomendado, porque o algoritmo que teve um bom desempenho durante a fase de validação cruzada não significa realmente que seja realmente o melhor, porque os algoritmos são comparados com base no conjunto de validação cruzada e suas peculiaridades e ruídos.
- Durante o teste Fase, o objetivo é ver como nosso modelo final vai lidar na natureza, então caso seu desempenho seja muito ruim, devemos repetir todo o processo a partir da Fase de Treinamento.
Fonte: Introdução à análise de padrões , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University
Resposta
Big Data é um conceito amplo que se refere principalmente às enormes e crescentes quantidades de dados disponíveis digitalmente. Big Data refere-se indiscriminadamente a dados quantitativos e qualitativos (“números” e “texto”).
Um conjunto de dados também pode ser uma referência não especificada a simplesmente uma coleção de dados, incluindo textos e números. No entanto, um conjunto de dados também é um termo preferido quando se refere a uma coleção específica de matérias-primas que são ordenadas de acordo com algum princípio de organização.
Estes são alguns exemplos de conjuntos de dados:
- palavra – a classificação da palavra de acordo com a taxa de ocorrência decrescente
- palavra em inglês – mesma palavra ( significado ) em alemão
- palavra – a classe de palavras da palavra (classe gramatical- classificação)
- frase – o sentimento da frase (para cima, para baixo, intenso, diminutivo, importância, etc.) Este é um exemplo de frase que foi analisada e marcada com as informações de sentimento como um atributo (= metadados).
- frase – a atualidade da frase “Sentimento” também é um exemplo de atualidade, mas o potencial para atribuir informações a uma frase vai dramaticamente além da dimensão relativamente estreita do sentimento. Características de sentimento equivalem a aproximadamente 3–4\% de todas as palavras em um texto médio.
- parágrafo, texto completo, coleção de textos completos : Um exemplo poderia ser “todas as negociações orais na Câmara dos Comuns do Reino Unido (“ Parlamento ”) de 2013–01 a 2016–06 (pré-Brexit) período”. Esse tipo de conjunto de dados, inicialmente, consiste apenas nos dados = nome do conjunto mais o conteúdo = perguntas, respostas e discursos dos parlamentares. Uma vez coletado, o conjunto pode ser analisado, visualizado, marcado, você escolhe.
Aqui estão alguns exemplos de análises baseadas no conjunto de dados Brexit:
Gráfico de pizza: O equilíbrio geral entre as referências para exportar e importar assuntos e questões.
Análise de acompanhamento: Prevalência de referências para exportar e importar em frases onde há também referência à UE / União Europeia:
É assim que os resultados são interpretados: O número total de sentenças no conjunto de dados é +1,5 milhões. Em 18.020 deles, há uma referência à UE / União Europeia. Se as referências à exportação, importação e movimentação de mercadorias tivessem sido distribuídas uniformemente, haveria, respectivamente, 44, 39, 6 e zero exemplos desses tópicos ocorrendo nas sentenças da UE. Acontece que os índices de prevalência são 705, 697, 792 e 3.810. Isso significa que, por exemplo, quando UE é mencionada em uma frase, a prevalência de exportação ou importação é aproximadamente 7 vezes maior do que se o tópico tivesse sido distribuído uniformemente.
Esses e muitos outros resultados semelhantes podem ser extraído de conjuntos de dados. Geralmente é desejável coletar membros do conjunto que representam um princípio comum. Neste caso, agora sabemos algo sobre a natureza dos debates e a ligação com o tema UE / Brexit. Se o conjunto consistisse em textos aleatórios, por exemplo, uma mistura de tweets, artigos científicos, discursos políticos, etc., não teríamos necessariamente qualquer base para tirar conclusões. É por isso que deve-se tomar cuidado ao construir “repositórios” de dados.