¿Cuál es la diferencia entre los datos de entrenamiento y los de prueba?

La mejor respuesta

Gracias Yashashri Pahade por A2A. Agregaré uno más en la lista. Hay tres tipos de conjuntos de datos. Los discutiré todos en detalle.

Cuando tenga un gran conjunto de datos , se recomienda dividirlo en 3 partes :

  1. Conjunto de entrenamiento (60\% del conjunto de datos original) : Esto se usa para construir nuestro algoritmo de predicción y ajustar los pesos en la red neuronal. Nuestro algoritmo intenta ajustarse a las peculiaridades de los conjuntos de datos de entrenamiento. En esta fase, generalmente creamos múltiples algoritmos para comparar sus rendimientos durante la fase de validación cruzada. Cada tipo de algoritmo tiene su propio parámetro opciones (la cantidad de capas en una red neuronal, la cantidad de árboles en un bosque aleatorio, etc.). Para cada uno de sus algoritmos, debe elegir una opción. Por eso tiene un conjunto de entrenamiento.
  2. Conjunto de validación cruzada (20\% del conjunto de datos original): Este conjunto de datos se utiliza para comparar el rendimiento de los algoritmos de predicción que se crearon en función del conjunto de entrenamiento. Tú ahora tenemos una colección de algoritmos. Debe elegir un algoritmo que tenga el mejor rendimiento. Por eso tienes un conjunto de prueba. Un conjunto de datos de validación es una muestra de datos retenidos del entrenamiento de su modelo que se usa para dar una estimación de la habilidad del modelo mientras se ajustan los hiperparámetros del modelo. Este conjunto de datos se utiliza para minimizar el ajuste excesivo. No estás ajustando los pesos de la red con este conjunto de datos, solo está verificando que cualquier aumento en la precisión sobre el conjunto de datos de entrenamiento en realidad produce un aumento en la precisión sobre un conjunto de datos que no se ha mostrado a la red antes, o al menos la red no entrenado en él (es decir, conjunto de datos de validación). Si la precisión sobre el conjunto de datos de entrenamiento aumenta, pero la precisión sobre el conjunto de datos de validación permanece igual o disminuye, entonces » sobre el ajuste de su red neuronal y debe dejar de entrenar .
  3. Conjunto de prueba (20\% del conjunto de datos original): Ahora hemos elegido nuestro algoritmo de predicción preferido, pero aún no sabemos cómo funcionará con datos del mundo real completamente invisibles. Por lo tanto, aplicamos nuestro algoritmo de predicción elegido en nuestro conjunto de prueba para ver cómo funcionará para que podamos tener una idea sobre el rendimiento de nuestro algoritmo en datos invisibles. Supongo que si sus algoritmos no tuvieran ningún parámetro, no necesitaría un tercer paso. En ese caso, su paso de validación sería su paso de prueba. Este conjunto de datos se usa solo para probar la solución final a fin de confirmar el poder predictivo real de la red.

Notas:

  1. Es muy importante tener en cuenta que no se recomienda saltarse la fase de prueba, porque el algoritmo que funcionó bien durante la fase de validación cruzada no significa realmente que sea el mejor, porque los algoritmos se comparan en función del conjunto de validación cruzada y sus peculiaridades y ruidos.
  2. Durante la prueba Fase, el propósito es ver cómo va a funcionar nuestro modelo final en la naturaleza, por lo que en caso de que su desempeño sea muy pobre debemos repetir todo el proceso comenzando desde la Fase de Entrenamiento.

Fuente: Introducción al análisis de patrones , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University

Respuesta

Big Data es un concepto amplio que se refiere principalmente a la enorme y creciente cantidad de datos disponibles digitalmente. Big Data se refiere indiscriminadamente a datos cuantitativos y cualitativos («números» y «texto»).

Un conjunto de datos también puede ser una referencia no especificada a simplemente una colección de datos, incluidos textos y números. Sin embargo, un conjunto de datos también es un término preferido cuando se hace referencia a una colección específica de materias primas que se ordenan de acuerdo con algún principio organizativo.

Estos son algunos ejemplos de conjuntos de datos:

  • palabra: el rango de la palabra según la tasa de ocurrencia decreciente
  • palabra en inglés: la misma palabra ( significado ) en alemán
  • palabra – la clase de palabra de la palabra (parte del discurso- clasificación)
  • oración: el sentimiento de la oración (arriba, abajo, intenso, diminuto, importancia, etc.) Este es un ejemplo de la oración que ha sido analizada y etiquetada con la información del sentimiento como un atributo (= metadatos).
  • oración – la actualidad de la oración «Sentiment» es también un ejemplo de actualidad, pero la posibilidad de atribuir información a una oración va mucho más allá de la dimensión relativamente estrecha del sentimiento. Las características de sentimiento representan aproximadamente el 3\% -4\% de todas las palabras en un texto promedio.
  • párrafo, texto completo, colección de textos completos : Un ejemplo podría ser “todas las negociaciones orales en la Cámara de los Comunes del Reino Unido (“ Parlamento ”) desde 2013-01 hasta 2016-06 (el período anterior al Brexit)”. Este tipo de conjunto de datos, inicialmente, solo consta de los datos = el nombre del conjunto más el contenido = las preguntas, respuestas y discursos de los parlamentarios. Una vez recopilado, el conjunto se puede analizar, visualizar, etiquetar, lo que sea.

Aquí hay un par de ejemplos de análisis basados ​​en el conjunto de datos Brexit:

Gráfico circular: El equilibrio general entre las referencias a asuntos y problemas de exportación e importación.

Análisis de seguimiento: Prevalencia de referencias a exportación y importar en oraciones donde hay también referencia a UE / Unión Europea:

Así es como se interpretan los resultados: el número total de oraciones en el conjunto de datos es +1,5 millones. En 18.020 de estos, hay una referencia a UE / Unión Europea. Si las referencias a la exportación, importación y movimiento de mercancías se hubieran distribuido de manera uniforme, habría habido, respectivamente, 44, 39, 6 y cero ejemplos de estos temas en las oraciones de la UE. Da la casualidad de que los índices de prevalencia son 705, 697, 792 y 3.810. Esto significa que, por ejemplo, cuando se menciona EU en una oración, la prevalencia de exportación o importación es aproximadamente 7 veces mayor que si el tema se hubiera distribuido de manera uniforme.

Estos y muchos otros resultados similares pueden ser extraído de conjuntos de datos. Por lo general, es deseable recopilar miembros del conjunto que representen un principio común. En este caso, ahora sabemos algo sobre la naturaleza de los debates y la conexión con el tema UE / Brexit. Si el conjunto hubiera consistido en textos aleatorios, por ejemplo, una combinación de tweets, artículos científicos, oradores políticos, etc., no tendríamos necesariamente ninguna base para sacar conclusiones. Es por eso que se debe tener cuidado al crear «repositorios» de datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *