우수 답변
A2A에 대해 Yashashri Pahade에게 감사드립니다. 목록에 하나 더 추가하겠습니다. 데이터 세트에는 세 가지 유형 이 있습니다. 자세히 설명하겠습니다.
대용량 데이터 세트 가있는 경우
3 개 부분 :
- 교육 세트 (원래 데이터 세트의 60 \%) : 예측 알고리즘을 구축하고 신경망의 가중치를 조정하는 데 사용됩니다. span> 알고리즘은 학습 데이터 세트의 특성에 맞게 조정하려고합니다.이 단계에서는 일반적으로 교차 검증 단계에서 성능을 비교하기 위해 여러 알고리즘을 만듭니다. 각 알고리즘 유형에는 고유 한 매개 변수가 있습니다. 옵션 (신경망의 레이어 수, 랜덤 포레스트의 트리 수 등). 각 알고리즘에 대해 하나의 옵션을 선택해야합니다. 이것이 훈련 세트가있는 이유입니다.
- 교차 검증 세트 (원래 데이터 세트의 20 \%) : 이 데이터 세트가 사용됩니다. 학습 세트를 기반으로 생성 된 예측 알고리즘의 성능을 비교합니다. 사용자 이제 알고리즘 모음이 있습니다. 최고의 성능을 가진 하나의 알고리즘을 선택해야합니다. 그래서 테스트 세트가 있습니다. 검증 데이터 세트는 모델의 하이퍼 매개 변수를 조정하는 동안 모델 기술의 추정치를 제공하는 데 사용되는 모델 학습에서 보류 된 데이터 샘플입니다. 이 데이터 세트는 과도한 피팅을 최소화하는 데 사용됩니다. 사용자는 가중치를 조정하지 않습니다. 이 데이터 세트를 사용하는 네트워크에서 학습 데이터 세트에 대한 정확도 증가가 실제로 이전에 네트워크에 표시되지 않은 데이터 세트에 비해 정확도가 증가하는지 확인하는 것뿐입니다. 훈련 된 데이터 세트 (예 : 검증 데이터 세트). 훈련 데이터 세트에 대한 정확도는 증가하지만 검증 데이터 세트에 대한 정확도는 동일하거나 감소하면 신경망을 과도하게 맞추면 학습을 중단해야합니다 .
- 테스트 세트 (원래 데이터 세트의 20 \%) : 이제 우리가 선호하는 예측 알고리즘을 선택했지만 완전히 보이지 않는 실제 데이터에 대해 어떻게 작동할지 아직 알 수 없습니다. 그래서 우리는 보이지 않는 데이터에 대한 우리 알고리즘의 성능에 대한 아이디어를 가질 수 있도록 우리가 선택한 예측 알고리즘을 테스트 세트에 적용합니다. 알고리즘에 매개 변수가 없다면 세 번째 단계가 필요하지 않을 것이라고 생각합니다. 이 경우 유효성 검사 단계가 테스트 단계가됩니다. 이 데이터 세트는 네트워크의 실제 예측 능력을 확인하기 위해 최종 솔루션을 테스트하는 데만 사용됩니다.
참고 :
- 테스트 단계를 건너 뛰는 것은 권장되지 않는다는 점을 염두에 두어야합니다. 교차 검증 단계에서 잘 수행 된 것은 “진정으로 최고라는 것을 의미하지는 않습니다. 알고리즘이 교차 검증 세트와 그 단점 및 노이즈를 기반으로 비교되기 때문입니다.
- 테스트 중 단계의 목적은 최종 모델이 어떻게 처리되는지 확인하는 것이므로 성능이 매우 좋지 않은 경우 학습 단계부터 전체 프로세스를 반복해야합니다.
출처 : 패턴 분석 소개 , Ricardo Gutierrez-OsunaTexas A & M University, Texas A & M University
답변
빅 데이터 주로 방대한 양의 디지털로 사용 가능한 데이터를 가리키는 광범위한 개념입니다. 빅 데이터는 양적 및 정 성적 데이터 ( “숫자”및 “텍스트”)를 무차별 적으로 참조합니다.
데이터 세트는 텍스트와 숫자를 포함한 단순한 데이터 모음에 대한 지정되지 않은 참조 일 수도 있습니다. 그러나 데이터 세트는 일부 구성 원칙에 따라 정렬 된 특정 원료 컬렉션을 언급 할 때 선호되는 용어이기도합니다.
다음은 데이터 세트의 몇 가지 예입니다.
- 단어 — 발생률 감소에 따른 단어의 순위
- 영어 단어 — 동일한 단어 ( 의미 ) (독일어)
- 단어 — 단어의 단어 클래스 (음사- 분류)
- 문장 — 문장의 감정 (위, 아래, 강렬, 축소, 중요도 등)) 이것은 감정 정보를 속성 (= 메타 데이터)으로 분석하고 태그를 지정한 문장의 예입니다.
- 문장 — 주제 문장의 “감정”도 화제 성의 한 예이지만, 정보를 문장에 기인 할 가능성은 상대적으로 좁은 감정의 차원을 훨씬 뛰어 넘습니다. 감정 특성은 평균 텍스트에있는 모든 단어의 약 3 ~ 4 \%에 이릅니다.
- 문단, 전문, 전체 텍스트 모음 : 예를 들어 “2013–01에서 2016–06 (브렉 시트 이전) 기간 동안 영국 하원 (“의회 “)의 모든 구두 협상”이 될 수 있습니다. 이러한 종류의 데이터 세트는 처음에는 데이터 = 집합 이름과 내용 = 의원의 질문, 답변 및 연설로만 구성됩니다. 수집 된 세트는 분석, 시각화, 태그 지정, 이름 지정이 가능합니다.
다음은 Brexit 데이터 세트를 기반으로 한 분석의 몇 가지 예입니다.
파이 차트 : 수출 및 수입에 대한 참조 간의 일반적인 균형 문제 및 문제.
후속 분석 : 수출 및 수입에 대한 참조의 보급률 EU / 유럽 연합에 대한 또한 참조가있는 문장으로 가져 오기 :
결과가 해석되는 방식입니다. 데이터 세트의 총 문장 수는 +1,5 백만입니다. 이들 중 18.020에는 EU / 유럽 연합에 대한 언급이 있습니다. 상품의 수출, 수입 및 이동에 대한 언급이 균등하게 배포 되었다면 EU 문장에서 발생하는 이러한 주제의 사례는 각각 44, 39, 6, 0 개가 될 것입니다. 실제로 유병률 지수는 705, 697, 792 및 3.810입니다. 이는 예를 들어 EU가 문장에서 언급 될 때 수출 또는 수입의 보급률이 주제가 균등하게 배포 된 경우보다 약 7 배 더 높다는 것을 의미합니다.
이러한 결과 및 기타 유사한 결과가 많이 나타날 수 있습니다. 데이터 세트에서 추출됩니다. 일반적으로 공통 원칙을 나타내는 세트의 구성원을 수집하는 것이 바람직합니다. 이 경우, 우리는 이제 논쟁의 성격과 EU / 브렉 시트 주제와의 연관성에 대해 알고 있습니다. 세트가 임의의 텍스트 (예 : 트윗, 과학 기사, 정치 연설자 등의 혼합)로 구성 되었다면 결론을 내릴 근거가 반드시 있어야하는 것은 아닙니다. 그렇기 때문에 데이터 “저장소”를 구축 할 때주의를 기울여야합니다.