요약
다음 순서는 기계 학습 기반 문제를 해결하는 데 사용할 수 있는 데이터셋을 구축하는 것이다. 필요한 데이터를 이해하면 보다 효과적인 솔루션을 구축할 수 있도록 더 나은 모델과 알고리즘을 선택하는 데 도움이 된다.
기계학습 과정에서 가장 중요한 단계
데이터를 작업하는 것은 아마도 기계 학습 프로세스의 가장 간과되면서도 중요한 단계이다. 2017년에 실시된 O'Reilly 연구에 따르면 머신러닝 실무자는 80%의 시간을 데이터 작업에 할애했다.
데이터 작업의 4가지 측면
데이터 수집 - 데이터 검사 - 요약 통계 - 데이터 시각화
기계학습 애플리케이션의 데이터 작업, 이해 및 처리에대해서만 전체 클래스를 수강할 수 있다. 어떤 종류의 기계학습 프로젝트에서도 우수한 품질의 데이터는 필수적이다. 이제 데이터 작업의 몇가지 일반적인 측면이 있다.
데이터 수집
데이터 수집은 적절한 SQL 쿼리를 실행하는 것만큼 간단할 수도 있고 프로젝트에서 사용할 데이터를 수집하는 사용자 정의 웹 스크래퍼 응용 프로그램을 구축하는것 만큼 복잡할 수 도 있다. 필요한 레이블을 생성하려면 데이터 위에 모델을 실행해야 할 수 도 있다.
수집한 데이터가 정의한 기계 학습 과제 및 문제와 일치하는가?
데이터 검사
데이터의 품질은 모델이 얼마나 잘 수행될 것인가 예상할 수 있는지에 영향을 미치는 가장 큰 요인이 된다. 데이터를 검사할 때 다음 항목을 찾는다.
아웃라이어 : 평균치에서 크게 벗어나 다른 대상들과 확연히 구분되는 표본
값이 누락되거나 불완전함
모델에서 사용할 수 있는 올바른 형식으로 변환하거나 사전 처리해야하는 경우
요약 통계
모델은 데이터 구조화 방법을 가정할 수 있다.
데이터가 확보되었으므로 데이터가 선택한 기계학습 모델의 기본 가정과 일치하는지 확인해야 한다.
많은 통계 도구를 사용하여 평균, IQR(내분위수범위) 및 표준편차와 같은 항목을 계산할 수 있다. 이러한 툴을 통해 데이터셋의 범위, 확장 및 모양을 파악할 수 있다.
데이터 시각화
데이터 시각화를 사용하면 데이터의 특이치와 추세를 확인하고 이해관계자가 데이터를 이해하는데 도움이 된다. 일부 데이터가 서로 다른 그룹으로 클러스터 되거나 일부 데이터 점이 특이치일 수 있다.
용어
귀속
데이터셋에서 결측값을 계산하는데 사용할 수 있는 다양한 통계 도구를 가리키는 공통 용어
아웃라이어(특이치)
표본의 다른 점과 유의하게 다른 데이터 점
퀴즈
모델은 훈련하는데 사용되는 데이터에 의해 구체화되므로 데이터의 품질과 무결성이 매우 중요하다.
모델은 통계적 가정에 기초한다. 올바르게 작동하려면 데이터가 올바르게 포맷되어야 한다.
'강의 > Udacity ML' 카테고리의 다른 글
2.12 모델 평가 (0) | 2021.07.07 |
---|---|
2.10 모델 훈련 (0) | 2021.07.06 |
2.6 문제 정의 (0) | 2021.07.06 |
2.5 머신 러닝의 5단계 (0) | 2021.07.06 |
2.3 머신러닝의 구성 요소 (0) | 2021.07.06 |