본문 바로가기

강의/Udacity ML

2.6 문제 정의

SMALL

어떻게 머신 러닝 작업을 시작할 것인가?

아주 명확한 작업을 정의해라.

스노우콘 판매 사례에서 매출을 올릴 수 있는 방법은 구체적인 과제와는 정반대이다. 이 문제에 대한 답을 어떻게 시도할 수 있는지를 보여준다 : '1달러를 추가하면 판매가 증가하는가?' / '스노우콘에 유기농 향료를 0.5달러 추가하면 판매가 증가하는가?'

이 문제를 해결하는데 사용할 수 있는 머신러닝 과제를 식별한다.

 


머신러닝 작업이란?

모든 모델 훈련 알고리즘과 모델 자체는 데이터를 입력으로 사용한다. 출력은 다를 수 있으며, 해결하도록 설계된 과제에 따라 몇개의 다른 그룹으로 분류된다. 종종 머신러닝 과제를 정의하는 과정의 일환으로 모델을 교육하는데 필요한 종류의 데이터를 사용한다. 

이번 수업에서 지도학습, 비지도학습의 두 보편적인 머신러닝 작업에 중점을 둔다.

 


지도 학습과 비지도 학습

데이터의 라벨링 유무는 종종 머신러닝 과제를 식별하는데 사용된다.

머신 러닝 작업에서 데이터에 라벨화가 되어있으면 지도 학습, 라벨화가 되어있지 않으면 비지도 학습이다.

 

지도 학습

레이블 지정 데이터를 사용하는 경우 작업이 지도된다. 라벨링이라는 용어는 라벨링 솔루션을 이미 포함하고 있는 데이터를 지칭한다. 온도에 따른 스노우콘의 수를 예측하는 것은 지도 학습의 예시이다.

 

라벨링 데이터

데이터는 판매된 스노우콘의 온도와 개수를 모두 포함한다. 두 성분 모두 그래프에 표시된 선형 회귀 분석을 생성하는데 사용된다. 우리의 목표는 판매되는 스노우 콘의 수를 예측하는 것이었고, 그 값을 모델에 입력했다. 모델에 라벨링된 데이터를 제공하고 있으므로 지도식 기계학습 과제를 수행하고 있다.

 

비지도 학습

라벨이 지정되지 않은 데이터를 사용하는 경우 작업은 비지도식으로 간주된다. 따라서 모델을 훈련하는 동안에는 모델에 어떠한 종류의 라벨이나 솔루션도 제공할 필요가 없다.

사진 속의 나무를 보고 물체를 나무로 식별한 것을 라벨링이라고 한다. 사람과 달리 컴퓨터는 그 이미지를 다양한 픽셀의 매트릭스로만 본다. 이 영상에는 우너래 데이터에 라벨이 없으므로 라벨이 없는 것으로 간주된다. 

 


어떻게 라벨의 유무를 확인하는가?

비지도식 학습은 라벨이 없는 데이터를 사용하는 것을 포함한다. 일반적인 작업 중 하나는 클러스터링이다. 클러스터링은 데이터에 자연적으로 발생하는 그룹이 있는지 여부를 확인하는 데 도움이 된다. 

 

비지도식 학습으로 북 마이크로 장르 식별하기

독자들에게 책을 추천하는 회사에서 일을 한다고 생각해보자. 

가정 : 당신은 마이크로 장르로 틴 뱀파이어 로맨스가 있다는 것을 꽤 확신하고 있다. 어떤 마이크로 장르가 있는지 모르기 때문에, 지도식 학습을 사용할 수 없다. 여기서 비지도식 학습 클러스터링 기법이 데이터의 일부 그룹을 감지할 수 있다. 책 설명에 사용된 단어와 구문은 책의 마이크로 장르에 대한 지침을 제공할 수 있다.

 


라벨 유형을 사용한 추가 분류

머신러닝 작업

처음에는 모델을 훈련하는 동안 라벨링된 데이터의 유무에 따라 작업을 분류한다. 종종 작업은 존재하는 레이블의 유형에 의해 추가로 정의된다.

 

지도학습에는 기계학습에서 볼 수 있는 두가지 주요 식별자가 있다.

범주형 라벨은 가능한 값의 이산 세트가 있다. 그림을 기반으로 꽃의 유형을 식별하려는 기계학습 문제에서는 식별할 꽃 범주가 라벨로 표시된 이미지를 사용하여 모델을 교육한다. 또한 범주형 라벨을 사용하여 작업할 때 지도 학습의 일부인 분류 과제를 수행하는 경우가 많다.

연속(회귀)라벨에는 가능한 값의 이산 세트가 없으며, 이는 종종 숫자 데이터로 작업 중임을 의미한다. 스노우콘 판매 예에서는 판매되는 스노우 콘의 수를 예측하려고 한다. 여기서 라벨은 이론적으로 어떤 가치가 있는 숫자이다.

 

비지도식 학습에서 클러스터링은 하나의 예일 뿐이다. 딥러닝과 같은 다른 많은 선택 사항들이 있다.

 


용어

 

클러스터링

데이터에 자연적으로 발생하는 그룹이 있는지 확인하는데 도움이 되는 비지도식 학습 과제이다.

 

범주형 라벨

가능한 값의 이산 집합 (고양이다 / 고양이가 아니다)

 

연속(회귀) 라벨

개별 값 집합이 없으므로 무한한 가능성이 있음을 의미한다.

 

이산

한정된 수의 값 (요일 등)만을 취하는 결과를 나타내는 통계에서 따온 용어

 

라벨

이미 솔루션을 포함하고 있는 데이터

 

라벨링이 없는 데이터

모델을 훈련하는 동안 모델에 라벨이나 솔루션을 제공할 필요가 없는 데이터

 


퀴즈

기계 학습은 두 가지 일을 할 때 가장 효과적이다. 먼저 가능한 한 구체적으로 문제를 정의해라. 두번째로 문제를 해결하기 위해 사용할 기계학습 과제를 식별한다. 질문을 과학적 가설이라고 생각할지도 모른다. 광고 빈도가 청취 습관에 영향을 미치는지 물어보는 것은 좋은 접근법일 수 있다.

 

 

SMALL

'강의 > Udacity ML' 카테고리의 다른 글

2.10 모델 훈련  (0) 2021.07.06
2.8 데이터셋 만들기  (0) 2021.07.06
2.5 머신 러닝의 5단계  (0) 2021.07.06
2.3 머신러닝의 구성 요소  (0) 2021.07.06
2.2 머신러닝이란 무엇인가?  (0) 2021.07.06