주택 가격 예측은 기계학습을 도입하는데 사용되는 가장 일반적인 예 중 하나이다.
전통적으로, 부동산 평가자들은 주택의 가치를 추정하는데 도움을 주기 위해 주택에 대한 많은 수량화 가능한 세부상황(방 수, 부지 크기, 건축 연도)을 사용한다.
1단계 : 문제 정의
Q. 집값은 부지의 크기나 침실 개수로 산정할 수 있는가?
최근 분양된 주택의 분양가에 접근하거나 주택 가격을 평가하게 할 수 있다. 이 데이터가 있으므로 지도형 학습 과제이다. 연속된 숫자 값을 예측하려고 하므로 회귀 작업이다.
2단계 : 데이터셋 만들기
데이터 수집
지난 1년동안 이웃에서 팔린 수많은 집들의 예를 수집하고, 감정가를 지불하여 분양가를 알 수 없는 집들을 평가한다.
데이터 탐구
대부분의 기게학습 모델이 일련의 번호로 작동하므로 모든 데이터가 숫자이다. 엑스트 데이터가 있는 경우도 숫자로 변환해야 한다.
데이터 청소
10개의 방이 있는 맨션과 같이 정보 누락이나 특이한 정보를 찾는다. 이상값을 처리하는데 몇 가지 기술을 사용할 수 있지만 데이터집합에서 이상값을 제거할 수 있다.
데이터 시각화
데이터의 추세를 찾기 위해 각 입력 변수에 대한 홈 값을 표시할 수 있다. 사이즈가 클 수록 주택 가치가 증가함을 볼 수 있다.
3단계 : 모델 훈련
모델을 실제로 훈련하기 전에 데이터를 분할해야 한다. 표준 사례에서는 데이터셋의 80%를 훈련용 데이터셋에, 20%를 테스트 데이터셋에 할당한다.
선형 모델 선택
로트 크기가 증가하면 홈 값도 증가한다. 이 관계는 선형 모델을 사용하여 관계를 나타낼 수 있다. 단일 입력 변수에 걸친 선형 모델을 선으로 나타낼 수 있다. 두 변수에 대한 평면과 두개 이상의 변수에 대한 초평면이 된다. 직선은 일정한 경사를 가지며 변하지 않는다.
Python 라이브러리 사용
파이썬 라이브러리인 scikit-learn은 모델 훈련 알고리즘의 구현을 처리할 수 있다.
4단계 : 평가
회귀 시나리오에서 가장 일반적인 평가 방법 중 하나는 RMS (Root Mean Square)이다. 이 계산은 범위를 벗어나지만 RMS는 테스트 데이터셋의 평균 오류로 대략적으로 간주할 수 있으므로 작은 값을 기대한다.
데이터 지점이 있는 위치를 확인할 수 있다. 데이터 포인트가 가능한 한 평균에 가까우므로 오차가 감소한다. 검정 데이터셋의 데이터 점에 대한 모형의 예측과 참 값 사이의 평균 제곱을 계산한다. 이 실제 계산은 범위를 벗어나지만 개괄적으로 이해하면 된다.
결과 해석
일반적으로 모델이 개선되면 RMS 결과도 개선된다. 계산한 특정 값이 좋은지 나쁜지에 대해 확신이 없을 수 있다. 많은 기계학습 엔지니어는 모델의 정확성을 확인하고 검증하기 위해 한계값까지 예측이 빗나간 횟수를 계산한다.
5단계 : 추론 : 모델 사용
모델 훈련 중에 볼 수 없는 새로운 데이터로 예측이 얼마나 잘 이루어지는지 확인한다.
용어
연속적
가능한 값의 범위가 무제한인 부동 소수점 값. 범주형 또는 이산형 값의 반대로, 가능한 값의 수가 제한된다.
초평면 (Hyperplane)
평면을 세개 이상 포함하는 표면을 나타내는 수학 용어
평면(Plane)
두 점을 직선으로 연결할 수 있는 평평한 표면에 대한 수학 용어
회귀
지도형 기계학습의 공통 과제
'강의 > Udacity ML' 카테고리의 다른 글
2.19 비디오 유출 감지 (0) | 2021.07.08 |
---|---|
2.18 북 장르 탐색 예제 (0) | 2021.07.07 |
2.16 예제 소개 (0) | 2021.07.07 |
2.14 모델 추론 (0) | 2021.07.07 |
2.12 모델 평가 (0) | 2021.07.07 |