본문 바로가기

강의/Udacity ML

2.18 북 장르 탐색 예제

SMALL

1단계 : 문제 정의

책 설명에 있는 일반적인 단어의 존재에 따라 유사한 책의 클러스터 찾기

 

마이크로 장르라는 추세가 존재한다는 가정하에, 책 설명 텍스트를 사용하여 마이크로 장르를 식별하도록 한다.

클러스터링이라고 불리는 비지도형 기계학습 기술을 사용함으로써, 책 설명 텍스트가 숨겨진 마이크로 장르르 식별하는데 사용될 수 있다는 가설을 테스트할 수 있다. 이 기계 학습은 앞에서 말했듯이 데이터가 라벨링되지 않았을 때 유용한 방법이다.

 


2단계 : 데이터셋 만들기

가설을 검증하기 위해 서적의 책 설명 텍스트를 수집한다.

 

데이터 탐색, 검사 및 사전처리

이 프로젝트의 경우 대문자와 동사 시제는 문제가 되지 않을 것으로 예상되기 때문에 대문자를 제거하고 모든 동사를 동일한 시제로 변환하여 언어 처리를 하도록 만든 Python 라이브러리를 사용한다. 또한 구두점과 a, the와 같은 관형사들을 제거한다. 기계 훈련 커뮤니티는 이 단어들을 정지 단어라고 부른다.

 


3단계 : 모델 훈련

k-means라는 공통 클러스터를 찾는 모델을 선택한다. 이 모델에서는 모델 매개 변수 k를 모델이 데이터 셋에서 찾으려고 하는 클러스터 수와 동일하게 변경할 수 있다. 데이터가 라벨링되어 있지 않기 때문에 마이크로 장르의 개수를 찾기 위해 k에 대해 서로 다른 값을 사용하여 모델을 훈련할 수 있다. 즉 k 값에 따라 분류가 달라지기 때문에 적합한 k를 찾아야 한다.

 


4단계 : 모델 평가

기계학습에서는 모델을 평가하기 위해 수많은 통계적 매트릭스 또는 방법을 사용할 수 있다. 이 사례에서는 실루엣 계수를 선택하는 것이 좋다. 이 매트릭은 모델별로 데이터가 얼마나 잘 클러스터링되었는지 설명한다. 최적의 클러스터 수를 찾으려면 실루엣 계수를 표시하며 찾는다.

 

종종 기계학습 실무자는 모델의 결과를 수동으로 평가한다.

특정 장르로 분류할 수 있는 많은 책들이 포함된 클러스터(군집)을 찾을 수 있다면, 업계에서 이 경향이 보편적일 때 신뢰도가 높아진다. 모든 클러스터가 이렇게 결합되는지는 모르지만 이 모델을 사용하면 적절할 것이다.

 


5단계 : 추론 (모델 사용)

k = 19일때 발견된 여러 군집을 조사하면 큰 군집을 발견할 수 있다.

텍스트 조각의 대부분이 문자가 일종의 장거리 관계임을 나타낸다. 다른 몇개의 일관성 있는 클러스터를 보고 예상치 못한 현대 로맨스 마이크로 장르에 대해 충분한 데이터를 확보했다고 볼 수 있다.

 


용어

단어 가방

텍스트에서 특징을 추출하는데 사용되는 기술이다. 문서에 단어가 표시되는 횟수를 센 다음 해당 정보를 데이터셋으로 변환한다.

 

데이터 벡터화

기계 학습 모델에서 사용할 수 있도록 숫자가 아닌 데이터를 숫자 형식으로 변환하는 프로세스

 

실루엣 계수

모델링 중에 발견된 클러스터를 설명하는 -1 ~ 1까지의 점수. 점수가 0에 가까울수록 클러스터가 겹친다는 의미이고 점수가 0보다 작으면 잘못된 클러스터에 할당된 데이터 지점을 나타낸다. 점수가 1에 근접하면 겹치지 않는 이산 클러스터를 성공적으로 식별한 것이다.

 

중지 단어

데이터 셋을 작성할 때 자연어 처리 도구에 의해 제거된 단어 목록이다. 모든 자연어 처리 도구에 사용되는 범용 중지어 목록은 없다. 

SMALL

'강의 > Udacity ML' 카테고리의 다른 글

3.1 AWS로 머신러닝 학습하기  (0) 2021.07.09
2.19 비디오 유출 감지  (0) 2021.07.08
2.17 집 가격 예측  (0) 2021.07.07
2.16 예제 소개  (0) 2021.07.07
2.14 모델 추론  (0) 2021.07.07