컴퓨터 비전이란?
컴퓨터 비전을 통해 기계는 패턴을 감지하고 이미지와 비디오에 대한 높은 수준의 이해를 얻을 수 있다. 컴퓨터 비전으로 우리는 생산성을 높이고, 창의성을 주장할 수 있으며, 심지어 인간보다 문제를 더 잘 해결할 수 있다. 컴퓨터 비전의 가장 중요한 사용 중 하나는 자율주행 차이다.
딥러닝 이전의 컴퓨터 비전
먼저, 컴퓨터 비전에 대한 약간의 역사가 있다. 북극곰을 컴퓨터가 식별하도록 훈련해야 한다. 눈, 코, 귀는 0이 될 수 있다. 전통적으로, 컴퓨터 시력은 이렇게 이루어져 있다. 눈동자 패턴과 귀를 감지하는 규칙을 수동으로 코딩하여 특정한 방식으로 합치면 곰을 얻을 수 있다. 하지만 이 규칙은 와해되기 쉽다. 만약 곰이 걷고 있거나, 얼굴을 식별할 수 없는 경우가 이에 해당한다. 우리는 수천, 수백만개의 규칙은 아니더라도 코드를 만들어야 할 것이다. 이러한 제약들 때문에, 컴퓨터 비전은 적용에 제한되어있다.
현대 컴퓨터 비전은 신경 네트워크를 사용함
이러한 문제를 극복하기 위해 컴퓨터 비전의 현대 애플리케이션은 신경 네트워크를 사용했으며, 신경 네트워크는 입력 계층, 은닉 계층, 출력 계층 등의 계층으로 구성되어 있다. 입력 계층이 데이터를 수신한다. 숨겨친 계층은 입력 데이터에서 예측 능력을 가진 중요한 기능을 찾는다. 결과가 생성되는 출력 계층이다.
컴퓨터 비전에 딥러닝 사용
딥러닝을 사용하면 수동으로 규칙을 코딩하는 대신 많은 데이터를 입력하고 머신러닝 모델에서 예측 규칙을 학습할 수 있다. 실제로 딥러닝 모델은 데이터를 기반으로 업데이트할 수 있는 여러 계층으로 구성된다. 각 계층은 이미지에 대한 서로 다른 정보를 추출한다. 처음 몇 개의 레이어는 가장자리와 같은 영상의 기본 패턴을 추출한다. 다음 층은 북극곰의 털에 있는 질감 주변의 세부 사항을 추출할 수 있다. 마지막으로 여러 계층에 걸쳐있다. 독특한 특징에 대한 개략적인 지도를 가지고 있다. 그 후 개략적인 기능의 매핑을 최종 레이어로 전달하여 이미지에 북극곰이 있는지 확인한다.
컴퓨터 비전 소개
컴퓨터 비전은 학계에서 1960년대에 시작되었다. 그 시작부터, 그것은 학문 간 융합의 장이었다. 기계학습 실무자는 시각 단어와 관련된 작업을 이해하고 자동화하기 위해 컴퓨터를 사용한다.
현대 컴퓨터 시력의 적용은 신경망을 사용한다. 이러한 네트워크는 수백만 개의 이미지에 대해 빠르게 훈련될 수 있으며 매우 정확한 예측을 생성한다. 2010년부터 컴퓨터 비전 분야에서 폭발적인 성장이 있었다. 이미지 분류 및 이의 감지와 같은 간단한 작업부터 시작하여 자율주행차가 규모에 맞게 작동하는 데 필요한 거의 실시간 비디오 분석까지 할 수 있다.
컴퓨터 비전이 시작된 방법
컴퓨터 비전의 초기 응용 프로그램에서는 모델을 성공적으로 훈련하기 위해 손으로 주석을 단 이미지가 필요했다.
이러한 초기 애플리케이션은 이미지에 주석을 다는데 필요한 인력 때문에 응용 분야에 한계가 있었다.
신경 네트워크의 세가지 주요 구성 요소
입력 레이어
이 계층은 교육 중 및 모델이 교육된 후 추론이 수행될 때 데이터를 수신한다.
숨겨진 레이어
교육 중에 제공된 레이블을 기반으로 예측 능력을 가진 입력 데이터에서 중요한 기능을 찾는다.
출력 레이어
이 계층은 모델의 출력 또는 예측을 생성한다.
모던 컴퓨터 비전
현대 컴퓨터 비전의 응용 프로그램들은 Convolusion Nueral networks 또는 CNN이라고 불리는 신경 네트워크를 사용한다. 이러한 신경망에서, 숨겨진 레이어들은 이미지에 대한 다른 정보들을 추출하기 위해 사용된다. 이 프로세스를 기능 추출이라고 한다. 이러한 모델은 수백만 개의 이미지에 대해 훨씬 더 빨리 교육될 수 있으며 이전 모델보다 더 나은 예측을 생성할 수 있다.
이 성장이 일어난 방법
2010년 이후, 우리는 컴퓨터 비전에 사용되는 복잡한 신경 네트워크를 훈련시키는데 필요한 컴퓨터 비용이 급속히 감소했다. 훨씬 큰 사전 라벨 데이터 셋을 일반적으로 사용할 수 있게 되었다. 이로 인해 많은 모델을 교육하는데 필요한 데이터 수집 시간이 단축되었다.
컴퓨터 비전 애플리케이션
컴퓨터 비전에는 실제 적용 분야가 많다. 이미지 분류, 객체 감지, 의미 분할 및 활동 인식의 예를 다룬다.
이미지 분류
오늘날 사용되고 있는 컴퓨터 비전의 가장 일반적인 응용 프로그램 이미지 분류를 사용하여 이미지에 무엇이 있는가와 같은 질문에 답할 수 있다. 이러한 유형의 작업은 텍스트 감지 또는 광학 문자 인식 (OCR)과 컨텐츠 조정에 응용된다.
개체 탐지
이미지 분류와 밀접한 관련이 있지만 사용자는 이미지에 대한 보다 세부적인 세부 정보를 수집할 수 있다. 예를 들어, 사용자는 개체가 이미지에 있는지 여부만 아는 것이 아니라 이미지에 동일한 개체의 인스턴스가 여러개 있는지 또는 서로 다른 클래스의 개체가 동일한 이미지에 표시되는지 여부를 확인할 수 있다.
시멘틱 세분화
픽셀 단위로 접근하는 컴퓨터 비전의 또다른 일반적인 응용 프로그램이다. 개체의 존재 여부만 식별하는 것이 아니라 이미지의 어떤 부분이 개체의 일부인가를 픽셀 수준 아래로 식별하려고 한다.
활동 인식
단순히 이미지가 아닌 동영상을 기반으로 하는 컴퓨터 비전의 응용 프로그램이다. 비디오는 시간의 차원이 추가되므로 모델은 시간에 따라 발생하는 변화를 감지할 수 있다.
'강의 > Udacity ML' 카테고리의 다른 글
3.6 AWS 를 사용한 예제 프로젝트 (0) | 2021.07.12 |
---|---|
3.5 AWS DeepLens와 컴퓨터비전 (0) | 2021.07.10 |
3.1 AWS로 머신러닝 학습하기 (0) | 2021.07.09 |
2.19 비디오 유출 감지 (0) | 2021.07.08 |
2.18 북 장르 탐색 예제 (0) | 2021.07.07 |