본문 바로가기

【2】CNN_합성곱 신경망/컴퓨터 비전의 이해

컴퓨터에게 눈이 달렸다!

딥러닝 기반의 컴퓨터 비전 연구 분야에는 어떤 것들이 있을까? 다양한 문제들이 연구되고 있지만 이 책에서는 가장 기본이 되는 이미지 분류, 물체 인식을 포함해 조금 더 발전된 연구인 물체 검출과 이미지 캡셔닝까지 각 분야에 대한 개념을 알아보자.

 

 

1. 이미지 분류 (Image Classification)

 

이미지 분류는 물체 분류(Object classification)라고도 하며 이미지 전체 혹은 이미지 안의 물체(object)의 종류를 구분하는 작업이다. 이때 분류하려는 종류의 개수가 두개면 이진 분류, 여러 개면 다중 분류 작업이 되는데 예를 들면 전자는 강아지와 고양이로 이미지를 분류하는 문제가 있고 후자는 손으로 쓴 숫자(0~9)를 분류하는 문제가 있다.

 

 

 

 

2. 물체 위치인식(Object Localization)

 

위치 인식이란 이미지 안의 물체가 이미지의 어느 영역에 있는지 위치 정보를 출력해 주는 것이다. 주로 물체를 사각형으로 표시를 하는데 사각형의 왼쪽 위(left top)와 오른쪽 아래(right bottom) 좌표를 출력한다. 이때 사각형을 Bounding box라고 하며 물체의 위치 정보를 알려주는 작업이 바로 물체 위치 인식이다.

 

 

 

 

3. 물체 검출(Object Detection)

 

물체 검출이란 물체가 무엇인지 분류(classification)하는 과정과 물체가 어디에 있는지 위치정보를 알려주는(Localization) 과정이 동시에 수행되는 것을 의미한다. 하나의 객체만 찾는 위치인식(localization)과는 다르게 검출(detection)은 다양한 물체를 찾을 수 있다는 차이점이 있다. 분류하려는 종류에 따라 이진 분류와 다중 분류가 있는 것처럼 특정 물체만 검출하는 경우와 여러 개의 물체를 검출하고자 하는 경우가 있는데 다음의 그림은 후자인 Multi object detection의 예시이다.

출처:  cs231n 강의자료

 

 

출처: flickr

 

 

 

4. 이미지 캡셔닝(Image captioning)

 

이미지 캡셔닝이란 이미지를 설명하는 문장을 만들어 내는 작업으로 이미지 이해의 핵심 작업이라 할 수 있다. 이미지 캡셔닝을 위해서는 이미지 속의 물체의 정보를 얻고 관계를 추출하는 모델과 이를 문장으로 생성해내는  RNN 모델의 조합으로 이루어 진다. 다음은 이미지 캡셔닝의 예시이다. 입력된 사진을 올바르게 설명하는 출력 문장을 볼 수 있다.

 

 

앞서 소개한 기술들 뿐만 아니라 이를 응용한 컴퓨터 비전의 다양한 기술들이 존재한다. 컴퓨터 비전의 기술들은 다양한 분야에서 사용되고 있는데 의료분야에서는 CT 촬영과 같은 의료 이미지를 통해 질병을 발견하고 분류함으로써 의사의 진단을 돕는다. 또한 제조 분야에서는 제조과정에서 결함을 찾아내거나 검수 작업을 통해 제품의 완성도를 보장하는데 쓰인다. 컴퓨터 비전의 완전체인 자율주행 자동차의 개발에도 장애물, 사람, 도로 표지판 등을 감지하는데 크게 활용되고 있다.

 

컴퓨터 비전에서 이미지 인식과 처리는 가장 중요하다해도 과언이 아니다. 이미지의 특징을 식별하고 분류하는 데 기본이 되는 인공신경망인 합성곱 신경망을 살펴보겠다.

 

 

 

 

 

 

 


작성자 홍다혜 ghdek11@gmail.com  / 이원재 wonway333@gmail.com