juuuding

[Open SW Project] Lec00_Introduction 본문

인공지능/컴퓨터비전 기초

[Open SW Project] Lec00_Introduction

jiuuu 2025. 1. 18. 18:04

 

💡컴퓨터 비전이란 무엇일까?

A field that includes methods for acquiring, processing, analyzing, an understanding images, as the human being does.
인간이 하는 것처럼 이미지를 얻고, 처리하고 분석하고 이해하는 방법을 포함하는 분야

 

컴퓨터 비전은 visual AI라고도 한다. 사람이 눈으로 한 장면을 보고 뇌에서 이 장면에 대해 해석을 한다면, 컴퓨터 비전은 카메라로 장면을 얻고 그 장면을 컴퓨터로 처리해서 해석을 하는 것이다.

이 사진을 볼 때 우리는 이게 에펠탑이라는 것을 알지만, 컴퓨터는 그저 각 픽셀에 저장된 RGB이 값에 대한 정보를 알고 있다. 그러면 여기서 컴퓨터가 이게 에펠탑이라는 것을 알게 하려면 어떻게 해야 할까?

이러한 분야에 대해 연구하는 것이 컴퓨터 비전이다. 

 

💡컴퓨터 비전과 이미지 프로세싱의 관계는 무엇일까?

컴퓨터 비전은 사람이 하는 것처럼 컴퓨터가 이미지로 현실 세계를 볼 수 있게 하는데 필요한 모든 기술을 포함한다.

이미지 프로세싱은 이미지를 얻고, 처리하고, 분석하는 모든 기초적인 기술을 포함한다. 그렇기에 컴퓨터 비전은 이미지 프로세싱과 함께 시작한다. 컴퓨터가 이미지를 보고 현실 세계를 이해하기 위해서는, 그 이미지를 얻어 처리를 하고 해석을 먼저 하는 것이 당연하다. 

 

<Low-level computer vision(image processing)>

저수준에서의 컴퓨터 비전은 이미지 프로세싱이라고 할 수 있다.

  • image enhancement/restoration - 이미지 화질을 강화하거나 복구
  • image filtering - 이미지에 필터를 씌우는 것
  • computational photography - 사진을 가지고 계산하는 것. 예를 들어 HDR. 여러 개의 사진을 찍고(burst shot) 합친다. 한 장면에서 여러 노출에서의 사진(다양한 밝기의 사진)을 찍어, 이를 합쳐 밝기의 범위를 확장하여 더 자연스럽고 사실적인 사진을 얻을 수 있다. 
  • image registration (alignment) - 여러 이미지를 정확히 겹치기 위해 이미지를 정렬

HDR 원리

 

<Middle-level computer vision>

  • image segmentation - 이미지를 분리하는 것. semantic segmentation은 이미지 안 클래스 별로 객체를 분리하는 것이다. 
  • contour detection - 이미지 안 객체의 경계선을 따는 것. contour와 edge는 다른 것인데, edge는 색이 확 변하는 모든 곳을 포함하고, contour는 물체의 경계만을 의미한다. 예를 들어, 얼룩말의 줄무늬를 표시하는 것은 edge고 얼룩말 몸체의 경계를 표시하는 것은 contour이자 edge다. 
  • image descriptor - 이미지를 설명
  • 3D reconstruction - 이미지 안 객체(2차원 평면)를 3차원 객체로 표현하는 것이다.

<High-level computer vision>

  • object classification/recognition - 이미지에서 객체를 인식해서 클래스 별로 분류하는 것
  • object localization - 인식한 객체의 위치를 boundary box로 표시하는 것
  • visual question&answering - 사진을 보고 얻을 수 있는 질문과 답을 하는 것. 이를 위해서는 language+image 기술이 모두 필요하므로 multi-modal 연구 분야에 속한다. 
  • scene understanding - 장면 이해

 

📝 ETC

 * classification: 객체 종류

   localization: 객체 종류 + bounding box

   segmentation: 객체 종류 + precise bounding line

 

 * GPT = Generative Pre-trained Transformer