본문 바로가기

AI 인공지능

(25)

인공지능 수첩 ( human pose estimation / Efficient Object Localization / CPM / Stacked Hourglass Network / Deep High-Resolution Network / SimpleBaseline ) human pose estimation 2D HPE 는 2D 이미지에서 (x, y) 2차원 좌표들을 찾아내고 3D HPE 는 2D 이미지에서 (x, y, z) 3차원 좌표들을 찾아내는 기술 Top-down 모든 사람의 정확한 keypoint를 찾기 위해 object detection 을 사용 crop한 이미지 내에서 keypoint 를 찾아내는 방법으로 표현 detector가 선행되어야 하고 모든 사람마다 알고리즘을 적용해야 하기 때문에 사람이 많이 등장할 때는 느리다는 단점 Bottom-up detector가 없고 keypoint를 먼저 검출합니다. 한 사람에 해당하는 keypoint 를 clustering함. detector 가 없기 때문에 다수의 사람이 영상에 등장하더라도 속도 저하가 크..

인공지능 수첩 ( SSD / TinaFace / RetinaFace / DSFD / S3FD / Multi-face detector ) SSD (Single Shot MultiBox Detector) 다양한 크기의 feature map을 사용 -> 원본 이미지에서 grid 크기를 다르게 하는 효과 convolution을 할 때 비율이 다른 default box를 설정 각 레이어에서 피쳐 맵들을 가져와 Object Detection을 수행한 결과들을 모두 합하여 localization loss와 confidence loss를 구한 다음, 전체 네트워크를 학습시키는 방식 학습 전에 ground truth와 defalt box의 jaccard overlap(IoU)이 0.5 이상인 것을 미리 매칭시켜 positive sample로 설정 TinaFace 백본으로 ResNet50을 사용했고 기존에 존재했던 모듈(Feature Pyramid N..

인공지능 수첩 ( YOLO v1, v2, v3, v4 / PPYOLO / YOLOR / YOLOX / YOLOS ) YOLO v1 (You Only Look Once) 전체 이미지를 보는 횟수가 1회 클래스에 대한 정보와 주변 정보까지 한번에 학습하고 처리 Localization과 Classification을 동시에 수행 이미지를 신경망에 넣어주기만 하면 바로 detection이 가능 스트리밍 비디오에서도 실시간으로 객체를 detection할 수 있음. Object detection을 회귀 문제로 관점을 전환함. 여러 도메인에서 object detection이 가능 "이미지 내의 작은 영역을 나누면 그곳에 객체가 있을 수 있다." → grid 내에 객체가 존재한다. YOLO v1에서 grid는 고정되고, 각 grid 안에 객체가 있을 확률이 중요 이미지를 S x S grid로 나누고, box regression 단계와..

인공지능 수첩 ( OCR / Google Cloud Vision API / keras-ocr / Tesseract / Text detection / TextBoxes 모델 / PixelLink 모델 / CRAFT / PMTD / Text recognition / CRNN / TPS / Attention과 Transformer ) OCR (Optical Character Recognition) - 스캐너를 통해 입력된 문서 영상에서 문자에 해당하는 부분의 내용을 인식하는 기술 - 문자의 존재를 Detection 하고 나서, 어떤 문자인지 판독하는 Recognition의 과정을 거침. Detection: 입력받은 사진 속에서 문자의 위치를 찾아냄. ↓ Recognition: 찾은 문자 영역으로부터 문자를 읽어냄. 객체 탐지 (Object Detection)를 통한 문자 인식 - 이미지 속에서 '물체'를 찾아내는 딥러닝 모델에게 '문자'를 찾도록 학습을 시킴. - 문자의 특성에 따라서 모델을 변경해 주기도 함. - Regression 방식: 이미지 -> CNN -> 글자영역 표현값 / 기준으로 하는 박스 대비 문자의 박스가 얼마나..

인공지능 수첩 ( Classification / Localization / Object Detection / Semantic Segmentation / Instance Segmentation / Bounding box / IoU / Localization의 Target Label / Sliding Window / Convolution / Anchor box / NMS ) Classification - 주어진 이미지 안의 물체가 '무엇인지' 알아내는 것 - 한 가지 물체를 찾으며, 가장 큰 물체를 알아냄. Localization - 주어진 이미지 안의 물체가 '어느 위치에 있는지' 알아내는 것 - Bounding Box로 위치를 나타냄. Object Detection - 주어진 이미지 안의 물체가 '무엇인지', '어느 위치에 있는지' 모두 알아내는 것 - Bounding Box로 위치를 나타냄. - 여러 물체를 동시에 파악할 수 있음. Semantic Segmentation - 주어진 이미지 안의 '물체의 영역'을 알아내는 것 - 객체의 모습 그대로 파악하며, Object Mask를 만듦. ( 물체가 있는 좌표의 데이터만 1, 2,.. 로 mask를..

인공지능 수첩 ( DeepLabv3+ / Atrous Convolution / Spatial Pyramid Pooling / Pixel Accuracy / Mask IoU / Nearest Neighbor / Bilinear Interpolation / Transposed Convolution / Image Classification / CAM / GAP / NIN / Grad-CAM / ACoL / 약지도학습 ) DeepLabv3+ - U-Net에서의 Contracting path과 Expansive path의 역할을 하는 것이 여기서는 인코더, 디코더임. - 인코더: 이미지에서 필요한 정보를 특성으로 추출해 내는 모듈 - 디코더: 추출된 특성을 이용해 원하는 정보를 예측하는 모듈 - ASPP(Atrous Spatial Pyramid Pooling)가 있는 블록을 통해 특성을 추출하고, 디코더에서 Upsampling을 통해 세그멘테이션 마스크를 얻음. Atrous Convolution - 일반적인 컨볼루션과 달리 더 넓은 영역을 보도록 해주기 위한 방법으로, 커널이 일정 간격으로 떨어져 있음. - 컨볼루션 레이어를 너무 깊게 쌓지 않아도 넓은 영역의 정보를 커버할 수 있게됨. Spatial Pyrami..

인공지능 수첩 ( segmentation / Mask R-CNN / RoIPool Layer / RoIAlign / FCN / U-Net / semantic segmentation ) segmentation - 픽셀 수준에서 이미지의 각 부분이 어떤 영역인지 분리해 내는 방법 Mask R-CNN - Instance Segmentation 모델 - 2-Stage Object Detection의 Faster-R-CNN을 계승한 것 - object detection 모델로 각 개체를 구분하고 이후에 각 개체 별로 시맨틱 세그멘테이션을 수행 RoIPool Layer - 다양한 RoI 영역을 Pooling을 통해 동일한 크기의 Feature map으로 추출해 내는 레이어 - 이 고정 사이즈의 Feature map을 바탕으로 바운딩 박스와 object의 클래스를 추론해냄. RoIAlign - Quantization하지 않고도 RoI를 처리할 고정 사이즈의 Feature map을 생..

인공지능 수첩 ( Two-stage detector / One-stage detector / R-CNN / Fast R-CNN / Faster R-CNN / RoI Pooling / RetinaNet / Focal Loss / FPN / YOLO / SSD ) Two-stage detector - 물체가 있을 법한 위치의 후보(proposals)들을 뽑아내는 단계 이후, 실제로 물체가 있는지를 Classification과 정확한 바운딩 박스를 구하는 Regression을 수행하는 단계가 분리되어 있음. - Fast R-CNN , Faster R-CNN One-stage detector - 객체의 검출과 분류, 그리고 바운딩 박스 regression을 한 번에 하는 방법 - YOLO , SSD R-CNN - 물체가 있을 법한 후보 영역을 뽑아내는 Region proposal 알고리즘과 후보영역을 분류하는 CNN을 사용함. - Proposal을 만들어내는데에는 Selective search라는 비신경망 알고리즘이 사용됨. - 후보 이미지 각각에 대해..

인공지능 수첩 ( augmentation / Flipping / Gray scale / Saturation / Brightness / Rotation / Center Crop / 아핀 변환 / Random Crop / MedianBlur / ToGray와 MultiplicativeNoise / 텐서플로우 Random Augmentation API / test-time augmentation .. augmentation - 갖고 있는 데이터셋을 여러 가지 방법으로 증강시켜 실질적인 학습 데이터셋의 규모를 키우는 방법 - 딥러닝 및 컴퓨터 비전 작업에서 훈련된 모델의 품질을 높이기 위해 사용됨. - 하드디스크에 저장된 이미지 데이터를 메모리에 로드한 후, 학습시킬 때 변형을 가하는 방법을 사용함. - augmentation을 통해서 실제 입력값과 비슷한 데이터 분포를 만들어 낼 수 있음. - augmentation에서는 배열을 이미지의 기본 형태로 사용함. - augmentation의 기법으로는 Flipping, Gray scale, Saturation, Brightness, Rotation, Center Crop, Random Crop, Mirroring, Color Shifting 등이 있음. ..

인공지능 수첩 ( Unconditional Generative Model / Conditional Generative Model / Subclassing / Pix2Pix / Encoder-Decoder / U-Net / PatchGAN / 판별 모델링 / 생성 모델링 / CycleGAN / Neural Style Transfer / GAN / DCGAN ) Unconditional Generative Model (조건 없는 생성모델) - 다양한 노이즈를 계속 입력으로 넣어보고, 특정 이미지가 생성되기를 기다림. - 원하는 종류의 이미지를 바로 생성해 내지 못함. - 생성하고자 하는 데이터에 대해 제어하기 힘듦. - Generator와 Discriminator의 두 신경망이 minimax game을 통해 서로 경쟁하며 발전함. - z = 임의 노이즈 / D = Discriminator / G = Generator - D(x)는 1이 되도록, D(G(z))는 0이 되도록 해야함. Conditional Generative Model (조건 있는 생성모델) - 우리가 원하는 이미지를 바로바로 생성해 냄. - 원하는 이미지를 만들기 위한 특정 조건을 줌. -..

이전 1 2 3 다음

티스토리툴바