본문 바로가기

반응형

전체 글

(34)
인공지능 수첩 ( OCR / Google Cloud Vision API / keras-ocr / Tesseract / Text detection / TextBoxes 모델 / PixelLink 모델 / CRAFT / PMTD / Text recognition / CRNN / TPS / Attention과 Transformer ) OCR (Optical Character Recognition) - 스캐너를 통해 입력된 문서 영상에서 문자에 해당하는 부분의 내용을 인식하는 기술 - 문자의 존재를 Detection 하고 나서, 어떤 문자인지 판독하는 Recognition의 과정을 거침. Detection: 입력받은 사진 속에서 문자의 위치를 찾아냄. ↓ Recognition: 찾은 문자 영역으로부터 문자를 읽어냄. ​ 객체 탐지 (Object Detection)를 통한 문자 인식 - 이미지 속에서 '물체'를 찾아내는 딥러닝 모델에게 '문자'를 찾도록 학습을 시킴. - 문자의 특성에 따라서 모델을 변경해 주기도 함. - Regression 방식: 이미지 -> CNN -> 글자영역 표현값 / 기준으로 하는 박스 대비 문자의 박스가 얼마나..
인공지능 수첩 ( Classification / Localization / Object Detection / Semantic Segmentation / Instance Segmentation / Bounding box / IoU / Localization의 Target Label / Sliding Window / Convolution / Anchor box / NMS ) Classification - 주어진 이미지 안의 물체가 '무엇인지' 알아내는 것 - 한 가지 물체를 찾으며, 가장 큰 물체를 알아냄. ​ ​ Localization - 주어진 이미지 안의 물체가 '어느 위치에 있는지' 알아내는 것 - Bounding Box로 위치를 나타냄. ​ ​ Object Detection - 주어진 이미지 안의 물체가 '무엇인지', '어느 위치에 있는지' 모두 알아내는 것 - Bounding Box로 위치를 나타냄. - 여러 물체를 동시에 파악할 수 있음. ​ ​ Semantic Segmentation - 주어진 이미지 안의 '​물체의 영역'을 알아내는 것 - 객체의 모습 그대로 파악하며, Object Mask를 만듦. ( 물체가 있는 좌표의 데이터만 1, 2,.. 로 mask를..
인공지능 수첩 ( DeepLabv3+ / Atrous Convolution / Spatial Pyramid Pooling / Pixel Accuracy / Mask IoU / Nearest Neighbor / Bilinear Interpolation / Transposed Convolution / Image Classification / CAM / GAP / NIN / Grad-CAM / ACoL / 약지도학습 ) DeepLabv3+ - U-Net에서의 Contracting path과 Expansive path의 역할을 하는 것이 여기서는 인코더, 디코더임. - 인코더: 이미지에서 필요한 정보를 특성으로 추출해 내는 모듈 - 디코더: 추출된 특성을 이용해 원하는 정보를 예측하는 모듈 - ASPP(Atrous Spatial Pyramid Pooling)가 있는 블록을 통해 특성을 추출하고, 디코더에서 Upsampling을 통해 세그멘테이션 마스크를 얻음. ​ Atrous Convolution - 일반적인 컨볼루션과 달리 더 넓은 영역을 보도록 해주기 위한 방법으로, 커널이 일정 간격으로 떨어져 있음. - 컨볼루션 레이어를 너무 깊게 쌓지 않아도 넓은 영역의 정보를 커버할 수 있게됨. ​ ​ Spatial Pyrami..

반응형