• 제목/요약/키워드: mask R-CNN

검색결과 75건 처리시간 0.024초

Atypical Character Recognition Based on Mask R-CNN for Hangul Signboard

  • Lim, Sooyeon
    • International journal of advanced smart convergence
    • /
    • 제8권3호
    • /
    • pp.131-137
    • /
    • 2019
  • This study proposes a method of learning and recognizing the characteristics that are the classification criteria of Hangul using Mask R-CNN, one of the deep learning techniques, to recognize and classify atypical Hangul characters. The atypical characters on the Hangul signboard have a lot of deformed and colorful shapes beyond the general characters. Therefore, in order to recognize the Hangul signboard character, it is necessary to learn a separate atypical Hangul character rather than the existing formulaic one. We selected the Hangul character '닭' as sample data and constructed 5,383 Hangul image data sets and used them for learning and verifying the deep learning model. The accuracy of the results of analyzing the performance of the learning model using the test set constructed to verify the reliability of the learning model was about 92.65% (the area detection rate). Therefore we confirmed that the proposed method is very useful for Hangul signboard character recognition, and we plan to extend it to various Hangul data.

화학 구조 문서 합성 데이터셋 제안 및 Mask R-CNN 기반의 화학 구조 인식 (Synthetic Chemical Structure Documentation Dataset Proposal and Mask R-CNN Based Chemical Structure Segmentation)

  • 윤정환;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1301-1304
    • /
    • 2022
  • 최근 인공지능 신경망에 대한 활발한 연구를 바탕으로 다양한 분야에서의 적용에 대해 많은 시도들이 이루어지고 있다. 이러한 흐름에 맞추어 화학 문서에서 화학 구조를 인식하는 문제 또한 딥러닝을 이용하여 해결하려는 시도들이 생겨나고 있다. 본 논문에서는 화학 문서에서 화학 구조를 인식하는 모델을 학습시키기 위한 합성 데이터셋을 제안하였다. 문서의 구조를 이용하여 정교하게 화학 구조들을 문서에 합성하여 데이터셋을 생성하였고, 이를 최신 딥러닝 모델 중 하나인 Mask R-CNN[7]에 학습시켜 제안한 데이터셋을 이용하여 문서에서 화학 구조를 인식할 수 있음을 보였다.

  • PDF

Cascade Mask R-CNN을 이용한 화학 문서 내 표 검출 (Table Detection in Chemical Documents Using Cascade Mask R-CNN)

  • 권준형;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.88-90
    • /
    • 2021
  • 본 논문은 화학 문서 내에 존재하는 표를 검출하는 문제를 다룬다. 우선 문서에서 표가 있을 만한 영역만을 남긴 후, 객체 검출 분야에서 좋은 성능을 보이는 Cascade Mask R-CNN을 이용하여 화학 문서 내 표 검출을 수행하였다. 더 나아가 감마 보정과 스캔 잡음을 이용하여 학습 데이터를 증강함으로써 다양한 스타일의 표들을 강인하게 검출할 수 있도록 하였다. 합성 화학문서와 실제 화학 문서에 대해 제안한 방법을 적용하여 표 검출 성능을 측정하였다.

  • PDF

Mask R-CNN을 활용한 Priority Object 영상 스티칭 (Mask R-CNN based Priority Object Image Stitching)

  • 이성배;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.47-50
    • /
    • 2020
  • 최근 Panorama와 360도 영상이 대표되는 몰입형(Immersive) 미디어 콘텐츠의 사용이 증가하고 있다. 몰입형 영상 콘텐츠는 사용자에게 현장감을 제공해야 하지만, 촬영 카메라 간의 시차(Parallax)로 인해 영상 콘텐츠에서 시차 왜곡이 발생할 수 있고, 이는 사용자의 콘텐츠 몰입을 제한하기 때문에 해당 영상 콘텐츠의 제작 기술인 영상 스티칭의 높은 정확도가 요구되고 있다. 지금까지 스티칭 영상의 시차 왜곡을 줄이기 위하여 다중 호모그래피 추정 방법과 Seam Optimization 방법이 제안되었지만, 영상 내 사물 배치에 따라 기술 적용이 제한될 수 있다. 이에 본 논문에서는 Mask R-CNN을 활용하여 사물을 세그먼트화하고, 사물의 종류에 따라 각각 다른 가중치 적용을 통해 시차 왜곡을 방지하며, 영상 내 사물의 배치에 따라 시차 왜곡이 발생할 상황에서는 사용자의 인지 중요도가 낮은 사물로 시차 왜곡을 유도하는 영상 스티칭 방법을 제안한다.

  • PDF

Mask R-CNN 과 zi2zi 모델을 활용하여 탐지된 객체의 스타일을 변환시키는 신경망 모델 (Neural network model for detected object style transformation using Mask R-CNN and zi2zi)

  • 조인수;최동빈;박용범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.562-565
    • /
    • 2021
  • 스타일 변환 모델은 이미지 전체나 이미지 내에서 사용자가 지정한 영역을 대상으로 스타일을 변환시킨다. 이런 방식은 이미지 내의 다수의 객체에 대해 스타일 변환을 시행할 때 일일이 영역을 지정해 줘야 한다는 불편함과 결과물의 전체 해상도가 떨어진다는 한계를 가지고 있다. 본 논문에서는 이런 한계들을 극복하기 위해 객체탐지 모델과 스타일변환 모델을 연동한 객체스타일변환모델을 제안하고 모델 간 연동방법에 대해 자세히 서술한다. 객체탐지모델인 Mask R-CNN 을 통해 필요한 객체를 탐지하고 탐지한 객체의 특징맵들을 스타일변환 모델인 zi2zi 의 입력 값으로 전달하여 이미지 내의 필요한 객체들만 스타일변환이 이루어지도록 모델이 동작한다. 이러한 모델은 기존에 있는 두 모델을 재사용함으로써 모델을 처음부터 새로 설계할 필요가 없다는 장점이 있으며, 공개된 다양한 모델들을 서로 융합하여 사용할 수 있는 방법을 제시하는데 도움을 줄 것이다.

혼재된 환경에서의 효율적 로봇 파지를 위한 3차원 물체 인식 알고리즘 개발 (Development of an Efficient 3D Object Recognition Algorithm for Robotic Grasping in Cluttered Environments)

  • 송동운;이재봉;이승준
    • 로봇학회논문지
    • /
    • 제17권3호
    • /
    • pp.255-263
    • /
    • 2022
  • 3D object detection pipelines often incorporate RGB-based object detection methods such as YOLO, which detects the object classes and bounding boxes from the RGB image. However, in complex environments where objects are heavily cluttered, bounding box approaches may show degraded performance due to the overlapping bounding boxes. Mask based methods such as Mask R-CNN can handle such situation better thanks to their detailed object masks, but they require much longer time for data preparation compared to bounding box-based approaches. In this paper, we present a 3D object recognition pipeline which uses either the YOLO or Mask R-CNN real-time object detection algorithm, K-nearest clustering algorithm, mask reduction algorithm and finally Principal Component Analysis (PCA) alg orithm to efficiently detect 3D poses of objects in a complex environment. Furthermore, we also present an improved YOLO based 3D object detection algorithm that uses a prioritized heightmap clustering algorithm to handle overlapping bounding boxes. The suggested algorithms have successfully been used at the Artificial-Intelligence Robot Challenge (ARC) 2021 competition with excellent results.

비정형 패션 이미지 검색을 위한 MASK R-CNN 선형처리 기반 CNN 분류 학습모델 구현 (Implementation of CNN-based Classification Training Model for Unstructured Fashion Image Retrieval using Preprocessing with MASK R-CNN)

  • 조승아;이하영;장혜림;김규리;이현지;손봉기;이재호
    • 한국산업정보학회논문지
    • /
    • 제27권6호
    • /
    • pp.13-23
    • /
    • 2022
  • 본 논문에서는 패션 분야의 비정형 데이터 검색을 위한 패션 아이템별 세부 컨포넌트 이미지 분류 알고리즘을 제안한다. 코로나-19 환경으로 인하여 최근 AI 기반 쇼핑몰이 증가하는 추세이다. 하지만 기존의 키워드 검색과 사용자 서핑 행위 기반 개인 맞춤형 스타일 추천으로는 정확한 비정형 데이터 검색에는 한계가 있다. 본 연구는 다양한 온라인 쇼핑 사이트에서 크롤링한 이미지를 사용하여 Mask R-CNN을 활용한 전처리를 진행한 후, CNN을 통해 패션 아이템별 컴포넌트에 대한 분류를 진행하였다. 셔츠의 카라 및 패턴과 청바지의 핏, 워싱 및 컬러에 대한 분류를 진행하였으며, 다양한 전이학습 모델을 비교 분석한 후 가장 높은 정확도가 나온 Densenet121모델을 사용하여 셔츠의 카라는 93.28%, 셔츠의 패턴은 98.10%의 정확도를 도달하였으며, 청바지의 핏은 Notched, Spread, Straight 3가지의 클래스의 경우 91.73%, Regular 핏을 추가한 4가지의 클래스의 경우 81.59%, 청바지의 색상은 93.91%, 청바지의 Washing은 91.20%, 청바지의 Demgae는 92.96%의 정확도를 도출하였다.

주의 모듈 기반 Mask R-CNN 경량화 모델을 이용한 도로 환경 내 객체 검출 방법 (Object Detection on the Road Environment Using Attention Module-based Lightweight Mask R-CNN)

  • 송민수;김원준;장래영;이용;박민우;이상환;최명석
    • 방송공학회논문지
    • /
    • 제25권6호
    • /
    • pp.944-953
    • /
    • 2020
  • 객체 검출 알고리즘은 자율주행 시스템 구현을 위한 핵심 요소이다. 최근 심층 합성곱 신경망 (Deep Convolutional Neural Network) 기반의 영상 인식 기술이 발전함에 따라 심층 학습을 이용한 객체 검출 관련 연구들이 활발히 진행되고 있다. 본 논문에서는 객체 검출에 가장 널리 사용되고 있는 Mask R-CNN의 경량화 모델을 제안하여 도로 내 다양한 객체들의 위치와 형태를 효율적으로 예측하는 방법을 제안한다. 또한, 주의 모듈(Attention Module)을 Mask R-CNN 내 각각 다른 역할을 수행하는 신경망 계층에 적용함으로써 특징 지도를 적응적으로 재교정(Re-calibration)하여 검출 성능을 향상시킨다. 실제 주행 영상에 대한 다양한 실험 결과를 통해 제안하는 방법이 기존 방법 대비 크게 감소된 신경망 매개변수만을 이용하여 고성능 검출 성능을 유지함을 보인다.

딥러닝을 위한 영역기반 합성곱 신경망에 의한 항공영상에서 건물탐지 평가 (Evaluation of Building Detection from Aerial Images Using Region-based Convolutional Neural Network for Deep Learning)

  • 이대건;조은지;이동천
    • 한국측량학회지
    • /
    • 제36권6호
    • /
    • pp.469-481
    • /
    • 2018
  • 딥러닝은 인간의 학습 및 인지능력을 닮은 인공지능을 실현하기 위해 여러 분야에서 활용하고 있으며, 높은 사양의 컴퓨팅 파워가 요구되고 연산 시간이 많이 소요되는 복잡한 구조의 인공신경망에 의한 딥러닝은 컴퓨터 사양이 향상됨에 따라 성능이 개선된 다양한 딥러닝 모델이 개발되고 있다. 본 논문의 주요 목적은 영상의 딥러닝을 위한 합성곱 신경망 중에서 최근에 FAIR (Facebook AI Research)에서 개발한 Mask R-CNN을 이용하여 항공영상에서 건물을 탐지하고 성능을 평가하는 것이다. Mask R-CNN은 영역기반의 합성곱 신경망으로서 픽셀 정확도까지 객체를 의미적으로 분할하기 위한 딥러닝 모델로서 성능이 가장 우수한 것으로 평가받고 있다. 딥러닝 모델의 성능은 신경망 구조뿐 아니라 학습 능력에 의해 결정된다. 이를 위해 본 논문에서는 모델의 학습에 이용한 영상에 다양한 변화를 주어 학습 능력을 분석하였으며, 딥러닝의 궁극적 목표인 범용화의 가능성을 평가하였다. 향후 연구방안으로는 영상에만 의존하지 않고 다양한 공간정보 데이터를 복합적으로 딥러닝 모델의 학습에 이용하여 딥러닝의 신뢰성과 범용화가 향상될 것으로 판단된다.

Ball Grid Array Solder Void Inspection Using Mask R-CNN

  • Kim, Seung Cheol;Jeon, Ho Jeong;Hong, Sang Jeen
    • 반도체디스플레이기술학회지
    • /
    • 제20권2호
    • /
    • pp.126-130
    • /
    • 2021
  • The ball grid array is one of the packaging methods that used in high density printed circuit board. Solder void defects caused by voids in the solder ball during the BGA process do not directly affect the reliability of the product, but it may accelerate the aging of the device on the PCB layer or interface surface depending on its size or location. Void inspection is important because it is related in yields with products. The most important process in the optical inspection of solder void is the segmentation process of solder and void. However, there are several segmentation algorithms for the vision inspection, it is impossible to inspect all of images ideally. When X-Ray images with poor contrast and high level of noise become difficult to perform image processing for vision inspection in terms of software programming. This paper suggests the solution to deal with the suggested problem by means of using Mask R-CNN instead of digital image processing algorithm. Mask R-CNN model can be trained with images pre-processed to increase contrast or alleviate noises. With this process, it provides more efficient system about complex object segmentation than conventional system.