• 제목/요약/키워드: mask R-CNN

검색결과 75건 처리시간 0.028초

"이거 어디서 사?" - Mask R-CNN 기반 객체 분할을 활용한 패션 아이템 검색 시스템 ("Where can I buy this?" - Fashion Item Searcher using Instance Segmentation with Mask R-CNN)

  • 정경희;최하늘;;김현성;;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.465-467
    • /
    • 2022
  • Mobile phones have become an essential item nowadays since it provides access to online platform and service fast and easy. Coming to these platforms such as Social Network Service (SNS) for shopping have been a go-to option for many people. However, searching for a specific fashion item in the picture is challenging, where users need to try multiple searches by combining appropriate search keywords. To tackle this problem, we propose a system that could provide immediate access to websites related to fashion items. In the framework, we also propose a deep learning model for an automatic analysis of image contexts using instance segmentation. We use transfer learning by utilizing Deep fashion 2 to maximize our model accuracy. After segmenting all the fashion item objects in the image, the related search information is retrieved when the object is clicked. Furthermore, we successfully deploy our system so that it could be assessable using any web browser. We prove that deep learning could be a promising tool not only for scientific purpose but also applicable to commercial shopping.

강건한 CNN기반 수중 물체 인식을 위한 이미지 합성과 자동화된 Annotation Tool (Synthesizing Image and Automated Annotation Tool for CNN based Under Water Object Detection)

  • 전명환;이영준;신영식;장혜수;여태경;김아영
    • 로봇학회논문지
    • /
    • 제14권2호
    • /
    • pp.139-149
    • /
    • 2019
  • In this paper, we present auto-annotation tool and synthetic dataset using 3D CAD model for deep learning based object detection. To be used as training data for deep learning methods, class, segmentation, bounding-box, contour, and pose annotations of the object are needed. We propose an automated annotation tool and synthetic image generation. Our resulting synthetic dataset reflects occlusion between objects and applicable for both underwater and in-air environments. To verify our synthetic dataset, we use MASK R-CNN as a state-of-the-art method among object detection model using deep learning. For experiment, we make the experimental environment reflecting the actual underwater environment. We show that object detection model trained via our dataset show significantly accurate results and robustness for the underwater environment. Lastly, we verify that our synthetic dataset is suitable for deep learning model for the underwater environments.

Crack segmentation in high-resolution images using cascaded deep convolutional neural networks and Bayesian data fusion

  • Tang, Wen;Wu, Rih-Teng;Jahanshahi, Mohammad R.
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.221-235
    • /
    • 2022
  • Manual inspection of steel box girders on long span bridges is time-consuming and labor-intensive. The quality of inspection relies on the subjective judgements of the inspectors. This study proposes an automated approach to detect and segment cracks in high-resolution images. An end-to-end cascaded framework is proposed to first detect the existence of cracks using a deep convolutional neural network (CNN) and then segment the crack using a modified U-Net encoder-decoder architecture. A Naïve Bayes data fusion scheme is proposed to reduce the false positives and false negatives effectively. To generate the binary crack mask, first, the original images are divided into 448 × 448 overlapping image patches where these image patches are classified as cracks versus non-cracks using a deep CNN. Next, a modified U-Net is trained from scratch using only the crack patches for segmentation. A customized loss function that consists of binary cross entropy loss and the Dice loss is introduced to enhance the segmentation performance. Additionally, a Naïve Bayes fusion strategy is employed to integrate the crack score maps from different overlapping crack patches and to decide whether a pixel is crack or not. Comprehensive experiments have demonstrated that the proposed approach achieves an 81.71% mean intersection over union (mIoU) score across 5 different training/test splits, which is 7.29% higher than the baseline reference implemented with the original U-Net.

치아 색에 맞는 임플란트 표본 추천 시스템 (Implant sample recommendation system that matches patient's tooth color)

  • 김창진;심규동;박종일
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.305-308
    • /
    • 2020
  • 임플란트 시술 수요가 늘고 시장이 성장하면서 관련 기술도 발전하고 있다. 특히 기능성과 심미성 향상을 위해 많은 기술이 연구되고 있다. 이 중 심미성에 있어 주변 치아와의 색 유사도가 높은 임플란트를 제작하는 것이 주요 연구 중 하나이다. 본 논문에서는 심미성 높은 임플란트 제작을 위해, 다음과 같은 임플란트 표본 추천 시스템을 제안한다. 휴대 조명 장치와 의료용 치아 패치를 사용한 색 보정으로 촬영 환경 차이를 최소화하여 치아의 정확한 색을 추출한다. Mask R-CNN 모델을 통해 보정된 영상에서 치아를 검출하고, 군집화를 통해 색상 단위로 치아 영역을 구분한다. 치아의 영역별 색상과 임플란트 표본 사이의 색상 거리를 계산하여 유사한 표본들을 추천한다. 위 시스템을 통해 사용자는 주변 환경에 영향을 받지 않고, 치아의 색을 정확히 분석하여 이를 임플란트 표본과 비교할 수 있게 된다.

  • PDF

합성 데이터셋과 딥러닝 모델을 이용한 식물 엽면적 추정 (Plant leaf area estimation using synthetic dataset and deep learning model)

  • 서현권;안주연;박현지
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.90-92
    • /
    • 2022
  • 이 논문에서는 합성된 애기장대 데이터셋을 활용하여 딸기의 엽면적을 추정할 수 있는 딥러닝 모델을 제안한다. 제안된 모델에서는 개별 잎 검출을 위하여 합성 데이터셋으로 학습된 Mask R-CNN 의 객체 검출 모델을 사용하였고, 이어 이미지 후처리 작업에 해당되는 모폴로지 연산의 침식 및 팽창, 픽셀 카운터를 통해 엽면적을 추정하였다. 각기 다른 역할을 수행하는 신경망 계층에 어텐션 메커니즘 적용하여 검출 성능의 향상과 검출 시간을 단축하였다. 제안된 모델은 딸기 데이터셋을 사용하지 않는 합성된 데이터셋만으로도 실제 온실에서 획득한 다양한 이미지에서의 딸기 엽면적을 추정하는 데에 우수한 성능을 보여준다.

  • PDF

Bridge Inspection and condition assessment using Unmanned Aerial Vehicles (UAVs): Major challenges and solutions from a practical perspective

  • Jung, Hyung-Jo;Lee, Jin-Hwan;Yoon, Sungsik;Kim, In-Ho
    • Smart Structures and Systems
    • /
    • 제24권5호
    • /
    • pp.669-681
    • /
    • 2019
  • Bridge collapses may deliver a huge impact on our society in a very negative way. Out of many reasons why bridges collapse, poor maintenance is becoming a main contributing factor to many recent collapses. Furthermore, the aging of bridges is able to make the situation much worse. In order to prevent this unwanted event, it is indispensable to conduct continuous bridge monitoring and timely maintenance. Visual inspection is the most widely used method, but it is heavily dependent on the experience of the inspectors. It is also time-consuming, labor-intensive, costly, disruptive, and even unsafe for the inspectors. In order to address its limitations, in recent years increasing interests have been paid to the use of unmanned aerial vehicles (UAVs), which is expected to make the inspection process safer, faster and more cost-effective. In addition, it can cover the area where it is too hard to reach by inspectors. However, this strategy is still in a primitive stage because there are many things to be addressed for real implementation. In this paper, a typical procedure of bridge inspection using UAVs consisting of three phases (i.e., pre-inspection, inspection, and post-inspection phases) and the detailed tasks by phase are described. Also, three major challenges, which are related to a UAV's flight, image data acquisition, and damage identification, respectively, are identified from a practical perspective (e.g., localization of a UAV under the bridge, high-quality image capture, etc.) and their possible solutions are discussed by examining recently developed or currently developing techniques such as the graph-based localization algorithm, and the image quality assessment and enhancement strategy. In particular, deep learning based algorithms such as R-CNN and Mask R-CNN for classifying, localizing and quantifying several damage types (e.g., cracks, corrosion, spalling, efflorescence, etc.) in an automatic manner are discussed. This strategy is based on a huge amount of image data obtained from unmanned inspection equipment consisting of the UAV and imaging devices (vision and IR cameras).

딥러닝과 그래프 모델을 활용한 고해상도 영상의 건물 변화탐지 (Building change detection in high spatial resolution images using deep learning and graph model)

  • 박슬아;송아람
    • 한국측량학회지
    • /
    • 제40권3호
    • /
    • pp.227-237
    • /
    • 2022
  • 다시기 고해상도 영상에 존재하는 건물의 위치 및 형태학적 왜곡은 건물의 변화탐지를 어렵게 만드는 요인 중 하나이다. 이를 해결하기 위하여 부가적인 3차원 지형정보 및 딥러닝을 활용한 연구가 수행되고 있지만, 실제 사례에 적용되기 어려운 한계가 있다. 본 연구에서는 건물의 효율적인 변화탐지를 수행하기 위하여, 건물의 위치 정보뿐만 아니라 건물 간 위상정보를 활용하는 방안을 제시한다. 다양한 비연직 영상에서의 건물을 학습하기 위하여 SpaceNet v2 데이터셋을 사용하여 Mask R-CNN (Region-based Convolutional Neural Network)을 학습하였으며, 건물 객체를 탐지하여 중심점을 노드로 추출하였다. 추출한 건물 노드를 중심으로 서로 다른 두 시기에 대해 각각 TIN (Triangulated Irregular Network) 그래프들을 형성하고, 두 그래프 간 구조적 차이가 발생한 영역에 기반하여 변화 건물을 추출하기 위해 그래프 유사도와 노드의 위치 차이를 반영한 변화 지수를 제안하였다. 최종적으로 변화 지숫값을 기반으로 두 그래프 간 비교를 통해 새롭게 생성되거나 삭제된 건물을 탐지하였다. 총 3쌍의 테스트 영역에 대해 제안한 기법을 적용한 결과, 건물들 간 연결성의 변화를 고려함으로써 기복 변위에 의해 서로 다른 시기간 동일 건물 쌍을 판단하기 어려운 경우에도 변화가 발생한 건물을 적절하게 탐지하는 것을 확인할 수 있었다.

태양객체 정보 및 태양광 특성을 이용하여 사용자 위치의 자외선 지수를 산출하는 DNN 모델 (DNN Model for Calculation of UV Index at The Location of User Using Solar Object Information and Sunlight Characteristics)

  • 가덕현;오승택;임재현
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.29-35
    • /
    • 2022
  • 자외선은 노출 정도에 따라 인체에 유익 또는 유해한 영향을 미치므로 개인별 적정 노출을 위해서는 정확한 자외선(UV) 정보가 필요하다. 국내의 경우 기상청에서 생활기상정보의 한 요소로 자외선 정보를 제공하고 있으나 지역별 자외선 지수(UVI, Ultraviolet Index)로 사용자 위치의 정확한 UVI를 제공하지는 못하고 있다. 일부에서는 정확한 UVI의 취득을 위해 직접 계측기를 운용하지만 비용이나 편의성에 문제가 있고, 태양의 복사량과 운량 등 주변 환경요소를 통해 자외선 양을 추정하는 연구도 소개되었으나 개인별 서비스 방법을 제시하지는 못하였다. 이에 본 논문에서는 각 개인별 위치에서의 정확한 UVI 제공을 위한 태양객체 정보와 태양광 특성을 이용한 UVI 산출 딥러닝 모델을 제안한다. 기 수집한 하늘이미지 및 태양광 특성을 분석하여 태양의 위치 및 크기, 조도 등 UVI와 상관도가 높은 요소들을 선정한 후 DNN 모델을 위한 데이터 셋을 구성한다. 이후 하늘이미지로부터 Mask R-CNN을 통해 추출한 태양객체 정보와 태양광 특성을 입력하여 UVI를 산출하는 DNN 모델을 구현한다. 국내 UVI 권고기준을 고려, UVI 8이상과 미만인 날에 대한 성능평가에서는 기준장비 대비 MAE 0.26의 범위 내 정확한 UVI의 산출이 가능하였다.

Keypoint-based Deep Learning Approach for Building Footprint Extraction Using Aerial Images

  • Jeong, Doyoung;Kim, Yongil
    • 대한원격탐사학회지
    • /
    • 제37권1호
    • /
    • pp.111-122
    • /
    • 2021
  • Building footprint extraction is an active topic in the domain of remote sensing, since buildings are a fundamental unit of urban areas. Deep convolutional neural networks successfully perform footprint extraction from optical satellite images. However, semantic segmentation produces coarse results in the output, such as blurred and rounded boundaries, which are caused by the use of convolutional layers with large receptive fields and pooling layers. The objective of this study is to generate visually enhanced building objects by directly extracting the vertices of individual buildings by combining instance segmentation and keypoint detection. The target keypoints in building extraction are defined as points of interest based on the local image gradient direction, that is, the vertices of a building polygon. The proposed framework follows a two-stage, top-down approach that is divided into object detection and keypoint estimation. Keypoints between instances are distinguished by merging the rough segmentation masks and the local features of regions of interest. A building polygon is created by grouping the predicted keypoints through a simple geometric method. Our model achieved an F1-score of 0.650 with an mIoU of 62.6 for building footprint extraction using the OpenCitesAI dataset. The results demonstrated that the proposed framework using keypoint estimation exhibited better segmentation performance when compared with Mask R-CNN in terms of both qualitative and quantitative results.

심층학습 기법을 활용한 효과적인 타이어 마모도 분류 및 손상 부위 검출 알고리즘 (Efficient Tire Wear and Defect Detection Algorithm Based on Deep Learning)

  • 박혜진;이영운;김병규
    • 한국멀티미디어학회논문지
    • /
    • 제24권8호
    • /
    • pp.1026-1034
    • /
    • 2021
  • Tire wear and defect are important factors for safe driving condition. These defects are generally inspected by some specialized experts or very expensive equipments such as stereo depth camera and depth gauge. In this paper, we propose tire safety vision inspector based on deep neural network (DNN). The status of tire wear is categorized into three: 'safety', 'warning', and 'danger' based on depth of tire tread. We propose an attention mechanism for emphasizing the feature of tread area. The attention-based feature is concatenated to output feature maps of the last convolution layer of ResNet-101 to extract more robust feature. Through experiments, the proposed tire wear classification model improves 1.8% of accuracy compared to the existing ResNet-101 model. For detecting the tire defections, the developed tire defect detection model shows up-to 91% of accuracy using the Mask R-CNN model. From these results, we can see that the suggested models are useful for checking on the safety condition of working tire in real environment.