• Title/Summary/Keyword: 인과 딥러닝

Search Result 127, Processing Time 0.023 seconds

Performance Improvement Analysis of Building Extraction Deep Learning Model Based on UNet Using Transfer Learning at Different Learning Rates (전이학습을 이용한 UNet 기반 건물 추출 딥러닝 모델의 학습률에 따른 성능 향상 분석)

  • Chul-Soo Ye;Young-Man Ahn;Tae-Woong Baek;Kyung-Tae Kim
    • Korean Journal of Remote Sensing
    • /
    • v.39 no.5_4
    • /
    • pp.1111-1123
    • /
    • 2023
  • In recent times, semantic image segmentation methods using deep learning models have been widely used for monitoring changes in surface attributes using remote sensing imagery. To enhance the performance of various UNet-based deep learning models, including the prominent UNet model, it is imperative to have a sufficiently large training dataset. However, enlarging the training dataset not only escalates the hardware requirements for processing but also significantly increases the time required for training. To address these issues, transfer learning is used as an effective approach, enabling performance improvement of models even in the absence of massive training datasets. In this paper we present three transfer learning models, UNet-ResNet50, UNet-VGG19, and CBAM-DRUNet-VGG19, which are combined with the representative pretrained models of VGG19 model and ResNet50 model. We applied these models to building extraction tasks and analyzed the accuracy improvements resulting from the application of transfer learning. Considering the substantial impact of learning rate on the performance of deep learning models, we also analyzed performance variations of each model based on different learning rate settings. We employed three datasets, namely Kompsat-3A dataset, WHU dataset, and INRIA dataset for evaluating the performance of building extraction results. The average accuracy improvements for the three dataset types, in comparison to the UNet model, were 5.1% for the UNet-ResNet50 model, while both UNet-VGG19 and CBAM-DRUNet-VGG19 models achieved a 7.2% improvement.

Development of real-time face recognition and mosaic processing technology to protect portrait rights during broadcasting (방송 중 초상권 보호를 위한 실시간 얼굴인식 및 모자이크 처리 기술 개발)

  • Seung, Sang-jun;Jeong, Won-jin;Baek, Yoon-ji;Kim, Jong-won;Park, Yang-woo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.481-482
    • /
    • 2021
  • 최근 다양한 영상 매체가 활발히 발전함에 따라 1인 방송자가 늘어나는 추세이다. 방송 중 타인의 동의 없이 얼굴이 노출되는 경우 초상권 침해가 발생한다. 이러한 경우를 방지하고자 본 논문에서는 딥러닝 기반 실시간 객체 인식 기술을 통하여 방송자의 얼굴을 인식하고 방송자의 얼굴이 아닌 일반인으로 인식되는 얼굴은 실시간 모자이크 처리를 통하여 일반인의 초상권 보호를 목적으로 한다.

  • PDF

Named Entity Recognition for Analyzing Factors of Agrifood Price Fluctuation (농식품 가격변동 요인분석을 위한 개체명 인식)

  • Park, Chan;Lee, Kung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.347-350
    • /
    • 2020
  • 농식품 가격을 안정적으로 제공하기 위해 농식품 가격 변동에 대한 요인 분석이 필요하다. 본 연구는 농식품 가격 변동의 요인 분석을 위해 인과관계 템플릿을 정의하고, 요약을 위한 개체명 인식 방법을 적용한다. 농식품 일일동향 데이터에 대한 평가에서 딥러닝 기반 BiLSTM-CRF 실험 결과 F1-점수 0.93으로 베이스라인 Bi-LSTM 실험 결과 0.75에 비해 높은 성능을 보였다.

  • PDF

Deep Learning Based Causal Relation Extraction with Expansion of Training Data (학습 데이터 확장을 통한 딥러닝 기반 인과관계 추출 모델)

  • Lee, Seungwook;Yu, Hongyeon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.61-66
    • /
    • 2018
  • 인과관계 추출이란 어떠한 문장에서 인과관계가 존재하는지, 인과관계가 존재한다면 원인과 결과의 위치까지 분석하는 것을 말한다. 하지만 인과관계 관련 연구는 그 수가 적기 때문에 말뭉치의 수 또한 적으며, 기존의 말뭉치가 존재하더라도 인과관계의 특성상 새로운 도메인에 적용할 때마다 데이터를 다시 구축해야 하는 문제가 있다. 따라서 본 논문에서는 도메인 특화에 따른 데이터 구축비용 문제를 최소화하면서 새로운 도메인에서 인과관계 모델을 잘 구축할 수 있는 통계 기반 모델을 이용한 인과관계 데이터 확장 방법과 도메인에 특화되지 않은 일반적인 언어자질과 인과관계에 특화된 자질을 심층 학습 기반 모델에 적용함으로써 성능 향상을 보인다.

  • PDF

Korean Coreference Resolution using Stacked Pointer Networks based on Position Encoding (포지션 인코딩 기반 스택 포인터 네트워크를 이용한 한국어 상호참조해결)

  • Park, Cheoneum;Lee, Changki
    • KIISE Transactions on Computing Practices
    • /
    • v.24 no.3
    • /
    • pp.113-121
    • /
    • 2018
  • Position encoding is a method of applying weights according to position of words that appear in a sentence. Pointer networks is a deep learning model that outputs corresponding index with an input sequence. This model can be applied to coreference resolution using attribute. However, the pointer networks has a problem in that its performance is degraded when the length of input sequence is long. To solve this problem, we proposed two contributions to resolve the coreference. First, we applied position encoding and dynamic position encoding to pointer networks. Second, we stack deeply layers of encoder to make high-level abstraction. As results, the position encoding based stacked pointer networks model proposed in this paper had a CoNLL F1 performance of 71.78%, which was improved by 6.01% compared to vanilla pointer networks.

A Basic Study on the Instance Segmentation with Surveillance Cameras at Construction Sties using Deep Learning based Computer Vision (건설 현장 CCTV 영상에서 딥러닝을 이용한 사물 인식 기초 연구)

  • Kang, Kyung-Su;Cho, Young-Woon;Ryu, Han-Guk
    • Proceedings of the Korean Institute of Building Construction Conference
    • /
    • 2020.11a
    • /
    • pp.55-56
    • /
    • 2020
  • The construction industry has the highest occupational fatality and injury rates related to accidents of any industry. Accordingly, safety managers closely monitor to prevent accidents in real-time by installing surveillance cameras at construction sites. However, due to human cognitive ability limitations, it is impossible to monitor many videos simultaneously, and the fatigue of the person monitoring surveillance cameras is also very high. Thus, to help safety managers monitor work and reduce the occupational accident rate, a study on object recognition in construction sites was conducted through surveillance cameras. In this study, we applied to the instance segmentation to identify the classification and location of objects and extract the size and shape of objects in construction sites. This research considers ways in which deep learning-based computer vision technology can be applied to safety management on a construction site.

  • PDF

Sign Language Translation Wearable Device Using Motion Recognition (모션 인식을 이용한 수화 번역 웨어러블 기기)

  • Jun-yeong Lee;Hyeon-su Kang;Sung-jun Kim;Jun-ho Son;Dong-jun Yoo;Yang-woo Park
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.453-454
    • /
    • 2023
  • 현재 선천적인 청각장애인이나 언어 장애가 있는 사람은 다른 사람과의 대화에 많은 불편을 겪고 있다. 매장을 이용하기 어려움은 물론 언어전달 능력이 떨어지기 때문에 간단한 의사소통을 통한 서로 간의 교류 또한 불편함을 감수해야 한다. 현재는 따로 디스플레이가 내장된 장치를 이용하여 지정된 장소에서 수화를 번역해야 하는 불편함을 해당 문제 해결을 위해 본 연구에서는 딥러닝을 적용하여 수화를 인식하고 번역하여 디스플레이에 텍스트를 출력해주는 시스템을 개발하였다. AI 프레임워크 MediaPipe와 SVM 알고리즘을 라즈베리파이에 적용하여 구현하였다. 개발한 시스템은 제스처에 대한 번역 결과를 제공한다. 기존의 지정된 장소가 아닌 대화가 필요한 모든 장소에서 번역이 가능하도록 개선하여 청각장애인과 언어장애가 있는 사람들과 소통의 불편함을 줄일 수 있을 것으로 기대할 수 있다.

  • PDF

Comparison of Deep Learning Based Pose Detection Models to Detect Fall of Workers in Underground Utility Tunnels (딥러닝 자세 추정 모델을 이용한 지하공동구 다중 작업자 낙상 검출 모델 비교)

  • Jeongsoo Kim
    • Journal of the Society of Disaster Information
    • /
    • v.20 no.2
    • /
    • pp.302-314
    • /
    • 2024
  • Purpose: This study proposes a fall detection model based on a top-down deep learning pose estimation model to automatically determine falls of multiple workers in an underground utility tunnel, and evaluates the performance of the proposed model. Method: A model is presented that combines fall discrimination rules with the results inferred from YOLOv8-pose, one of the top-down pose estimation models, and metrics of the model are evaluated for images of standing and falling two or fewer workers in the tunnel. The same process is also conducted for a bottom-up type of pose estimation model (OpenPose). In addition, due to dependency of the falling interference of the models on worker detection by YOLOv8-pose and OpenPose, metrics of the models for fall was not only investigated, but also for person. Result: For worker detection, both YOLOv8-pose and OpenPose models have F1-score of 0.88 and 0.71, respectively. However, for fall detection, the metrics were deteriorated to 0.71 and 0.23. The results of the OpenPose based model were due to partially detected worker body, and detected workers but fail to part them correctly. Conclusion: Use of top-down type of pose estimation models would be more effective way to detect fall of workers in the underground utility tunnel, with respect to joint recognition and partition between workers.

Music Composition Application with Deep Learning for content creators (1 인 미디어 창작자를 위한 딥러닝 기반 작곡 어플리케이션)

  • Kim, BoGyung;Yun, SoJi;Lee, SeungHee;Lim, YeJin;Yu, KyeonAh;Lim, SungHyun
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.1148-1151
    • /
    • 2021
  • 1 인 미디어 산업의 성장으로 다양한 콘텐츠 제작의 증가와 함께 영상의 분위기를 좌우하는 BGM 의 수요도 급증하고 있다. 그러나 무료 음원은 한정되어 있으며 이미 많은 영상에 쓰여 시청자에게 흔한 느낌을 준다. 특히 MCN 에 소속되지 않은 콘텐츠 크리에이터들은 개성 있고 영상에 어울리는 음원 확보에 어려움을 겪고 있다. 본 연구는 이러한 콘텐츠 제작 환경을 개선하기 위해 창작자가 직접 녹음하거나 악보를 스캔해 자신만의 음원을 제작할 수 있는 웹 애플리케이션 '플랫'을 제안한다. 본 연구를 통해 콘텐츠 크리에이터들은 독창적이고 풍성한 콘텐츠를 만들 수 있으며, 음악적 숙련도와 관계없이 쉽게 음원을 만들 수 있어 작곡에 대한 접근성이 좋아질 것으로 보인다. 또한, 딥러닝을 활용해 음악을 창작함으로써 인공지능 작곡 분야를 활성화하고 디지털 음악 시장의 새로운 분야를 개척하는 데 이바지할 것으로 기대한다.

A Study on Improvement of Korean OCR Accuracy Using Deep Learning (딥러닝을 이용한 한글 OCR 정확도 향상에 대한 연구)

  • Kang, Ga-Hyeon;Ko, Ji-Hyun;Kwon, Yong-Jun;Kwon, Na-Young;Koh, Seok-Ju
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2018.05a
    • /
    • pp.693-695
    • /
    • 2018
  • In this paper, we propose the improvement of Hangul OCR accuracy through deep learning. OCR is a program that senses printed and handwritten characters in an optical way and encodes them digitally. In the case of the most commonly used Tesseract OCR, the accuracy of English recognition is high. However, Hangul has lower accuracy because it has less learning data for a complex structure. Therefore, in this study, we propose a method to improve the accuracy of Hangul OCR by extracting the character region from the desired image through image processing and using deep learning using it as learning data. It is expected that OCR, which has been developed only by existing alphanumeric and several languages, can be applied to various languages.

  • PDF