• 제목/요약/키워드: CNN model

검색결과 977건 처리시간 0.024초

증강현실 캐릭터 구현을 위한 AI기반 객체인식 연구 (AI-Based Object Recognition Research for Augmented Reality Character Implementation)

  • 이석환;이정금;심현
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1321-1330
    • /
    • 2023
  • 본 연구는 증강현실에서 적용할 캐릭터 생성에서 단일 이미지를 통해 여러 객체에 대한 3D 자세 추정 문제를 연구한다. 기존 top-down 방식에서는 이미지 내의 모든 객체를 먼저 감지하고, 그 후에 각각의 객체를 독립적으로 재구성한다. 문제는 이렇게 재구성된 객체들 사이의 중첩이나 깊이 순서가 불일치 하는 일관성 없는 결과가 발생할 수 있다. 본 연구의 목적은 이러한 문제점을 해결하고, 장면 내의 모든 객체에 대한 일관된 3D 재구성을 제공하는 단일 네트워크를 개발하는 것이다. SMPL 매개변수체를 기반으로 한 인체 모델을 top-down 프레임워크에 통합이 중요한 선택이 되었으며, 이를 통해 거리 필드 기반의 충돌 손실과 깊이 순서를 고려하는 손실 두 가지를 도입하였다. 첫 번째 손실은 재구성된 사람들 사이의 중첩을 방지하며, 두 번째 손실은 가림막 추론과 주석이 달린 인스턴스 분할을 일관되게 렌더링하기 위해 객체들의 깊이 순서를 조정한다. 이러한 방법은 네트워크에 이미지의 명시적인 3D 주석 없이도 깊이 정보를 제공하게 한다. 실험 결과, 기존의 Interpenetration loss 방법은 MuPoTS-3D가 114, PoseTrack이 654에 비해서 본 연구의 방법론인 Lp 손실로 네트워크를 훈련시킬 때 MuPoTS-3D가 34, PoseTrack이 202로 충돌수가 크게 감소하는 것으로 나타났다. 본 연구 방법은 표준 3D 자세벤치마크에서 기존 방법보다 더 나은 성능을 보여주었고, 제안된 손실들은 자연 이미지에서 더욱 일관된 재구성을 실현하게 하였다.

Deep learning-based automatic segmentation of the mandibular canal on panoramic radiographs: A multi-device study

  • Moe Thu Zar Aung;Sang-Heon Lim;Jiyong Han;Su Yang;Ju-Hee Kang;Jo-Eun Kim;Kyung-Hoe Huh;Won-Jin Yi;Min-Suk Heo;Sam-Sun Lee
    • Imaging Science in Dentistry
    • /
    • 제54권1호
    • /
    • pp.81-91
    • /
    • 2024
  • Purpose: The objective of this study was to propose a deep-learning model for the detection of the mandibular canal on dental panoramic radiographs. Materials and Methods: A total of 2,100 panoramic radiographs (PANs) were collected from 3 different machines: RAYSCAN Alpha (n=700, PAN A), OP-100 (n=700, PAN B), and CS8100 (n=700, PAN C). Initially, an oral and maxillofacial radiologist coarsely annotated the mandibular canals. For deep learning analysis, convolutional neural networks (CNNs) utilizing U-Net architecture were employed for automated canal segmentation. Seven independent networks were trained using training sets representing all possible combinations of the 3 groups. These networks were then assessed using a hold-out test dataset. Results: Among the 7 networks evaluated, the network trained with all 3 available groups achieved an average precision of 90.6%, a recall of 87.4%, and a Dice similarity coefficient (DSC) of 88.9%. The 3 networks trained using each of the 3 possible 2-group combinations also demonstrated reliable performance for mandibular canal segmentation, as follows: 1) PAN A and B exhibited a mean DSC of 87.9%, 2) PAN A and C displayed a mean DSC of 87.8%, and 3) PAN B and C demonstrated a mean DSC of 88.4%. Conclusion: This multi-device study indicated that the examined CNN-based deep learning approach can achieve excellent canal segmentation performance, with a DSC exceeding 88%. Furthermore, the study highlighted the importance of considering the characteristics of panoramic radiographs when developing a robust deep-learning network, rather than depending solely on the size of the dataset.

무인기로 취득한 RGB 영상과 YOLOv5를 이용한 수수 이삭 탐지 (Sorghum Panicle Detection using YOLOv5 based on RGB Image Acquired by UAV System)

  • 박민준;유찬석;강예성;송혜영;백현찬;박기수;김은리;박진기;장시형
    • 한국농림기상학회지
    • /
    • 제24권4호
    • /
    • pp.295-304
    • /
    • 2022
  • 본 연구는 수수의 수확량 추정을 위해 무인기로 취득한 RGB 영상과 YOLOv5를 이용하여 수수 이삭 탐지 모델을 개발하였다. 이삭이 가장 잘 식별되는 9월 2일의 영상 중 512×512로 분할된 2000장을 이용하여 모델의 학습, 검증 및 테스트하였다. YOLOv5의 모델 중 가장 파라미터가 적은 YOLOv5s에서 mAP@50=0.845로 수수 이삭을 탐지할 수 있었다. 파라미터가 증가한 YOLOv5m에서는 mAP@50=0.844로 수수 이삭을 탐지할 수 있었다. 두 모델의 성능이 유사하나 YOLOv5s (4시간 35분)가 YOLOv5m (5시간 15분)보다 훈련시간이 더 빨라 YOLOv5s가 수수 이삭 탐지에 효율적이라고 판단된다. 개발된 모델을 이용하여 수수의 수확량 예측을 위한 단위면적당 이삭 수를 추정하는 알고리즘의 기초자료로 유용하게 활용될 것으로 판단된다. 추가적으로 아직 개발의 초기 단계를 감안하면 확보된 데이터를 이용하여 성능 개선 및 다른 CNN 모델과 비교 검토할 필요가 있다고 사료된다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

딥러닝의 모형과 응용사례 (Deep Learning Architectures and Applications)

  • 안성만
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.127-142
    • /
    • 2016
  • 딥러닝은 인공신경망(neural network)이라는 인공지능분야의 모형이 발전된 형태로서, 계층구조로 이루어진 인공신경망의 내부계층(hidden layer)이 여러 단계로 이루어진 구조이다. 딥러닝에서의 주요 모형은 합성곱신경망(convolutional neural network), 순환신경망(recurrent neural network), 그리고 심층신뢰신경망(deep belief network)의 세가지라고 할 수 있다. 그 중에서 현재 흥미로운 연구가 많이 발표되어서 관심이 집중되고 있는 모형은 지도학습(supervised learning)모형인 처음 두 개의 모형이다. 따라서 본 논문에서는 지도학습모형의 가중치를 최적화하는 기본적인 방법인 오류역전파 알고리즘을 살펴본 뒤에 합성곱신경망과 순환신경망의 구조와 응용사례 등을 살펴보고자 한다. 본문에서 다루지 않은 모형인 심층신뢰신경망은 아직까지는 합성곱신경망 이나 순환신경망보다는 상대적으로 주목을 덜 받고 있다. 그러나 심층신뢰신경망은 CNN이나 RNN과는 달리 비지도학습(unsupervised learning)모형이며, 사람이나 동물은 관찰을 통해서 스스로 학습한다는 점에서 궁극적으로는 비지도학습모형이 더 많이 연구되어야 할 주제가 될 것이다.

다중 Application을 위한 Web Services 상호 운용성에 관한 연구 (Study of Web Services Interoperabiliy for Multiple Applications)

  • 유윤식;송종철;최일선;임산송;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.217-220
    • /
    • 2004
  • 웹의 이용이 급속하게 증가함에 따라, 웹 기반의 어플리케이션 대 어플리케이션간의 상호작용을 체계적으로 지원하는 적절한 모형과 새로운 분산 플랫폼을 기존 환경들과 효율적으로 통합할 수 있는 방안에 대한 요구가 발생하였으며 이에 대한 해결책으로 웹 서비스가 등장하였다. 현재 많은 소프트웨어와 하드웨어 업체들이 웹 서비스를 시장에 도입하려 하는 적극적인 시도를 보이고 있으며 어플리케이션들을 다양한 웹 서비스 제공자들로부터의 컴포넌트를 조합하여 구축하려 하고 있다. 하지만 웹 서비스를 완벽히 이행하기 위해서는 반드시 상호 운용되어야 하며 다른 업체들로부터의 서비스뿐만 아니라 플랫폼, 어플리케이션과 프로그래밍 언어에 종속되지 않도록 하는 일련의 표준화 작업이 필요하다. 이에 웹 서비스 상호 운용성 표준화 기구인 WS-I(Web Services Interoperability Organization)에서는 XML, UDDI, WSDL 그리고 SOAP을 기본으로 웹 서비스 상호운용을 위한 표준인 기본 프로파일(Basic Profile 1.0)을 제정하였으며 실제 적용하기 위한 웹 서비스 사용자 시나리오의 프로파일을 개발하고 있다. 이에 본 논문에서는 이질적인 두 어플리케이션간의 웹 서비스 상호 운용의 적합성을 검증하기 위하여 도서 정보 검색 웹 서비스를 J2SE 플랫폼의 웹 서비스 글라이언트와 .NET 플랫폼의 웹 서비스 서버를 기반으로 각각 설계 및 구현하고 서로 서비스가 이루어지도록 하여 이질적인 두 플랫폼 사이에서 상호 운용이 가능하다는 것을 보이며 두 어플리케이션 간의 전송 서비스를 WS-I 기본 프로파일을 적용하여 테스트 및 검증하였다.조건으로 혼합한 실험구를 설정하였다. 실험구는 각각 NWT+35‰, CWT+35‰, NWT+15‰, NWT+15‰, NWT+35‰+Anes., CWT+35‰+Anes., NWT+15‰+Anes. 및 CWT+15‰+Anes.의 8개 실험구를 2반복으로 설정하여 경북울진∼부산까지 약 400 km (6시간)를 차량수송하였다. 수송용기는 스티로폼상자(66×42×20 cnn)로서, 여기에 해수 3 L와 액화산소를 넣은 비닐봉지에 넙치 8마리씩 수용하여 수송하였다. 혈액의 성상 및 분석항목은 수송전ㆍ후에 채혈하여 비교하였다. 수송전 hematocrit는 22.2±3.8%에서 수송후 NWT+35‰에서 15.3+3.9%, CWT+35‰은 16.7±3.0%, NWT+15‰구에서는 19.2±1.8%로 낮아졌으며, CWT+15‰구는 20.9±3.6%로 수송전과 차이가 없었다. 한편 NWT+15‰+Anes.구는 17.8±0.9%, CWT+15‰+Anes.구는 14.5±1.5%로 낮아졌다. Cortisol은 수송전 2.4±0.1 ng/ml로부터 CWT+35‰구는 16.7±12.8 ng/ml, NWT+35‰구는 47.9+19.8 ng/ml, NWT+15‰구는 43.5±13.9 ng/ml, CWT+15‰구는 26.1±8.3 ng/ml, NWT+15‰+Anes.구는 61.7±3.3 ng/ml, CWT+15‰+Anes.구는 86.1±19.0 ng/ml로 높아졌다. Glucose는 수송전 74.2±32.6 mg/dl로부터 NWT+35‰구는 197.9±27.5 mg/dl, CWT+35‰구도 272.1±29.9 mg/dl로 유의하게 높아졌다. Na/sup +/의 수송전 농도는 16

  • PDF

CCTV 영상 기반 강우강도 산정을 위한 실환경 실험 자료 중심 적정 강우 이미지 DB 구축 방법론 개발 (Rainfall image DB construction for rainfall intensity estimation from CCTV videos: focusing on experimental data in a climatic environment chamber)

  • 변종윤;전창현;김현준;이재준;박헌일;이진욱
    • 한국수자원학회논문집
    • /
    • 제56권6호
    • /
    • pp.403-417
    • /
    • 2023
  • 본 연구에서는 CCTV 영상 기반 강우강도 산정 시 필수적으로 요구되는 적정 강우 이미지 DB를 구축하기 위한 방법론을 개발하였다. 먼저, 실환경에서 불규칙적이고 높은 변동성을 보일 수 있는 변수들(바람으로 인한 빗줄기의 변동성, 녹화 환경에서 포함되는 움직이는 객체, 렌즈 위의 흐림 현상 등)에 대한 통제가 가능한 한국건설생활환경시험연구원 내 기후환경시험실에서 CCTV 영상 DB를 구축하였다. 서로 다른 5개의 실험 조건을 고려하여 이상적 환경에서 총 1,728개의 시나리오를 구성하였다. 본 연구에서는 1,920×1,080 사이즈의 30 fps (frame per second) 영상 36개에 대하여 프레임 분할을 진행하였으며, 총 97,200개의 이미지를 사용하였다. 이후, k-최근접 이웃 알고리즘을 기반으로 산정된 최종 배경과 각 이미지와의 차이를 계산하여 빗줄기 이미지를 분리하였다. 과적합 방지를 위해 각 이미지에 대한 평균 픽셀 값을 계산하고, 설정한 픽셀 임계치보다 큰 자료를 선별하였다. 180×180 사이즈로의 재구성을 위해서 관심영역을 설정하고 10 Pixel 단위로 이동을 진행하여 픽셀 변동성이 최대가 되는 영역을 산정하였다. 합성곱 신경망 모델의 훈련을 위해서 120×120 사이즈로 재변환하고 과적합 방지를 위해 이미지 증강 과정을 거쳤다. 그 결과, 이미지 기반 강우 강도 합성곱 신경망 모델을 통해 산정된 결과값과 우량계에서 취득된 강우자료가 전반적으로 유사한 양상을 보였으며, 모든 강우강도 실험 조건에 대해서 약 92%의 데이터의 PBIAS (percent bias)가 절댓값 범위 10% 이내에 해당하였다. 본 연구의 결과물과 전이학습 등의 방법을 연계하여 기존 실환경 CCTV의 한계점을 개선할 수 있을 것으로 기대된다.