• 제목/요약/키워드: Deep Learning Dataset

검색결과 815건 처리시간 0.023초

Research on Ocular Data Analysis and Eye Tracking in Divers

  • Ye Jun Lee;Yong Kuk Kim;Da Young Kim;Jeongtack Min;Min-Kyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권8호
    • /
    • pp.43-51
    • /
    • 2024
  • 본 논문은 수중 활동을 주로 하는 다이버를 대상으로 특수 목적용 다이버 마스크를 이용해서 안구 데이터를 획득 및 분석하고, 이를 이용해서 사용자의 시선을 추적하는 방법에 대해 제안한다. 안구 데이터 분석을 위해 자체 제작한 안구 데이터 셋을 구축하였고, YOLOv8-nano 모델을 활용해서 학습 모델을 생성하였다. 학습 모델의 프레임 당 소요 시간은 평균 45.52ms를 달성하였고, 눈을 뜬 상태와 감는 상태를 구별하는 인식 성공률은 99%를 달성하였다. 안구 데이터 분석 결과를 바탕으로 현실 세계 좌표를 매칭할 수 있는 시선 추적 알고리즘을 개발하였다. 이 알고리즘의 검증 결과 x축은 약 1%, y축은 약 6%의 평균 오차율을 나타내는 것을 알 수 있었다.

Driver Group Clustering Technique and Risk Estimation Method for Traffic Accident Prevention

  • Tae-Wook Kim;Ji-Woong Yang;Hyeon-Jin Jung;Han-Jin Lee;Ellen J. Hong
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권8호
    • /
    • pp.53-58
    • /
    • 2024
  • 교통사고는 인간의 생명뿐만 아니라 사회적으로 큰 비용을 발생시키는 문제이다. 최근에는 교통사고 문제를 해결하기 위하여, 딥러닝 기술과 도로의 시공간적 정보를 통해 교통사고 위험도를 예측하는 연구가 진행되었다. 그러나 교통사고는 도로의 시공간적 정보뿐만 아니라 인적요소 또한 교통사고에 매우 큰 영향을 미치지만 이에 대한 연구는 상대적으로 활성화되지 않았다. 본 논문은 교통사고 데이터셋을 바탕으로 클러스터링 기법을 적용하여 운전자 그룹 및 특성을 분석하였으며, 각 운전자 그룹 및 특성에 대한 위험도를 산출하는 방법을 제시 및 적용하였다. 이 과정에서 본 논문에서 제시한 전처리 기법이 기존에 일반적으로 사용되었던 원-핫 임베딩, Min-Max Scaling 기법보다 더 높은 성능을 보임으로써 더 적합한 전처리 기법임을 보였다.

Spine Computed Tomography to Magnetic Resonance Image Synthesis Using Generative Adversarial Networks : A Preliminary Study

  • Lee, Jung Hwan;Han, In Ho;Kim, Dong Hwan;Yu, Seunghan;Lee, In Sook;Song, You Seon;Joo, Seongsu;Jin, Cheng-Bin;Kim, Hakil
    • Journal of Korean Neurosurgical Society
    • /
    • 제63권3호
    • /
    • pp.386-396
    • /
    • 2020
  • Objective : To generate synthetic spine magnetic resonance (MR) images from spine computed tomography (CT) using generative adversarial networks (GANs), as well as to determine the similarities between synthesized and real MR images. Methods : GANs were trained to transform spine CT image slices into spine magnetic resonance T2 weighted (MRT2) axial image slices by combining adversarial loss and voxel-wise loss. Experiments were performed using 280 pairs of lumbar spine CT scans and MRT2 images. The MRT2 images were then synthesized from 15 other spine CT scans. To evaluate whether the synthetic MR images were realistic, two radiologists, two spine surgeons, and two residents blindly classified the real and synthetic MRT2 images. Two experienced radiologists then evaluated the similarities between subdivisions of the real and synthetic MRT2 images. Quantitative analysis of the synthetic MRT2 images was performed using the mean absolute error (MAE) and peak signal-to-noise ratio (PSNR). Results : The mean overall similarity of the synthetic MRT2 images evaluated by radiologists was 80.2%. In the blind classification of the real MRT2 images, the failure rate ranged from 0% to 40%. The MAE value of each image ranged from 13.75 to 34.24 pixels (mean, 21.19 pixels), and the PSNR of each image ranged from 61.96 to 68.16 dB (mean, 64.92 dB). Conclusion : This was the first study to apply GANs to synthesize spine MR images from CT images. Despite the small dataset of 280 pairs, the synthetic MR images were relatively well implemented. Synthesis of medical images using GANs is a new paradigm of artificial intelligence application in medical imaging. We expect that synthesis of MR images from spine CT images using GANs will improve the diagnostic usefulness of CT. To better inform the clinical applications of this technique, further studies are needed involving a large dataset, a variety of pathologies, and other MR sequence of the lumbar spine.

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구 (Comparative study of data augmentation methods for fake audio detection)

  • 박관열;곽일엽
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.

셋톱박스 오디언스 타겟팅을 위한 세션 기반 개인화 추천 시스템 개발 (Personalized Session-based Recommendation for Set-Top Box Audience Targeting)

  • 차지수;정구섭;김우영;양재원;백상덕;이원준;장서호;박태준;정찬우;김우주
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.323-338
    • /
    • 2023
  • 셋톱박스 오디언스(TV 시청자) 타겟팅의 핵심은 오디언스의 시청패턴을 분석하여 광고의 효과성이 높을 것으로 예상되는 오디언스에게 맞춤형 광고를 내보내는 것이다. 세션 기반 추천 시스템은 인터넷 광고 추천, 유저 검색 기록 기반 추천 등에 많이 이용되고 있지만, TV 광고의 측면에서 셋톱박스 데이터 수집의 어려움을 이유로 연구하기에 어려움이 있었다. 또한 오디언스 개인의 식별정보가 있는 데이터에서, 오디언스의 선호가 반영되는 시청 패턴을 모델링하는 데 한계가 있었다. 따라서 본 연구에서는 한국방송광고진흥공사(KOBACO)와 방송3사(SKB, KT, LGU+)와의 협업을 통해 익명화된 오디언스 4,847명의 6개월간 시청 데이터를 확보하여 연구를 진행하였으며, 유저-세션-아이템의 계층적 구조를 가지는 개인화 세션 기반 추천 시스템을 개발하여 성능 검증을 진행하였다. 그 결과, 셋톱박스 오디언스 데이터셋과 그 외 검증을 위한 2개의 데이터셋에서 제안된 모델이 비교 대상 모델보다 높은 성능을 보이는 것을 확인하였다.

합성곱 신경망 기반 채점 모델 설계 및 적용을 통한 운동학 그래프 답안 자동 채점 (The Automated Scoring of Kinematics Graph Answers through the Design and Application of a Convolutional Neural Network-Based Scoring Model)

  • 한재상;김현주
    • 한국과학교육학회지
    • /
    • 제43권3호
    • /
    • pp.237-251
    • /
    • 2023
  • 본 연구는 합성곱 신경망을 활용한 자동 채점 모델을 설계하고 학생의 운동학 그래프 답안에 적용함으로써, 과학 그래프 답안에 대한 자동 채점의 가능성을 탐색하였다. 연구자가 작성한 2,200개의 답안을 2,000개의 훈련 데이터와 200개의 검증 데이터로 데이터셋을 구성하고, 202개의 학생 답안을 100개의 훈련 데이터와 102개의 시험 데이터로 데이터셋을 구성하여 연구를 진행하였다. 먼저, 자동 채점모델을 설계하고 성능을 검증하는 과정에서는 연구자가 작성한 답안 데이터셋을 활용하여 그래프 이미지 분류에 최적화되도록 자동 채점모델을 완성하였다. 다음으로 자동 채점 모델에 훈련 데이터셋을 여러 유형으로 학습시키면서 학생의 시험 데이터셋에 대한 채점을 수행하여 훈련 데이터의 양이 많고 다양할수록 자동 채점 모델의 성능이 향상된다는 것을 확인하였고, 최종적으로 인간 채점과의 일치율은 97.06%, 카파 계수는 0.957, 가중 카파 계수는 0.968을 얻었다. 한편, 훈련 데이터로 학습되지 않은 유형의 답안의 경우 인간 채점자들 간에는 채점이 거의 일치하였으나, 자동 채점 모델은 일치하지 않게 채점하는 것을 확인하였다.

StyleGAN Encoder를 활용한 표정 이미지 생성에서의 연령 왜곡 감소에 대한 연구 (A study on age distortion reduction in facial expression image generation using StyleGAN Encoder)

  • 이희열;이승호
    • 전기전자학회논문지
    • /
    • 제27권4호
    • /
    • pp.464-471
    • /
    • 2023
  • 본 논문에서는 StyleGAN Encoder를 활용한 표정 이미지 생성에서의 연령 왜곡을 감소시키는 방법을 제안한다. 표정 이미지 생성 과정은 StyleGAN Encoder를 사용하여 얼굴 이미지를 생성하고, SVM을 이용하여 학습된 boundary를 잠재 벡터에 적용하여 표정을 변화시킨다. 그러나 웃는 표정의 boundary를 학습할 때 표정 변화에 따른 연령 왜곡이 발생한다. 웃는 표정에 대한 SVM 학습에서 생성된 smile boundary는 표정 변화로 인해 생긴 주름이 학습 요소로 포함되어 있으며 연령에 대한 특성도 함께 학습된 것으로 판단한다. 이를 해결하기 위해, 제안된 방법에서는 smile boundary와 age boundary의 상관계수를 계산하고, 이를 이용하여 smile boundary에서 age boundary를 상관계수에 비례하여 조절하는 방식을 도입한다. 제안된 방법의 효과를 확인하기 위해 공개된 표준 얼굴 데이터셋인 FFHQ 데이터셋을 사용하고 FID score를 측정하여 실험한 결과는 다음과 같다. Smile 이미지에서는 기존 방법에 비하여, Ground Truth와 제안된 방법으로 생성된 smile 이미지의 FID score가 약 0.46 향상되었다. 또한, Smile 이미지에서 기존 방법에 비하여, StyleGAN Encoder로 생성된 이미지와 제안된 방법으로 생성된 smile 이미지의 FID score가 약 1.031 향상되었다. Non-smile 이미지에서는 기존 방법에 비하여, Ground Truth와 본 논문에서 제안된 방법으로 생성된 non-smile 이미지의 FID score가 약 2.25 향상되었다. 또한, Non-smile 이미지에서 기존 방법에 비하여, StyleGAN Encoder로 생성된 이미지와 제안된 방법으로 생성된 non-smile 이미지의 FID score가 약 약 1.908 향상됨을 확인하였다. 한편, 각 생성된 표정 이미지의 연령을 추정하여 StyleGAN Encoder로 생성된 이미지의 추정된 연령과 MSE를 측정한 결과, 기존방법 대비 제안하는 방법이 smile 이미지에서 약 1.5, non-smile 이미지에서 약 1.63의 성능 향상되어 제안한 방법에 대한 성능의 효율성이 입증되었다.

실데이터 기반 능동 소나 신호 합성 방법론 (Real data-based active sonar signal synthesis method)

  • 김윤수;김주호;석종원;홍정표
    • 한국음향학회지
    • /
    • 제43권1호
    • /
    • pp.9-18
    • /
    • 2024
  • 최근 수중표적의 저소음화와 해상교통량의 증가로 인한 주변 소음의 증가로 능동 소나 시스템의 중요성이 증대되고 있다. 하지만 신호의 다중 경로를 통한 전파, 다양한 클러터와 주변 소음 및 잔향 등으로 인한 반향신호의 낮은 신호대잡음비는 능동 소나를 통한 수중 표적 식별을 어렵게 만든다. 최근 수중 표적 식별 시스템의 성능을 향상 시키기 위해 머신러닝 혹은 딥러닝과 같은 데이터 기반의 방법을 적용시키려는 시도가 있지만, 소나 데이터셋의 특성 상 훈련에 충분한 데이터를 모으는 것이 어렵다. 부족한 능동 소나 데이터를 보완하기 위해 수학적 모델링에 기반한 방법이 주로 활용되어오고 있다. 그러나 수학적 모델링에 기반한 방법론은 복잡한 수중 현상을 정확하게 모의하는 데에는 한계가 있다. 따라서 본 논문에서는 심층 신경망 기반의 소나 신호 합성 기법을 제안한다. 제안하는 방법은 인공지능 모델을 소나 신호 합성 분야에 적용하기 위해, 음성 합성 분야에서 주로 사용되는 타코트론 모델의 주요 모듈인 주의도 기반의 인코더 및 디코더를 소나 신호에 적절하게 수정하였다. 실제 해상 환경에 모의 표적기를 배치해 수집한 데이터셋을 사용하여 제안하는 모델을 훈련시킴으로써 보다 실제 신호와 유사한 신호를 합성해낼 수 있게 된다. 제안된 방법의 성능을 검증하기 위해, 합성된 음파 신호의 스펙트럼을 직접 분석을 진행하여 비교하였으며, 이를 바탕으로 오디오 품질 인지적 평가(Perceptual Quality of Audio Quality, PEAQ)인지적 성능 검사를 실시하여 총 4개의 서로 다른 환경에서 생성된 반사 신호들에 대해 원본과 비교해 그 차이가 최소 -2.3이내의 높은 성적을 보여주었다. 이는 본 논문에서 제안한 방법으로 생성한 능동 소나 신호가 보다 실제 신호에 근사한다는 것을 입증한다.

딥러닝 기반 스타일 변환 기법을 활용한 인공 달 지형 영상 데이터 생성 방안에 관한 연구 (A Study for Generation of Artificial Lunar Topography Image Dataset Using a Deep Learning Based Style Transfer Technique)

  • 나종호;이수득;신휴성
    • 터널과지하공간
    • /
    • 제32권2호
    • /
    • pp.131-143
    • /
    • 2022
  • 달 현지 탐사를 위해 무인 이동체가 활용되고 있으며, 달 지상 관심 지역의 지형 특성을 정확하게 파악하여 실시간으로 정보화 하는 작업이 요구된다. 하지만, 정확도 높은 지형/지물 객체 인식 및 영역 분할을 위해서는 다양한 배경조건의 영상 학습데이터가 필요하며 이러한 학습데이터를 구축하는 과정은 많은 인력과 시간이 요구된다. 특히 대상이 쉽게 접근하기 힘든 달이기에 실제 현지 영상의 확보 또한 한계가 있어, 사실에 기반하지만 유사도 높은 영상 데이터를 인위적으로 생성시킬 필요성이 대두된다. 본 연구에서는 가용한 중국의 달 탐사 Yutu 무인 이동체 및 미국의 Apollo 유인 착륙선에서 촬영한 영상을 통해 위치정보 기반 스타일 변환 기법(Style Transfer) 모델을 적용하여 실제 달 표면과 유사한 합성 영상을 인위적으로 생성하였다. 여기서, 유사 목적으로 활용될 수 있는 두 개의 공개 알고리즘(DPST, WCT2)를 구현하여 적용해 보았으며, 적용 결과를 시간적, 시각적 측면으로 비교하여 성능을 평가하였다. 평가 결과, 실험 이미지의 형태 정보를 보존하면서 시각적으로도 매우 사실적인 영상을 생성할 수 있음을 확인하였다. 향후 본 실험의 결과를 바탕으로 생성된 영상 데이터를 지형객체 자동 분류 및 인식을 위한 인공지능 학습용 영상 데이터로 추가 학습된다면 실제 달 표면 영상에서도 강인한 객체 인식 모델 구현이 가능할 것이라 판단된다.

사후전산화단층촬영의 법의병리학 분야 활용을 위한 조건부 적대적 생성 신경망을 이용한 CT 영상의 해상도 개선: 팬텀 연구 (Enhancing CT Image Quality Using Conditional Generative Adversarial Networks for Applying Post-mortem Computed Tomography in Forensic Pathology: A Phantom Study)

  • 윤예빈;허진행;김예지;조혜진;윤용수
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제46권4호
    • /
    • pp.315-323
    • /
    • 2023
  • Post-mortem computed tomography (PMCT) is commonly employed in the field of forensic pathology. PMCT was mainly performed using a whole-body scan with a wide field of view (FOV), which lead to a decrease in spatial resolution due to the increased pixel size. This study aims to evaluate the potential for developing a super-resolution model based on conditional generative adversarial networks (CGAN) to enhance the image quality of CT. 1761 low-resolution images were obtained using a whole-body scan with a wide FOV of the head phantom, and 341 high-resolution images were obtained using the appropriate FOV for the head phantom. Of the 150 paired images in the total dataset, which were divided into training set (96 paired images) and validation set (54 paired images). Data augmentation was perform to improve the effectiveness of training by implementing rotations and flips. To evaluate the performance of the proposed model, we used the Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index Measure (SSIM) and Deep Image Structure and Texture Similarity (DISTS). Obtained the PSNR, SSIM, and DISTS values of the entire image and the Medial orbital wall, the zygomatic arch, and the temporal bone, where fractures often occur during head trauma. The proposed method demonstrated improvements in values of PSNR by 13.14%, SSIM by 13.10% and DISTS by 45.45% when compared to low-resolution images. The image quality of the three areas where fractures commonly occur during head trauma has also improved compared to low-resolution images.