• 제목/요약/키워드: Software training

검색결과 939건 처리시간 0.03초

RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 (Extending StarGAN-VC to Unseen Speakers Using RawNet3 Speaker Representation)

  • 박보경;박소민;홍현기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권7호
    • /
    • pp.303-314
    • /
    • 2023
  • 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.

생성형 대규모 언어 모델과 프롬프트 엔지니어링을 통한 한국어 텍스트 기반 정보 추출 데이터셋 구축 방법 (A Study on Dataset Generation Method for Korean Language Information Extraction from Generative Large Language Model and Prompt Engineering)

  • 정영상;지승현;권다롱새
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.481-492
    • /
    • 2023
  • 본 연구는 생성형 대규모 언어 모델을 활용하여 텍스트에서 정보를 추출하기 위한 한글 데이터셋 구축 방법을 탐구한다. 현대 사회에서는 혼합된 정보가 빠르게 유포되며, 이를 효과적으로 분류하고 추출하는 것은 의사결정 과정에 중요하다. 그러나 이에 대한 학습용 한국어 데이터셋은 아직 부족하다. 이를 극복하기 위해, 본 연구는 생성형 대규모 언어 모델을 사용하여 텍스트 기반 제로샷 학습(zero-shot learning)을 이용한 정보 추출을 시도하며, 이를 통해 목적에 맞는 한국어 데이터셋을 구축한다. 본 연구에서는 시스템-지침-소스입력-출력형식의 프롬프트 엔지니어링을 통해 언어 모델이 원하는 결과를 출력하도록 지시하며, 입력 문장을 통해 언어 모델의 In-Context Learning 특성을 활용하여 데이터셋을 구축한다. 생성된 데이터셋을 기존 데이터셋과 비교하여 본 연구 방법론을 검증하며, 관계 정보 추출 작업의 경우 KLUE-RoBERTa-large 모델 대비 25.47% 더 높은 성능을 달성했다. 이 연구 결과는 한국어 텍스트에서 지식 요소를 추출하는 가능성을 제시함으로써 인공지능 연구에 도움을 줄 것으로 기대된다. 더욱이, 이 방법론은 다양한 분야나 목적에 맞게 활용될 수 있어, 다양한 한국어 데이터셋 구축에 잠재력을 가진다고 볼 수 있다.

딥러닝 기반 비디오 캡셔닝의 연구동향 분석 (Analysis of Research Trends in Deep Learning-Based Video Captioning)

  • 려치;이은주;김영수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제13권1호
    • /
    • pp.35-49
    • /
    • 2024
  • 컴퓨터 비전과 자연어 처리의 융합의 중요한 결과로서 비디오 캡셔닝은 인공지능 분야의 핵심 연구 방향이다. 이 기술은 비디오 콘텐츠의 자동이해와 언어 표현을 가능하게 함으로써, 컴퓨터가 비디오의 시각적 정보를 텍스트 형태로 변환한다. 본 논문에서는 딥러닝 기반 비디오 캡셔닝의 연구 동향을 초기 분석하여 CNN-RNN 기반 모델, RNN-RNN 기반 모델, Multimodal 기반 모델, 그리고 Transformer 기반 모델이라는 네 가지 주요 범주로 나누어 각각의 비디오 캡셔닝 모델의 개념과 특징 그리고 장단점을 논하였다. 그리고 이 논문은 비디오 캡셔닝 분야에서 일반적으로 자주 사용되는 데이터 집합과 성능 평가방안을 나열하였다. 데이터 세트는 다양한 도메인과 시나리오를 포괄하여 비디오 캡션 모델의 훈련 및 검증을 위한 광범위한 리소스를 제공한다. 모델 성능 평가방안에서는 주요한 평가 지표를 언급하며, 모델의 성능을 다양한 각도에서 평가할 수 있도록 연구자들에게 실질적인 참조를 제공한다. 마지막으로 비디오 캡셔닝에 대한 향후 연구과제로서 실제 응용 프로그램에서의 복잡성을 증가시키는 시간 일관성 유지 및 동적 장면의 정확한 서술과 같이 지속해서 개선해야 할 주요 도전과제와 시간 관계 모델링 및 다중 모달 데이터 통합과 같이 새롭게 연구되어야 하는 과제를 제시하였다.

Matrix-assisted Laser Desorption/Ionization Time-of-flight Mass Spectrometry의 활용 (Application of Matrix-assisted Laser Desorption/Ionization Time-of-flight Mass Spectrometry)

  • 권필승
    • 대한임상검사과학회지
    • /
    • 제55권4호
    • /
    • pp.244-252
    • /
    • 2023
  • 검사 결과의 적시성과 정확성은 임상의가 특히 생명을 위협하는 감염이나 시력과 같은 중요한 장기 및 기능이 위험에 처한 경우, 효과적이고 표적화된 항균 요법을 결정하고 즉시 시행하는데 중요한 요소이다. 가능한 한 최단 시간 내에 정확하고 신뢰할 수 있는 결과를 얻기 위해 matrix assisted laser desorption/ionization time-of-flight (MALDI-TOF) 질량분석기기반 분석을 개선하고 최적화하기 위한 추가 연구 노력이 이루어져야 할 것이다. MALDI-TOF 질량분석기기반 세균 식별은 주로 임상 시료에서 병원체를 분리 및 정제하는 기술, 스펙트럼 라이브러리 확장 및 소프트웨어의 업그레이드에 중점을 둔다. 기술이 발전함에 따라 많은 MALDI-TOF 기반 미생물 동정 데이터베이스 및 시스템이 허가되어 임상에 사용되고 있다. 그럼에도 불구하고, 포괄적인 임상미생물의 특성화를 위해서는 MALDI-TOF 질량분석기 기반 항균제 내성 분석을 개발하는 것이 여전히 필요하다. 특정 적용 범주, 일반적인 분석물질, 주요 수행방법, 한계 및 해결점을 포함하여 임상 연구에서 MALDI-TOF의 적용이 중요하다. 임상 미생물 검사실에서 업무 활용을 위해 임상병리사들의 교육 및 훈련을 통한 전문성 확보가 필수적이며, 데이터베이스 구축과 경험을 극대화하여야 할 것이다. 향후 더 강력한 데이터베이스의 활용으로 다양한 분야에서 MALDI-TOF 질량분석기가 적용될 것으로 보인다.

준지도학습 방법을 이용한 흉부 X선 사진에서 척추측만증의 진단 (Diagnosis of Scoliosis Using Chest Radiographs with a Semi-Supervised Generative Adversarial Network)

  • 이우진;신기원;이준수;유승진;윤민아;최요원;홍길선;김남국;백상현
    • 대한영상의학회지
    • /
    • 제83권6호
    • /
    • pp.1298-1311
    • /
    • 2022
  • 목적 흉부 X선 사진에서 척추측만증을 조기진단 할 수 있는 딥러닝 기반의 스크리닝 소프트웨어를 준지도학습(semi-supervised generative adversarial network; 이하 GAN) 방법을 이용하여 개발하고자 하였다. 대상과 방법 두 곳의 상급종합병원에서 촬영된 흉부 X선 사진에서 척추측만증을 조기진단할 수 있는 스크리닝 소프트웨어를 개발하기 위하여 GAN 방법이 이용되었다. GAN의 훈련과정에서 경증에서 중증의 척추측만증을 보이는 흉부 X선 사진들을 사용하였으며 upstream task에서 척추측만증의 특징을 학습하고, downstream task에서 정상과 척추측만증을 분류하도록 훈련하였다. 결과 수신자 조작 특성 곡선의 곡선하면적(area under the receiver operating characteristic curve), 음성예측도, 양성예측도, 민감도 및 특이도는 각각 0.856, 0.950, 0.579, 0.985, 0.285이었다. 결론 우리가 GAN 방법을 이용하여 개발한 딥러닝 기반의 스크리닝 소프트웨어는 청소년의 흉부 X선에서 척추측만증을 진단하는데 있어서 높은 음성예측도와 민감도를 보였다. 이 소프트웨어가 건강검진을 목적으로 촬영한 청소년의 흉부 X선 사진에 진단 스크리닝 도구로써 이용된다면 영상의학과 의사의 부담을 덜어주며, 척추측만증의 조기진단에 기여할 것으로 생각된다.

Deep Learning-Based Computed Tomography Image Standardization to Improve Generalizability of Deep Learning-Based Hepatic Segmentation

  • Seul Bi Lee;Youngtaek Hong;Yeon Jin Cho;Dawun Jeong;Jina Lee;Soon Ho Yoon;Seunghyun Lee;Young Hun Choi;Jung-Eun Cheon
    • Korean Journal of Radiology
    • /
    • 제24권4호
    • /
    • pp.294-304
    • /
    • 2023
  • Objective: We aimed to investigate whether image standardization using deep learning-based computed tomography (CT) image conversion would improve the performance of deep learning-based automated hepatic segmentation across various reconstruction methods. Materials and Methods: We collected contrast-enhanced dual-energy CT of the abdomen that was obtained using various reconstruction methods, including filtered back projection, iterative reconstruction, optimum contrast, and monoenergetic images with 40, 60, and 80 keV. A deep learning based image conversion algorithm was developed to standardize the CT images using 142 CT examinations (128 for training and 14 for tuning). A separate set of 43 CT examinations from 42 patients (mean age, 10.1 years) was used as the test data. A commercial software program (MEDIP PRO v2.0.0.0, MEDICALIP Co. Ltd.) based on 2D U-NET was used to create liver segmentation masks with liver volume. The original 80 keV images were used as the ground truth. We used the paired t-test to compare the segmentation performance in the Dice similarity coefficient (DSC) and difference ratio of the liver volume relative to the ground truth volume before and after image standardization. The concordance correlation coefficient (CCC) was used to assess the agreement between the segmented liver volume and ground-truth volume. Results: The original CT images showed variable and poor segmentation performances. The standardized images achieved significantly higher DSCs for liver segmentation than the original images (DSC [original, 5.40%-91.27%] vs. [standardized, 93.16%-96.74%], all P < 0.001). The difference ratio of liver volume also decreased significantly after image conversion (original, 9.84%-91.37% vs. standardized, 1.99%-4.41%). In all protocols, CCCs improved after image conversion (original, -0.006-0.964 vs. standardized, 0.990-0.998). Conclusion: Deep learning-based CT image standardization can improve the performance of automated hepatic segmentation using CT images reconstructed using various methods. Deep learning-based CT image conversion may have the potential to improve the generalizability of the segmentation network.

LSTM - MLP 인공신경망 앙상블을 이용한 장기 강우유출모의 (Long-term runoff simulation using rainfall LSTM-MLP artificial neural network ensemble)

  • 안성욱;강동호;성장현;김병식
    • 한국수자원학회논문집
    • /
    • 제57권2호
    • /
    • pp.127-137
    • /
    • 2024
  • 수자원 관리를 위해 주로 사용되는 물리 모형은 입력자료의 구축과 구동이 어렵고 사용자의 주관적 견해가 개입될 수 있다. 최근 수자원 분야에서 이러한 문제점을 보완하기 위해 기계학습과 같은 자료기반 모델을 이용한 연구가 활발히 진행되고 있다. 본 연구에서는 관측자료만을 이용하여 강원도 삼척시 오십천 유역의 장기강우유출모의를 수행했다. 이를 위해 기상자료로 3개의 입력자료군(기상관측요소, 일 강수량 및 잠재증발산량, 일강수량 - 잠재증발산량)을 구성하고 LSTM (Long Short-term Memory)인공신경망 모델에 각각 학습시킨 결과를 비교 및 분석했다. 그 결과 기상관측요소만을 이용한 LSTM-Model 1의 성능이 가장 높았으며, 여기에 MLP 인공신경망을 더한 6개의 LSTM-MLP 앙상블 모델을 구축하여 오십천 유역의 장기유출을 모의했다. LSTM 모델과 LSTM-MLP 모형을 비교한 결과 두 모델 모두 대체적으로 비슷한 결과를 보였지만 LSTM 모델에 비해 LSTM-MLP의 MAE, MSE, RMSE가 감소했고 특히 저유량 부분이 개선되었다. LSTM-MLP의 결과에서 저유량 부분의 개선을 보임에 따라 향후 LSTM-MLP 모델 이외에 CNN등 다양한 앙상블 모형을 이용해 물리적 모델 구축 및 구동 시간이 오래 걸리는 대유역과 입력 자료가 부족한 미계측 유역의 유황곡선 작성 등에 활용성이 높을 것으로 판단된다.

성인작업치료에서 아동작업치료로 전환한 작업치료사의 임상경험에 관한 현상학적 연구: 감각통합치료 중심으로 (A Phenomenological Study of Occupational Therapists' Experiences of Transitioning from Adult to Child Occupational Therapy)

  • 노금미;정민예
    • 대한감각통합치료학회지
    • /
    • 제22권1호
    • /
    • pp.54-68
    • /
    • 2024
  • 목적 : 본 연구는 성인작업치료에서 아동작업치료로 전환한 작업치료사의 임상 경험을 이해하고 탐구함으로써 추후 전환한 작업치료사의 빠른 임상 적응을 위한 프로그램을 개발하는데 필요한 기초 자료를 제공하고자 한다. 연구방법 : 본 연구는 Colaizzi의 현상학적 연구 방법을 적용하였다. 임상경력 3년 이상으로 병원 기반 성인작업치료에서 감각통합 중심의 아동작업치료로 전환한 작업치료사 6명을 대상으로 전화 인터뷰를 실시하였다. 인터뷰 내용은 참여자의 동의하에 녹음 후 전사한 뒤 분석하였다. 결과 : 면담 내용을 분석한 결과 3개의 범주화, 7개 주제 모음, 17개의 의미가 도출되었다. 3개의 범주화에는 전환한 작업치료사의 임상경험의 어려움, 전환 후 임상경험을 통해 얻을 수 있었던 강점, 빠른 임상적응을 위해 전환을 준비하기 전 필요한 요소가 무엇인지 알 수 있었다. 결론 : 감각통합 중심의 아동작업치료로 전환한 작업치료사들이 새로운 환경에 전문가로서 빠른 임상 적응할 수 있도록 전환하는 작업치료사들을 위한 교육과 제도적 마련이 필요할 것이다.

다중 피드백을 지원하는 몰입형 스마트 밸런스 보드 (Immersive Smart Balance Board with Multiple Feedback)

  • 이승용;이선호;박준성;신민철;윤승현
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제30권3호
    • /
    • pp.171-178
    • /
    • 2024
  • 밸런스 보드 (Balance Board, BB)를 활용한 운동은 균형 감각 발달, 코어 근육 강화 등 신체 운동 능력 향상과 집중력 증진에 효과적이다. 특히, 다양한 디지털 콘텐츠와 연동되는 스마트 밸런스 보드 (Smart Balance Board, SBB)는 기존 밸런스 보드에 비해 적절한 피드백을 제공하여 운동 효과를 극대화한다. 그러나 대부분의 시스템들은 시/청각적인 피드백만 제공하여 사용자의 운동 몰입도 및 흥미 그리고 운동 자세의 정확성에 미치는 영향을 평가하지 못한다. 본 연구에서는 멀티 센서를 활용하여 다양한 피드백과 정확한 자세로 훈련이 가능한 몰입형 스마트 밸런스 보드 (Imemersive-SBB, I-SBB)를 제안한다. 제안된 시스템은 아두이노 기반으로 보드의 자세을 측정하는 자이로 센서, 유/무선 통신을 위한 통신 모듈, 사용자의 정확한 발 위치를 유도하는 적외선 센서, 촉각 피드백을 위한 진동 모터로 구성되어 있다. 측정된 보드의 자세는 칼만 필터 (Kalman Filter)를 이용하여 부드럽게 보정되고, 멀티 센서 데이터는 FreeRTOS를 활용해 실시간으로 병렬처리된다. 제안된 I-SBB는 다양한 콘텐츠와 연동하여 사용자의 집중도 및 몰입도 향상과 흥미 유발에 효과적임을 보인다.

폐기종 및 간질성 폐질환: 인공지능 소프트웨어 사용 경험 (Using Artificial Intelligence Software for Diagnosing Emphysema and Interstitial Lung Disease)

  • 백상현;진공용
    • 대한영상의학회지
    • /
    • 제85권4호
    • /
    • pp.714-726
    • /
    • 2024
  • 흉부 CT상 폐기종이나 간질성 폐질환의 형태나 범위를 인공지능을 이용하여 자동적으로 객관적으로 진단하는 다양한 알고리즘을 개발되고, 이를 증명하는 연구들이 진행되어 왔다. 흉부 CT상 인공지능을 이용한 폐기종 정량화 연구들을 보면 CT상 폐기종의 상대적인 양이 증가와 폐 기능의 악화와 연관이 있으며, 특히 중심성 폐기종을 중심으로 정량화를 하는 것이 임상 증상이나 만성폐쇄성 폐질환의 사망률을 예측하는 데 도움이 된다고 보고하고 있다. 또한, 간질성 폐질환에서는 인공지능이 CT상 통상성 간질성 폐렴의 형태를 정상, 간유리 음영, 망상형 음영, 벌집 모양, 폐기종, 경화로 분류를 할 수 있고, 인공지능이 흉부영상의학과 전문의와 비슷한 정도로 통상성 간질성 폐렴을 진단(70%-80%) 할 수 있다고 보고했다. 그러나 인공지능의 결과들이 흉부 CT의 스캔 변수들, 재구성 알고리즘, 방사선 선량, 개발된 인공지능 훈련 데이터에 의해 영향을 받으며, 이러한 이유로 아직까지 흉부 CT상 폐기종과 간질성 폐질환의 진단과 정량화는 실제로 일상 업무에서 제한적으로 사용되고 있다. 이 논문에서는 폐기종과 간질성 폐질환의 진단과 정량화를 위해서 인공지능을 사용하고 있는 저자들의 경험을 증례로 소개를 하고, 이 두 질환의 인공지능의 효용성과 제한점에 대해서 언급하고자 한다.