• 제목/요약/키워드: large language model

검색결과 282건 처리시간 0.025초

개인정보 보호를 고려한 딥러닝 데이터 자동 생성 방안 연구 (A Study of Automatic Deep Learning Data Generation by Considering Private Information Protection)

  • 장성봉
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.435-441
    • /
    • 2024
  • 수집된 대량의 데이터셋이 딥러닝 학습데이터로 사용되기 위해서는 주민번호, 질병 정보등과 같이 민감한 개인정보는 해커에게 노출되지 않도록 값을 변경하거나 암호화해야 하고 구축된 딥러닝 모델의 구조와 일치 하도록 데이터를 재구성 해주어야 한다. 현재, 이러한 작업은 전문가에 의해 수동으로 이루어지기 때문에, 시간과 비용이 많이 소요 된다. 이러한 문제점을 해결하기 위해, 본 논문에서는 딥러닝 과정에서 개인정보 보호를 위한 데이터 처리 작업을 자동으로 수행할 수 있는 기법을 제안한다. 제안된 기법에서는 데이터 일반화에 기반한 개인정보 보호 작업을 수행하고 원형큐를 사용하여 데이터 재구성 작업을 수행한다. 제안된 기법의 타당성을 검증하기 위해, C언어를 사용하여 직접 구현하였다. 검증 결과, 데이터 일반화가 정상적으로 수행되고 딥러닝 모델에 맞는 데이터 재구성이 제대로 수행됨을 확인 할 수 있었다.

A Design and Implementation of The Deep Learning-Based Senior Care Service Application Using AI Speaker

  • Mun Seop Yun;Sang Hyuk Yoon;Ki Won Lee;Se Hoon Kim;Min Woo Lee;Ho-Young Kwak;Won Joo Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.23-30
    • /
    • 2024
  • 본 논문에서는 딥러닝 기반의 개인 맞춤형 실버세대 케어 서비스 애플리케이션을 설계하고 구현한다. 이 애플리케이션은 사용자의 편의성을 고려하여 STT(Speech to Text) 기술을 사용해 사용자의 발화를 텍스트로 변환하고, 이를 Microsoft 사의 대화형 멀티 에이전트 거대 언어 모델인 Autogen의 입력으로 사용한다. Autogen은 사용자와 ChatBot의 대화 데이터를 활용하여 상대방의 의도를 파악하여 답변에 대하여 응답한다. 그리고 백엔드 에이전트를 활용하여 위시리스트, 공유 달력 그리고 보이스 클로닝을 위한 딥러닝 모델을 통해 상대방의 목소리가 담긴 안부 메시지 기능을 제공한다. 또한, 애플리케이션은 SKT 사의 인공지능 누구(NUGU) 스피커를 탑재하여 홈 IoT 서비스 기능을 제공한다. 이러한 기능을 통해 제안하는 지능형 애플리케이션은 향후 미래 인공지능 기반의 실버세대 케어 기술에 기여할 것이다.

리뷰 데이터 감성 분류 성능 향상을 위한 Fine-tuning 방법 (Fine-tuning Method to Improve Sentiment Classification Perfoimance of Review Data)

  • 박정일;임명진;김판구
    • 스마트미디어저널
    • /
    • 제13권6호
    • /
    • pp.44-53
    • /
    • 2024
  • 현대사회의 기업들은 소셜 미디어, 제품 리뷰, 고객 피드백 등 다양한 영역에 걸쳐 소비자 의견을 정확하게 이해하는 것이 경쟁에서 성공하기 위한 주요 과제임을 강조하며 감성 분류를 점점 더 중요한 작업으로 채택하고 있다. 감성 분류는 소비자의 다양한 의견과 감성을 파악하여 제품이나 서비스 개선에 도움을 주는 이유로 많은 연구가 진행중이다. 감성 분류에서는 대규모 데이터 셋과 사전 학습된 언어 모델을 통한 미세 조정이 성능 향상에 중요한 역할을 한다. 최근 인공지능 기술의 발전으로 감성 분류 모델은 높은 성능을 보이고 있으며, 특히 ELECTRA 모델은 효율적인 학습 방법과 적은 컴퓨팅 자원을 통해 뛰어난 결과를 제공한다. 따라서 본 논문에서는 ELECTRA에서 한국어를 학습한 KoELECTRA 모델을 이용하여 다양한 데이터 셋에 대한 효율적인 미세 조정을 통해 감성 분류 성능을 향상하는 방법을 제안한다.

CTC를 적용한 CRNN 기반 한국어 음소인식 모델 연구 (CRNN-Based Korean Phoneme Recognition Model with CTC Algorithm)

  • 홍윤석;기경서;권가진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.115-122
    • /
    • 2019
  • 지금까지의 한국어 음소 인식에는 은닉 마르코프-가우시안 믹스쳐 모델(HMM-GMM)이나 인공신경망-HMM을 결합한 하이브리드 시스템이 주로 사용되어 왔다. 하지만 이 방법은 성능 개선 여지가 적으며, 전문가에 의해 제작된 강제정렬(force-alignment) 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 이 모델의 문제로 인해 타 언어를 대상으로 한 음소 인식 연구에서는 이 단점을 보완하기 위해 순환 신경망(RNN) 계열 구조와 Connectionist Temporal Classification(CTC) 알고리즘을 결합한 신경망 기반 음소 인식 모델이 연구된 바 있다. 그러나 RNN 계열 모델을 학습시키기 위해 많은 음성 말뭉치가 필요하고 구조가 복잡해질 경우 학습이 까다로워, 정제된 말뭉치가 부족하고 기반 연구가 비교적 부족한 한국어의 경우 사용에 제약이 있었다. 이에 본 연구는 강제정렬이 불필요한 CTC 알고리즘을 도입하되, RNN에 비해 더 학습 속도가 빠르고 더 적은 말뭉치로도 학습이 가능한 합성곱 신경망(CNN)을 기반으로 한국어 음소 인식 모델을 구축하여 보고자 시도하였다. 총 2가지의 비교 실험을 통해 본 연구에서는 한국어에 존재하는 49가지의 음소를 판별하는 음소 인식기 모델을 제작하였으며, 실험 결과 최종적으로 선정된 음소 인식 모델은 CNN과 3층의 Bidirectional LSTM을 결합한 구조로, 이 모델의 최종 PER(Phoneme Error Rate)은 3.26으로 나타났다. 이는 한국어 음소 인식 분야에서 보고된 기존 선행 연구들의 PER인 10~12와 비교하면 상당한 성능 향상이라고 할 수 있다.

대용량 DEM 데이터의 효율적 압축을 위한 DEM_Comp 소프트웨어 개발 (DEM_Comp Software for Effective Compression of Large DEM Data Sets)

  • 강인구;윤홍식;위광재;이동하
    • 한국측량학회지
    • /
    • 제28권2호
    • /
    • pp.265-271
    • /
    • 2010
  • 본 논문에서는 대용량의 수치표고모델(DEM) 데이터의 효율적인 압축을 위해 허프만 코딩과 Lempel-Ziv-Welch 압축방법을 기반으로 하는 새로운 DEM 압축 소프트웨어인 DEM_Comp를 개발하였다. DEM_Comp의 개발을 위해서 $C^{++}$ 언어를 이용하였으며, 모든 Window 플랫폼에서 사용이 가능하도록 하였다. 개발된 소프트웨어의 성능을 평가하기 위해 다양한 지형의 형태를 가지는 DEM에 대해 압축을 수행하고, 출력파일의 용량에 따른 압축효율을 평가하였다. 최근 새로운 지형데이터 취득장비인 LiDAR와 SAR 등에 의해 고해상도의 DEM의 활용이 급격하게 증가하고 있어, 데이터의 저장용량과 전송대역폭을 감소시킬 수 있는 DEM 압축기술이 매우 유용하게 이용되고 있다. 일반적으로 데이터 압축기술은 i) 데이터 사이의 관계를 분석하고, ii) 분석 결과에 따라 압축 및 저장기술을 결정하는 2부분으로 구성되는데, DEM_Comp에서는 정규격자, Lempel-Ziv 압축방법, 허프만 코딩의 3단계 압축 알고리즘을 통해 DEM이 압축된다. DEM_Comp의 압축효율 실험 결과 전처리만 수행하였을 경우 지형의 기복과 상관없이 압축효율은 약 83% 정도를 나타내었지만, 3단계의 압축 알고리즘이 완료된 경우에는 압축효율이 97%까지 증가하는 것으로 나타났다. 이러한 수치는 일반적인 상업용 압축 소프트웨어들과 비교하여 약 14% 정도의 압축효율이 향상되었음을 나타낸다. 이에 따라 본 연구에서 개발된 DEM_Comp S/W를 이용하면 대용량의 고해상도 DEM의 관리, 저장, 배포를 보다 효율적으로 수행할 수 있을 것으로 판단된다.

명사 어휘의미망을 활용한 문법 검사기의 문맥 오류 결정 규칙 일반화 (Generalization of error decision rules in a grammar checker using Korean WordNet, KorLex)

  • 소길자;이승희;권혁철
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.405-414
    • /
    • 2011
  • 국내에서 가장 일반적으로 사용되고 있는 규칙 기반 오류 검출 방법은 언어 전문가가 한국어 문서에서 자주 발생하는 오류에 대한 검출 규칙을 경험적으로 구축하고 있다. 그러나 이렇게 경험적으로 규칙을 만들면 새로운 패턴의 문장이 나타날 때마다 규칙이 수정되어야 하므로 일관성 있는 오류 검사 및 교정을 기대할 수 없다. 본 논문에서는 이를 해결하려고 최근 개발되고 있는 어휘의미망 중에서 KorLex와 같은 정규화된 언어 자원을 활용하여 단어들의 범주 정보를 추출하고 이를 이용하여 오류 결정 규칙을 일반화한다. 그러나 현재 구축된 KorLex에는 명사의 계층관계 정보는 구축되어 있지만, 문장 요소와의 관계 정보, 즉, 격틀 정보가 부족하다. 본 논문에서는 용언 의미 오류 결정 규칙으로 사용할 선택제약 명사 클래스를 정보이론에 기초한 MDL과 Tree Cut Model을 활용하여 추출하고 이러한 선택제약 명사 클래스를 사용하여 문법 검사기 규칙을 일반화하는 방안을 제안한다. 실험 결과, 혼동하기 쉬운 네 개의 용언에 대해 목적어로 사용된 명사를 선택제약 명사 클래스로 일반화하여 문법 검사기 오류 결정 규칙 수를 평균 64.8%로 줄였고 기존 명사를 사용한 문법 검사기보다 정확도 측면에서 평균 약 6.2%정도 향상된 결과를 얻을 수 있었다.

기술 용어에 대한 한국어 정의 문장 자동 생성을 위한 순환 신경망 모델 활용 연구 (Research on the Utilization of Recurrent Neural Networks for Automatic Generation of Korean Definitional Sentences of Technical Terms)

  • 최가람;김한국;김광훈;김유일;최성필
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.99-120
    • /
    • 2017
  • 본 논문에서는 지속적으로 커져가는 산업 시장에 대해 관련 연구자들이 이를 효율적으로 분석할 수 있는 반자동 지원 체제개발을 위한 기술 용어와 기술 개념에 대한 정의문 및 설명문을 자동으로 생성하는 한국어 문장 생성 모델을 제시한다. 한국어 정의 문장 생성을 위하여 딥러닝 기술 중 데이터의 전/후 관계를 포함한 시퀀스 레이블링이 가능한 LSTM을 활용한다. LSTM을 근간으로 한 두 가지 모델은 기술명을 입력할 시 그에 대한 정의문 및 설명문을 생성한다. 다양하게 수집된 대규모 학습 말뭉치를 이용해 실험한 결과, 본 논문에서 구현한 2가지 모델 중 CNN 음절 임베딩을 활용한 어절 단위 LSTM 모델이 용어에 대한 정의문 및 설명문을 생성하는데 더 나은 결과를 도출시킨다는 사실을 확인하였다. 본 논문의 연구 결과를 바탕으로 동일한 주제를 다루는 문장 집합을 생성할 수 있는 확장 모델을 개발할 수 있으며 더 나아가서는 기술에 대한 문헌을 자동으로 작성하는 인공지능 모델을 구현할 수 있으리라 사료된다.

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

  • 정현재;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.29-37
    • /
    • 2020
  • 최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.

단형질 개체모형을 이용한 한우 육종가 추정프로그램 개발 (Development of Algorithm in Analysis of Single Trait Animal Model for Genetic Evaluation of Hanwoo)

  • 구양모;김정일;송치은;이기환;신재영;장현기;최태정;김시동;박병호;조광현;이승수;최연호;김병우;이정규;송훈
    • Journal of Animal Science and Technology
    • /
    • 제55권5호
    • /
    • pp.359-365
    • /
    • 2013
  • 단형질 개체모형을 이용한 육종가 추정프로그램의 해를 구하는 컴퓨터 프로그램을 포트란 언어를 이용하여 자체개발하였고, 프로그램은 자료기반으로 반복적으로 계산을 해 나가는 간접법을 이용한 것으로 일반적인 알고리즘으로 프로그램을 개발하고 이의 효율을 개선한 개선알고리즘으로 프로그램을 개발하여, 두 프로그램 간 효율을 비교하였다. 기존의 전통적인 알고리즘은 순차적인 반복문을 이용하여 자료를 읽고 기록하는 방법이며, 새로운 알고리즘은 효과별로 LHS를 직접 작성하여 추정하는 방법을 사용하였다. 개발된 두 가지 프로그램으로 육종가를 추정하고, 그 추정 값이 정확하게 평가되었는지 알아보기 위하여 기존에 개발되어 사용되고 있는 BLUPF90 (Misztal, 2007)과 MTDFREML (Boldman 등, 1999)과 비교하여 보았다. 서로 다른 프로그램으로 추정된 육종가간의 상관은 전체 항목에서 99% 이상 고도의 상관이 나타났으며, 프로그램 추정치 간의 높은 상관으로 볼 때 Model I, Model II는 정확하게 개발되었고 평가된 것을 확인할 수 있었다. Solution이 수렴 될 때까지의 반복횟수는 Model I은 2,568 round, Model II는 1,038 round로 수렴되어 Model II가 Model I보다 작은 반복횟수에서 수렴이 된 것을 확인할 수 있었으며, 수렴속도는 Model I은 256.008초, Model II는 235.729초로 Model II가 Model I 보다 약 10% 정도 개선된 것을 확인할 수 있었다. 개발된 프로그램을 기존 D/B와 연계한다면 농가 및 지자체 등에 지속적인 개량 정보를 제공할 수 있으며, 농가 단위 암소 유전능력평가로 암소개량을 도모할 수 있을 것이라 사료된다.

셀룰러 오토마타 기반 WCA2D 모형을 이용한 부산 온천천 유역 고해상도 도시 침수 해석 (High-resolution Urban Flood Modeling using Cellular Automata-based WCA2D in the Oncheon-cheon Catchment in Busan, South Korea)

  • 최현진;이송희;우현아;노성진
    • 대한토목학회논문집
    • /
    • 제43권5호
    • /
    • pp.587-599
    • /
    • 2023
  • 기후변화로 인해 전 세계 주요 도시에서 홍수의 빈도와 위험성이 증가함에 따라, 도시 침수에 대비한 선제적 대응을 위해 넓은 공간 영역에서 고해상도 2차원 침수 정보를 신속하고 정확하게 해석할 수 있는 모의 기술의 중요성이 대두되고 있다. 기존의 천수 방정식(shallow water equations)에 기반한 물리적 해석 방법은 고해상도 침수 예측을 위해 많은 컴퓨터 자원과 계산 시간이 소요되는 한계가 있다. 본 연구는 전환 규칙과 가중치 기반 시스템을 사용하여 침수의 시공간 변화를 모의하는 셀룰러 오토마타(cellular automata) 기반 2차원 침수 해석 모형 Weighted Cellular Automata 2D (WCA2D)의 이론적 배경을 고찰하고, 부산 온천천 유역의 침수 사상 모의를 통해 재현하여 국내 도시 유역에 대한 적용성을 검토하였다. 또한, Open Computing Language (OpenCL)와 Open Multi-Processing (OpenMP)과 같은 병렬계산(parallel computing)기술을 적용한 버전을 순차계산(sequential computing)결과와 비교하여 연산성능을 평가 하였다. 연구결과, WCA2D 모형에 의한 최대 침수심 분포는 과거침수 피해지도와 유사하게 모의되어, 복잡한 지형특성을 가지는 도시유역 침수의 시공간적 변화를 해석하기에 적절함을 확인하였다. 또한,병렬 계산 적용시 순차 계산 버전에 비해 OpenCL과 OpenMP는 약8배~14배, 5배~6배 연산 효율이 향상되어 효율적인 도시 침수 모의가 가능하였다.