• 제목/요약/키워드: 데이터 분석론

검색결과 1,370건 처리시간 0.027초

Cross-lingual Post-Training (XPT)을 통한 한국어 언어모델 구축 및 비교 실험 (Korean language model construction and comparative analysis with Cross-lingual Post-Training (XPT))

  • 손수현;박찬준;이정섭;심미단;이승현;이진우;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.295-299
    • /
    • 2022
  • 자원이 부족한 언어 환경에서 사전학습 언어모델 학습을 위한 대용량의 코퍼스를 구축하는데는 한계가 존재한다. 본 논문은 이러한 한계를 극복할 수 있는 Cross-lingual Post-Training (XPT) 방법론을 적용하여 비교적 자원이 부족한 한국어에서 해당 방법론의 효율성을 분석한다. 적은 양의 한국어 코퍼스인 400K와 4M만을 사용하여 다양한 한국어 사전학습 모델 (KLUE-BERT, KLUE-RoBERTa, Albert-kor)과 mBERT와 전반적인 성능 비교 및 분석 연구를 진행한다. 한국어의 대표적인 벤치마크 데이터셋인 KLUE 벤치마크를 사용하여 한국어 하위태스크에 대한 성능평가를 진행하며, 총 7가지의 태스크 중에서 5가지의 태스크에서 XPT-4M 모델이 기존 한국어 언어모델과의 비교에서 가장 우수한 혹은 두번째로 우수한 성능을 보인다. 이를 통해 XPT가 훨씬 더 많은 데이터로 훈련된 한국어 언어모델과 유사한 성능을 보일 뿐 아니라 학습과정이 매우 효율적임을 보인다.

  • PDF

RAID 시스템의 성능 평가 (A Performance Evaluation of a RAID System)

  • 이찬수;성영락;오하령
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 2002년도 춘계학술대회논문집
    • /
    • pp.81-87
    • /
    • 2002
  • 본 논문은 RAID 시스템의 몇 가지 구성에 대해 시뮬레이션을 통해 그 성능을 분석한다. 대용량의 RAID를 구성하기 위해서는 다수의 디스크가 필요한데 반해, 하나의 PCI의 버스에 연결될 수 있는 장치의 개수 제한되어 있어 이 경우 확장 PCI 버스가 필요하다. 본 논문에서는 RAID 시스템의 하드웨어 구조, 특히 각 구성요소를 연결하는 PCI버스의 부하에 초점을 맞춘다. 버스 트랜잭션을 세 가지로 분류하고, 각각의 경우를 분석하고 평가한다. 이 분석으로부터 RAID 시스템의 두 가지 구조에 대해 성능을 계산하고 시뮬레이션 한 결과를 비교한다.

  • PDF

수익률 측정 통계량에 따른 네트워크 형태의 차이에 관한 연구 (Study on the Differences in Yield Network Structures)

  • 최인수;김우창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.522-523
    • /
    • 2024
  • 상호의존성을 검증하기 위해 통계적 측정치를 사용한 심층 분석을 통해 섹터 기반 상장지수펀드를 중심으로 금융 네트워크의 불일치를 분석한다. 최소 스패닝 트리, p 값 기반 네트워크와 같은 방법론을 채택하여 가격 기반 불일치를 조사하여 금융 데이터 내의 기본 네트워크 구조를 파악합니다. 우리의 주요 기여는 다양한 측정치와 네트워크 분석을 사용하여 금융 시장에 대한 다양한 통찰력을 제공하는 방법을 보여주는 것이다.

요구사항의 추적성 향상을 위한 데이터 분석 및 의사결정 방법론 (A Data Analysis and Decision-Making Methodology for an Advanced Traceability of Requirements Engineering)

  • 박희성;김호동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1283-1284
    • /
    • 2011
  • 요구공학에서 추적성은 최상위 설계요건과 하부 컴포넌트 설계도면과의 논리적인 연관성을 극명하게 나타내는 지표이다. 핵연료주기 시설인 파이로 시스템의 신뢰성을 증진시키기 위해 데이터 분석 및 의사결정 방법을 제안한다. 샘플 데이터를 입력하여 실험한 결과 파이로시스템의 최상위 설계요건부터 컴포넌트 설계도면까지 요구사항을 충족시킴으로써 추적성의 논리근거를 마련하였다.

Semi-supervised learning 기법을 활용한 병리학 이미지 분석 (Semi-Supervised Learning for Pathological Image Analysis)

  • 이유진;박지영;이상민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.675-677
    • /
    • 2023
  • 본 연구는 병리학 이미지 분석에서 자주 발생하는 문제 중 하나인 레이블링 불일치 문제를 해결하고자 준지도학습(semi-supervised learning) 기법을 적용하였다. 기존의 병리 진단 과정은 정확한 판정 및 치료를 위해 전문가의 판단을 필요로 한다. 이로 인해, 시간이 매우 많이 소모되며 전문가의 피로도가 증가한다. 최근 이를 해결하고자 지도학습(supervised learning) 기법을 사용하여 업무의 피로도를 감소시키고자 하는 연구가 진행되고 있다. 하지만 병리 이미지 데이터에 대한 접근이 어렵고, 병변의 위치를 레이블링 하는 부분에서 많은 비용이 발생한다. 또한 암 병변의 스펙트럼적 특성으로 인해 레이블링 과정 속에서 레이블링 불일치 문제가 발생할 가능성이 높다. 이러한 문제를 극복하기 위해, 우리는 제한된 레이블 된 데이터와 많은 양의 레이블 되지 않은 데이터를 활용하는 준지도학습 방법론을 제안한다. 이 제안하는 방법은 필요한 수동 레이블링 작업량을 줄여, 병리학자들에게 보다 효과적인 진단 도구를 제공할 것으로 예상된다.

전자정부 G2B 시스템의 성과평가 분석을 위한 새로운 평가 모델 및 방법론 개발 (Development of a new Model and Methodology for the Analysis of the Performance Evaluation of G2B Systems in e-government: EEM)

  • 임규건;이재규;이대철
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.269-289
    • /
    • 2008
  • 전자정부 정보화 사업과 같은 규모와 그 범위가 거대하며, 한번에 모든 기존의 오프라인 프로세스가 온라인화 되지 않고 수년간에 걸쳐 그 효과가 나타나는 시스템의 파급효과에 대한 예측은 무척 난해한 문제이다. 이러한 e-transformation이 이루어지는 경우에는 지속적으로 모델의 수정 및 보완작업이 함께 이루어져야 한다. 이에 본 연구에서는 전자정부 정보화사업 중 하나인 G2B 시스템의 효과평가를 위해 EEM (E-transformation Evaluation Model)으로 명명한 새로운 모델과 평가방법론을 제시하고자한다. EEM 모델은 G2B 시스템으로 인해 e-transformation화된 업무프로세스 영역(온라인 영역)의 효과를 화폐가치로 산출하는 정량평가 모델이다. 또한 아직 G2B 시스템이 적응되지 않은 업무프로세스 영역(오프라인 영역)을 정보화시켰을 때 예상되는 효과를 함께 추정할 수 있도록 해준다. EEM 모델에서는 기준모델, 검증모델, 예측모델을 설정하고, 평가년도, 측정영역, 데이터종류에 따라 설문데이터와 DB 데이터를 함께 활용하여 모델을 검증하며 효과를 예측한다. 본 연구에서는 온라인과 오프라인 효과를 효과적으로 평가하기 위해 5단계와 10개의 세부절차로 구성된 EEM평가방법론을 제시하였다. 또한 제시된 방법론을 활용하여 대한민국 전자조달 G2B 시스템에 대해서 평가분석을 실시하였다. 본 연구에서 제시된 EEM 모델과 평가방볍론은 평가대상에 따라 다각적인 적응이 가능하므로 향후 전자정부 정보화사업의 효과평가와 정책수립에 도움이 될 것으로 기대된다. 뿐만 아니라 민간기업의 대형시스템 도입 효과평가에도 도움이 될 것으로 사료된다.

다변량 통계기법을 활용한 데이터기반 실시간 진단 (Data-based On-line Diagnosis Using Multivariate Statistical Techniques)

  • 조현우
    • 한국산학기술학회논문지
    • /
    • 제17권1호
    • /
    • pp.538-543
    • /
    • 2016
  • 고품질의 제품과 조업 안전을 확보하기 위해서는 적절한 실시간 공정 감시 및 진단 시스템이 설치되어있는 것이 무엇보다 중요하다. 공정 감시 시스템과 결합된 신뢰도 높은 진단 시스템은 공정에서 발생한 특별한 사건이나 사고의 근본적인 원인과 공정 변수를 알려준다. 본 연구에서는 다변량 통계 분석과 분류기법에 기반한 공정진단 체계를 제시한다. 이 진단시스템은 비선형 데이터 표현과 필터링을 통한 지능적 데이터 표현으로 구성되어 있다. 진단 성능을 평가하기 위해 사례연구를 수행하였으며 다른 방법론과의 결과를 비교하기 위하여 진단 결과와 미래값 추정 방법을 평가하였다. 그 결과 본 연구에서 비교된 진단 방법론들에 비해 신뢰도 높은 진단 결과를 얻을 수 있었다.

이벤트 기반의 효율적인 클래스 식별 (Efficient Class Identification based on Event)

  • 최미숙;이종석
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권2호
    • /
    • pp.165-175
    • /
    • 2008
  • 현재 소프트웨어 개발을 위한 방법론은 객체지향에서 컴포넌트지향으로 컴포넌트지향에서 서비스지향 발전되어 오고 있다. 컴포넌트지향 개발 방법과 서비스지향 개발 방법들은 객체지향 UML 모델을 기반으로 분석되어지므로 효율적인 객체지향 분석 방법이 필요하다. 따라서 본 논문에서는 UML 기반의 클래스 식별 및 유스케이스 모델링이 개발자의 직관과 경험에 의존하는 문제점을 보완하여 입력 데이터-처리 프로세스-출력 데이터를 사용한이벤트 기반의 유스케이스 및 클래스 분석 가이드라인과 분석 프로세스를 제안 한다.

  • PDF

BERT을 이용한 한국어 문장의 스타일 변화 (Controlled Korean Style Transfer using BERT)

  • 이주성;오연택;변현진;민경구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.395-399
    • /
    • 2019
  • 생성 모델은 최근 단순히 기존 데이터를 증강 시키는 것이 아니라 원하는 속성을 가지도록 스타일을 변화시키는 연구가 활발히 진행되고 있다. 스타일 변화 연구에서 필요한 병렬 데이터 세트는 구축하는데 많은 비용이 들기 때문에 비병렬 데이터를 이용하는 연구가 주를 이루고 있다. 이러한 방법론으로 이미지 분야에서 대표적으로 cycleGAN[1]이 있으며 최근 자연어 처리 분야에서도 많은 연구가 진행되고 있다. 많은 논문들이 사용하는 데이터도메인은 긍정 문장과 부정 문장 사이를 변화시키는 것이다. 본 연구에서는 한국어 영화리뷰 데이터 세트인 NSMC[2]를 이용한 감성 변화를 하는 문장생성에 대한 연구로 자연어 처리에서 좋은 성능을 보여주는 BERT[8]를 생성모델에 이용하였다.

  • PDF

얼굴 표정 데이터의 최적의 가시화를 위한 선형 및 비선형 투영 기법의 비교 분석 (Comparative Analysis of Linear and Nonlinear Projection Techniques for the Best Visualization of Facial Expression Data)

  • 김성호
    • 한국콘텐츠학회논문지
    • /
    • 제9권9호
    • /
    • pp.97-104
    • /
    • 2009
  • 본 논문은 고차원 얼굴 모션 캡처 데이터를 선형 및 비선형 투영 기법에 각각 적용하고, 이를 2차원 평면으로 투영하기 위한 최적의 방법론에 대한 것이다. 본 방법의 핵심 요소는 프레임 단위의 고차원 얼굴 표정 데이터를 선형 투영 기법인 PCA와 비선형 투영 기법인 Isomap, MDS, CCA, Sammon's Mapping, LLE 등에 적용하고 이를 저차원 공간에 분포시키는 방법론 및 그 결과를 비교 분석하는 것이다. 이를 위해서는 먼저 기존의 고차원 얼굴 표정 프레임 데이터들 사이의 거리를 구하고, 선형 및 비선형 투영 기법들을 적용한 상태에서 기존의 데이터들 사이의 거리 관계를 유지하면서 저차원인 2차원 평면 공간에 분포시키는 것이다. 그리고 2차원 공간에 분포된 얼굴 표정 데이터가 원형 데이터와 비교 했을 때, 최적의 상태로 프레임 데이터들 사이의 거리 관계를 유지하고 있는 투영 기법을 찾는다. 결국 본 논문에서는 고차원 얼굴 표정 데이터를 저차원 공간에 투영하기 위한 선형 및 비선형 투영 기법들을 비교 분석하고, 각각에서 최적의 투영 기법을 찾아낸다.