• 제목/요약/키워드: Dataset Generation

검색결과 196건 처리시간 0.02초

사립대학 행정정보 데이터세트 운영 개선 방안 (A Study on the Improvement of Administrative Information Data Set Operation of Private Universities)

  • 김현정;배성중
    • 기록학연구
    • /
    • 제74호
    • /
    • pp.187-222
    • /
    • 2022
  • 본 연구의 목적은 사립대학의 행정정보 데이터세트 운영 현황을 분석하고 개선방안을 제시하는 것이다. 이를 위해 사립대학 178개교의 총 820개 시스템에 대해 시스템의 기능, 개발 유형, 데이터의 생성·정정·삭제 시기 등의 정량적인 분석을 실시하였다. 분석 결과, 통상 1개이상의 행정정보시스템을 보유하고 학사관리시스템을 공통적으로 사용하고 있으며 대학의 인프라를 통해 시스템을 자체적으로 개발한 사례가 많고 데이터를 수시로 생성하고 정정하며 업무담당자에 의해 데이터가 삭제되고 있으나 데이터의 삭제나 정정에 대한 규정은 명확하지 않다는 문제점이 도출되었다. 이러한 문제점들을 해결하기 위한 개선 방안으로 범정부 EA포털을 현행화하여 사립대학의 행정정보시스템에 대한 보유 현황을 제대로 파악하고, 데이터의 정정이 이루어지지 않는 시스템을 중심으로 기록관리하며 데이터의 임의 삭제가 이루어지지 않도록 내부 규정의 개정과 교육을 실시할 것 등을 제안하였다.

A Study on Conversational AI Agent based on Continual Learning

  • Chae-Lim, Park;So-Yeop, Yoo;Ok-Ran, Jeong
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권1호
    • /
    • pp.27-38
    • /
    • 2023
  • 본 논문에서는 시간의 흐름에 따라 새로운 데이터를 지속적으로 학습하고 성장할 수 있는 연속 학습 기반 대화형 AI 에이전트를 제안한다. 연속학습 기반 대화형 AI 에이전트는 태스크 관리자 (Task Manager), 사용자 속성 추출(User Attribute Extraction), 자동 확장 지식 그래프(Auto-growing Knowledge Graph), 크게 3가지 요소로 구성된다. 태스크 관리자는 사용자와의 대화에서 새로운 데이터를 발견하면 이전에 학습한 지식을 통해 새로운 태스크를 생성한다. 사용자 특성 추출 모델은 새로운 태스크에서 사용자의 특성을 추출하고, 자동 확장 지식 그래프는 새로운 외부 지식을 지속적으로 학습할 수 있도록 한다. 한정된 데이터셋을 기반으로 학습된 기존 대화형 AI 에이전트와 달리, 본 논문에서 제안하는 방법은 지속적인 사용자의 특성과 지식 학습을 기반으로 대화를 가능하게 한다. 연속학습 기술이 적용된 대화형 AI 에이전트는 사용자와의 대화가 축적될수록 개인 맞춤형 대응이 가능하며, 새로운 지식에도 대응이 가능하다. 본 논문에서는 시간에 따른 대화 생성 모델의 성능 변화 실험을 통해 제안하는 방법의 가능성을 검증한다.

Text summarization of dialogue based on BERT

  • Nam, Wongyung;Lee, Jisoo;Jang, Beakcheol
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.41-47
    • /
    • 2022
  • 본 연구는 일목요연하게 정리되지 않은 구어체(대화)에 대한 텍스트 자동 요약 모델을 적용시키는 방법을 제안한다. 본 연구에서는 구어체 데이터인 SAMSum 데이터를 활용하였고, 선행연구에서 문어체 데이터 텍스트 자동 요약 모델 연구에서 제안한 BERTSumExtAbs 모델을 적용하였다. SAMSum 데이터셋은 70% 이상은 두 사람 간 대화, 나머지 약 30%는 세 사람 이상 간 대화로 구성되어 있다. 본 논문에서는 텍스트 자동 요약 모델을 구어체 데이터에 적용하여, ROUGE Score R-1 부문에서 42.43 이상의 결과를 도출해내었다. 또한, 텍스트 요약 모델로 기존에 제안된 모델인 BERTSum 모델을 fine-tuning하여, 45.81의 높은 점수를 도출했다. 본 연구를 통하여 구어체 데이터에 대한 텍스트 생성 요약의 성능을 입증하였으며, 앞으로 사람의 자연어를 있는 그대로 컴퓨터가 이해하여 다양한 task를 해결하는 데 기초 자료로 활용되길 바란다.

GAN 기반 의료영상 생성 모델에 대한 품질 및 다양성 평가 및 분석 (Assessment and Analysis of Fidelity and Diversity for GAN-based Medical Image Generative Model)

  • 장유진;유재준;홍헬렌
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권2호
    • /
    • pp.11-19
    • /
    • 2022
  • 최근 의료영상의 발전에 따라 의료 영상 생성에 대한 다양한 연구가 제안되고 있는데, 이와 관련하여 생성된 의료 영상의 품질과 다양성을 정확하게 평가하는 것이 중요해지고 있다. 생성된 의료 영상을 평가하는 방법으로는 전문가의 시각적 튜링 테스트(visual turing test), 특징 분포 시각화, IS, FID를 통한 정량적 평가를 통해 평가하고 있으나 의료 영상을 품질(fidelity)과 다양성(diversity) 측면에서 정량적으로 평가 하는 방법은 거의 이루어지고 있지 않다. 본 논문에서는 DCGAN과 PGGAN 생성 모델을 통해 비소세포폐암 환자의 흉부 CT 데이터 셋을 학습하여 영상을 생성하고, 이를 품질(fidelity)과 다양성(diversity) 측면에서 두 생성 모델의 성능을 평가한다. 1차원 점수 기반 평가방법인 IS, FID와 2차원 점수 기반 평가방법인 Precision 및 Recall, 개선된 Precision 및 Recall을 통해 성능을 정량적으로 평가하고, 의료영상에서의 각 평가방법들의 특징과 한계점에 대해서도 분석한다.

실시간 SAR 영상 생성을 위한 Range Doppler Algorithm의 GPU 가속 (GPU Acceleration of Range Doppler Algorithm for Real-Time SAR Image Generation)

  • 정동민;이우경;이명진;정윤호
    • 전기전자학회논문지
    • /
    • 제27권3호
    • /
    • pp.265-272
    • /
    • 2023
  • 본 논문에서는 FMCW(Frequency Modulated Continuous Wave) SAR(Synthetic Aperture Radar) 기반 실시간 영상 형성을 위해 RDA(Range Doppler Algorithm)의 GPU 가속 커널을 개발하였다. Host와 GPU device 사이의 데이터 전송 시간을 최소화하기 위해 pinned 메모리를 사용하였고, 데이터의 전송 횟수를 최소화하기 위해 모든 RDA 연산을 GPU에서 수행하도록 커널을 구성하였다. FMCW 드론 SAR 실험을 통해 데이터셋를 획득하였고, intel i7-9700K CPU, 32GB RAM과 Nvidia RTX 3090 GPU 환경에서 GPU의 가속 효과를 측정하였다. Host-device간 데이터 전송 시간을 포함했을 경우 CPU 대비 최대 3.41배 가속된 것으로 측정되었고, 데이터 전송 시간을 포함하지 않고 연산의 가속 효과만을 측정했을 때, 최대 156배 가속 가능함을 확인할 수 있었다.

자율주행을 위한 Self-Attention 기반 비지도 단안 카메라 영상 깊이 추정 (Unsupervised Monocular Depth Estimation Using Self-Attention for Autonomous Driving)

  • 황승준;박성준;백중환
    • 한국항행학회논문지
    • /
    • 제27권2호
    • /
    • pp.182-189
    • /
    • 2023
  • 깊이 추정은 차량, 로봇, 드론의 자율주행을 위한 3차원 지도 생성의 핵심 기술이다. 기존의 센서 기반 깊이 추정 방식은 정확도는 높지만 가격이 비싸고 해상도가 낮다. 반면 카메라 기반 깊이 추정 방식은 해상도가 높고 가격이 저렴하지만 정확도가 낮다. 본 연구에서는 무인항공기 카메라의 깊이 추정 성능 향상을 위해 Self-Attention 기반의 비지도 단안 카메라 영상 깊이 추정을 제안한다. 네트워크에 Self-Attention 연산을 적용하여 전역 특징 추출 성능을 향상시킨다. 또한 카메라 파라미터를 학습하는 네트워크를 추가하여 카메라 칼리브레이션이 안되어있는 이미지 데이터에서도 사용 가능하게 한다. 공간 데이터 생성을 위해 추정된 깊이와 카메라 포즈는 카메라 파라미터를 이용하여 포인트 클라우드로 변환되고, 포인트 클라우드는 Octree 구조의 점유 그리드를 사용하여 3D 맵으로 매핑된다. 제안된 네트워크는 합성 이미지와 Mid-Air 데이터 세트의 깊이 시퀀스를 사용하여 평가된다. 제안하는 네트워크는 이전 연구에 비해 7.69% 더 낮은 오류 값을 보여주었다.

오류 유형에 따른 생성요약 모델의 본문-요약문 간 요약 성능평가 비교 (Empirical Study for Automatic Evaluation of Abstractive Summarization by Error-Types)

  • 이승수;강상우
    • 인지과학
    • /
    • 제34권3호
    • /
    • pp.197-226
    • /
    • 2023
  • 텍스트 생성요약은 자연어처리의 과업 중 하나로 긴 텍스트의 내용을 보존하면서 짧게 축약된 요약문을 생성한다. 생성요약 과업의 특성 상 본문의 핵심내용을 요약문에서 보존하는 것은 매우 중요하다. 기존의 생성요약 방법론은 정답요약과의 어휘 중첩도(Lexical-Overlap)를 기반으로 본문의 내용과 유창성을 측정했다. ROUGE는 생성요약 요약모델의 평가지표로 많이 사용하는 어휘 중첩도 기반의 평가지표이다. 생성요약 벤치마크에서 ROUGE가 49점대로 매우 높은 성능을 보임에도 불구하고, 생성한 요약문과 본문의 내용이 불일치하는 경우가 30% 가량 존재한다. 본 연구에서는 정답요약의 도움 없이 본문만을 활용해 생성요약 모델의 성능을 평가하는 방법론을 제안한다. 본 연구에서 제안한 평가점수를 AggreFACT의 라벨과 상관도 분석결과, 다음의 두 가지 경우 가장 높은 상관관계를 보였다. 첫 번째는 Transformer 구조의 인코더-디코더 구조에 대규모 사전학습을 진행한 BART와 PEGASUS 등을 생성요약 모델의 베이스라인으로 사용한 경우이고, 두 번째는 요약문 전체에 걸쳐 오류가 발생한 경우이다.

풍력터빈 상태진단에 적용된 다양한 신경망 모델의 유효성 비교 (Comparison of the effectiveness of various neural network models applied to wind turbine condition diagnosis)

  • 응고만투안;김창현;딘민차우;박민원
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.77-87
    • /
    • 2023
  • 재생 에너지 생성에서 중요한 역할을 하는 풍력 터빈은 작동 상태를 정확하게 평가하는 것이 에너지 생산을 극대화하고 가동 중지 시간을 최소화하는 데 매우 중요하다. 이 연구는 풍력 터빈 상태 진단을 위한 다양한 신경망 모델의 비교 분석을 수행하고 센서 측정 및 과거 터빈 데이터가 포함된 데이터 세트를 사용하여 효율성을 평가하였다. 분석을 위해 2MW 이중 여자 유도 발전기 기반 풍력 터빈 시스템(모델 HQ2000)에서 수집된 감시 제어 및 데이터 수집 데이터를 활용했다. 활성화함수, 은닉층 등을 고려하여 인공신경망, 장단기기억, 순환신경망 등 다양한 신경망 모델을 구축하였다. 대칭 평균 절대 백분율 오류는 모델의 성능을 평가하는 데 사용되었다. 평가를 바탕으로 풍력 터빈 상태 진단을 위한 신경망 모델의 상대적 효율성에 관한 결론이 도출되었다. 본 연구결과는 풍력발전기의 상태진단을 위한 모델선정의 길잡이가 되며, 고도의 신경망 기반 기법을 통한 신뢰성 및 효율성 향상에 기여하고, 향후 관련연구의 방향을 제시하는데 기여한다.

Sequence-to-sequence 학습을 이용한 한국어 약어 생성 (Korean Abbreviation Generation using Sequence to Sequence Learning)

  • 최수정;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.183-187
    • /
    • 2017
  • 스마트폰 사용자들은 텍스트를 쉽게 읽고 빠르게 입력하기를 원한다. 이런 흐름에 따라 사용자들은 채팅 용어에서부터 전문 분야, 뉴스 기사에 이르기까지 여러 단어로 이루어진 어휘를 축약한 약어를 많이 사용한다. 그러므로 약어를 모아 데이터를 구축한다면 정보 검색과 추천 시스템 등에 유용하게 사용될 수 있다. 하지만 약어는 새로운 콘텐츠가 등장할 때마다 계속해서 생겨나기 때문에 수동으로 모으는 일은 쉽지 않으므로, 약어를 자동으로 생성하는 방법이 필요하다. 기존 연구들은 약어를 자동으로 생성하기 위해 규칙 기반 방법을 사용하였으나, 불규칙한 약어들은 생성할 수 없다는 한계점이 있다. 또한 규칙에 의해 생성된 후보 약어들 중에서 올바른 약어를 결정해야하는 문제도 발생한다. 따라서 본 논문에서는 이런 한계점을 극복하기 위해 시퀀스 투 시퀀스 학습 방법을 사용하여 약어를 자동으로 생성한다. 시퀀스투 시퀀스 학습 방법은 심층 신경망으로 기존의 규칙 기반 방법으로 생성할 수 없던 불규칙한 약어들을 생성할 수 있다. 게다가 후보 약어들 중 올바른 약어를 결정할 문제가 발생하지 않기 때문에 자동으로 약어를 생성하는 문제에 적합하다. 본 논문에서는 제안한 방법을 평가한 결과, 기존의 연구에서 생성할 수 없던 불규칙적인 약어를 생성하여 제안한 모델이 효과적임을 증명하였다.

브릭 정점을 이용한 GPU 기반 볼륨 광선투사법 가속화 (Accelerating GPU-based Volume Ray-casting Using Brick Vertex)

  • 채수평;신병석
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제17권3호
    • /
    • pp.1-7
    • /
    • 2011
  • 최근에 GPU 기반의 볼륨 광선 투사법을 가속화하는 기법들이 많이 연구되고 있다. 하지만 이런 기법들은 CPU-GPU간 데이터 전송 시 병목 현상을 야기하고 계층구조를 표현하기 위한 추가적인 GPU 메모리 공간이 필요할 뿐만 아니라 불투명도 전이 함수가 변경되었을 때 실시간에 대응하지 못하는 문제점들이 발생할 수 있다. 본 논문에서는 이러한 문제점들을 해결하기 위해 GPU 기반의 효율적인 빈 공간 도약 기법을 제안한다. 브릭(brick) 안에 포함되는 복셀들의 최대 밀도 값을 하나의 정점에 저장하고 불투명도 전이 함수에 의하여 투명하다고 판별된 정점들을 기하 쉐이더에서 삭제한다. 이 정점들을 랜더링 시간에 기하 쉐이더의 입력 값으로 사용해 투명하지 않은 영역의 바운딩 박스를 만들어 광선이 효과적으로 진행하도록 한다. 생성된 정점들은 렌더링 중에 시점의 변화에 무관하게 사용할 수 있지만 불투명도 전이 함수가 변경되면 투명하지 않은 정점들을 다시 생성해야 한다. 이는 기하 쉐이더를 통해서 GPU 안에서 고속으로 생성되기 때문에 대화식 처리가 가능하다. 제안하는 방법은 기존 광선 투사법의 결과와 동일한 영상을 생성하며 렌더링 속도는 기존의 방법에 비해 최대 10배 이상 향상되었다.