• Title/Summary/Keyword: 모델 성능 평가

Search Result 3,558, Processing Time 0.036 seconds

Evaluation of Large Language Models' Korean-Text to SQL Capability (대형 언어 모델의 한국어 Text-to-SQL 변환 능력 평가)

  • Jooyoung Choi;Kyungkoo Min;Myoseop Sim;Haemin Jung;Minjun Park;Stanley Jungkyu Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.171-176
    • /
    • 2023
  • 최근 등장한 대규모 데이터로 사전학습된 자연어 생성 모델들은 대화 능력 및 코드 생성 태스크등에서 인상적인 성능을 보여주고 있어, 본 논문에서는 대형 언어 모델 (LLM)의 한국어 질문을 SQL 쿼리 (Text-to-SQL) 변환하는 성능을 평가하고자 한다. 먼저, 영어 Text-to-SQL 벤치마크 데이터셋을 활용하여 영어 질의문을 한국어 질의문으로 번역하여 한국어 Text-to-SQL 데이터셋으로 만들었다. 대형 생성형 모델 (GPT-3 davinci, GPT-3 turbo) 의 few-shot 세팅에서 성능 평가를 진행하며, fine-tuning 없이도 대형 언어 모델들의 경쟁력있는 한국어 Text-to-SQL 변환 성능을 확인한다. 또한, 에러 분석을 수행하여 한국어 문장을 데이터베이스 쿼리문으로 변환하는 과정에서 발생하는 다양한 문제와 프롬프트 기법을 활용한 가능한 해결책을 제시한다.

  • PDF

Performance Evaluation of the Model Predictive Control Logic Key Parameters for APR1400 (APR1400용 모델 예측 제어 로직에서의 주요 제어변수 변동에 따른 성능 평가)

  • Yang, Seung-Ok;Choi, Yu-Sun;Na, Man-Gyun
    • Proceedings of the KIEE Conference
    • /
    • 2008.10b
    • /
    • pp.411-412
    • /
    • 2008
  • 본 논문에서는 차세대원자로인 APR1400(Advanced Power Reactor 1400)의 출력제어방법으로 모델예측제어 알고리즘을 적용하고, 일일부하추종 운전을 하였을 때 최적의 제어기 구현을 위해 제어 로직의 주요 변수인 예측구간, 제어구간, 모델 차수의 변화에 따른 제어 성능을 평가하였다. 성능 평가는 원자로 출력제어 성능 검증시 사용하는 방법으로 제어대상인 차세대 원자로(APR1400)를 3차원 노심해석 전산코드인 MASTER(Multipurpose Analyzer for Static and Transient Effects of Reactor)로 시뮬레이션하여 제어 성능을 평가하였다.

  • PDF

맥동관형 크라이오 펌프 국산 시제품 성능예측과 평가

  • In, Sang-Ryeol;Tak, Yeong-Jun;Gang, Sang-Baek
    • Proceedings of the Korean Vacuum Society Conference
    • /
    • 2012.08a
    • /
    • pp.94-94
    • /
    • 2012
  • 맥동관형 크라이오펌프 개발 2단계를 맞아 우성진공(유)을 중심으로 상용화 시제품 제작이 진행되고 있다. 최종 크라이오 펌프 개발품은 흡기구 직경(내경) 16.5 (14) 인치에 질소 배기속도 3,600 L/s를 목표로 하고 있다. 상용품 완성 전에 거쳐야 할 필수적인 시험과정으로 시제품의 공정대응성 현장평가를 위해 KAIST 나노팹에 개발품을 투입하는 프로그램이 계획되어 있어서 공정장치에 장착할 수 있도록 10인치 크라이오 펌프 제작이 추가로 진행되고 있다. 개발품의 성능확인은 우선 몬테카를로 계산을 통해 배기속도를 예측하고 구조설계를 최적화했으며 이를 바탕으로 가공 조립된 크라이오펌프 시제품의 성능을 표준화된 장치에서 표준화된 절차를 통해 평가하여 설계 목표값과 비교했다. 한편 개발품의 성능 수준을 상대적으로 규정하기 위해 기존 상용품들을 같은 방식을 따라 평가하여 성능을 서로 비교하는 작업을 수행했다. 10인치 모델로는 국산 Genesis HPM200, CTI-8 수직형 및 수평형 GM 크라이오 펌프를 성능 시험했으며 16.5인치 개발품의 유사모델로 CTI-12 GM 크라이오 펌프를 시험해서 비교했다.

  • PDF

Fair Performance Evaluation Method for Stock Trend Prediction Models (주가 경향 예측 모델의 공정한 성능 평가 방법)

  • Lim, Chungsoo
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.10
    • /
    • pp.702-714
    • /
    • 2020
  • Stock investment is a personal investment technique that has gathered tremendous interest since the reduction in interest rates and tax exemption. However, it is risky especially for those who do not have expert knowledge on stock volatility. Therefore, it is well understood that accurate stock trend prediction can greatly help stock investment, giving birth to a volume of research work in the field. In order to compare different research works and to optimize hyper-parameters for prediction models, it is required to have an evaluation standard that can accurately assess performances of prediction models. However, little research has been done in the area, and conventionally used methods have been employed repeatedly without being rigorously validated. For this reason, we first analyze performance evaluation of stock trend prediction with respect to performance metrics and data composition, and propose a fair evaluation method based on prediction disparity ratio.

Performance of a Model to Predict Complication Occurance after Radical Gastrectomy according to Thresholds (임계값 설정을 통한 근치적 위절제술 후 합병증 발생 예측 모델의 성능 평가)

  • Su-Yeon Lim;Ja-Yun Choi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.687-689
    • /
    • 2024
  • 위암은 전 세계적인 주요 건강문제이며, 근치적 위절제술은 위암의 표준치료이다. 근치적 위절제술 후 치료목표는 합병증 발생을 낮춰 병전 상태로 빠르게 회복하는 데 있다. 따라서, 근치적 위절제술 후 합병증 발생 여부를 선별하여 예측할 수 있는 성능이 좋은 모델을 개발하는 것은 위암환자의 회복에 매우 중요하다. 랜덤포레스트 모델은 여러 개의 결정트리를 활용한 배깅 방식의 대표적인 알고리즘으로 의료 데이터를 기반으로 한 예측에 있어 뛰어난 성능을 보여 주었다. 그러나 실제 데이터는 불균형이 빈번하게 발생하여 모델의 예측 성능에 영향을 미치므로, 최적의 분류 임계값을 설정하여 다수 클래스에 대한 편향을 줄이는 것이 중요하다. 따라서, 본 연구는 최근 10년 간 일개 대학병원의 전자의무기록 데이터를 활용하여 근치적 위절제술 후 합병증 발생을 예측하는 랜덤포레스트 모델을 개발하고, 임계값 설정을 통해 불균형 데이터에 대한 모델의 성능을 평가하고자 한다.

Development of Two-Dimensional Near-field Integrated Performance Assessment Model for Near-surface LILW Disposal (중·저준위 방사성폐기물 천층처분시설 근계영역의 2차원 통합성능평가 모델 개발)

  • Bang, Je Heon;Park, Joo-Wan;Jung, Kang Il
    • Journal of Nuclear Fuel Cycle and Waste Technology(JNFCWT)
    • /
    • v.12 no.4
    • /
    • pp.315-334
    • /
    • 2014
  • Wolsong Low- and Intermediate-level radioactive waste (LILW) disposal center has two different types of disposal facilities and interacts with the neighboring Wolsong nuclear power plant. These situations impose a high level of complexity which requires in-depth understanding of phenomena in the safety assessment of the disposal facility. In this context, multidimensional radionuclide transport model and hydraulic performance assessment model should be developed to identify more realistic performance of the complex system and reduce unnecessary conservatism in the conventional performance assessment models developed for the $1^{st}$ stage underground disposal. In addition, the advanced performance assessment model is required to calculate many cases to treat uncertainties or study parameter importance. To fulfill the requirements, this study introduces the development of two-dimensional integrated near-field performance assessment model combining near-field hydraulic performance assessment model and radionuclide transport model for the $2^{nd}$ stage near-surface disposal. The hydraulic and radionuclide transport behaviors were evaluated by PORFLOW and GoldSim. GoldSim radionuclide transport model was verified through benchmark calculations with PORFLOW radionuclide transport model. GoldSim model was shown to be computationally efficient and provided the better understanding of the radionuclide transport behavior than conventional model.

Korean Commonsense Reasoning Evaluation for Large Language Models (거대언어모델을 위한 한국어 상식추론 기반 평가)

  • Jaehyung Seo;Chanjun Park;Hyeonseok Moon;Sugyeong Eo;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.162-167
    • /
    • 2023
  • 본 논문은 거대언어모델에 대한 한국어 상식추론 기반의 새로운 평가 방식을 제안한다. 제안하는 평가 방식은 한국어의 일반 상식을 기초로 삼으며, 이는 거대언어모델이 주어진 정보를 얼마나 잘 이해하고, 그에 부합하는 결과물을 생성할 수 있는지를 판단하기 위함이다. 기존의 한국어 상식추론 능력 평가로 사용하던 Korean-CommonGEN에서 언어 모델은 이미 높은 수준의 성능을 보이며, GPT-3와 같은 거대언어모델은 사람의 상한선을 넘어선 성능을 기록한다. 따라서, 기존의 평가 방식으로는 거대언어모델의 발전된 상식추론 능력을 정교하게 평가하기 어렵다. 더 나아가, 상식 추론 능력을 평가하는 과정에서 사회적 편견이나 환각 현상을 충분히 고려하지 못하고 있다. 본 연구의 평가 방법은 거대언어모델이 야기하는 문제점을 반영하여, 다가오는 거대언어모델 시대에 한국어 자연어 처리 연구가 지속적으로 발전할 수 있도록 하는 상식추론 벤치마크 구성 방식을 새롭게 제시한다.

  • PDF

Korean ELECTRA for Natural Language Processing Downstream Tasks (한국어 ELECTRA 모델을 이용한 자연어처리 다운스트림 태스크)

  • Whang, Taesun;Kim, Jungwook;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.257-260
    • /
    • 2020
  • 사전 학습을 기반으로 하는 BERT계열의 모델들이 다양한 언어 및 자연어 처리 태스크들에서 뛰어난 성능을 보이고 있지만, masked language model의 경우 입력 문장의 15%만 마스킹을 함으로써 학습 효율이 떨어지고 미세 조정 시 마스킹 토큰이 등장하지 않는 불일치 문제도 존재한다. 이러한 문제를 효과적으로 해결한 ELECTRA는 영어 벤치마크에서 기존의 언어모델들 보다 뛰어난 성능을 보여주었지만 한국어에 대한 관련 연구는 부족한 실정이다. 본 연구에서는 ELECTRA를 한국어 코퍼스에 대해 학습시키고, 다양한 한국어 자연어 이해 태스크들에 대해 실험을 진행한다. 실험을 통해 ELECTRA의 모델 크기별 성능 평가를 진행하였고, 여러 한국어 태스크들에 대해서 평가함으로써 ELECTRA 모델이 기존의 언어 모델들보다 좋은 성능을 보인다는 것을 입증하였다.

  • PDF

AHP Based-Optimal Selection of Concrete Patching Repair Materials Considering Qualitative Evaluation Criteria (정성적 평가항목을 고려한 콘크리트 보수용 단면복구재료의 AHP 기반 최적선정 모델링)

  • Do, Jeong-Yun;Song, Hun;Soh, Yang-Seob
    • Proceedings of the Korea Concrete Institute Conference
    • /
    • 2008.04a
    • /
    • pp.965-968
    • /
    • 2008
  • This study is interested in modeling the selection of optimal repair materials in view of the qualitative evaluation. In order to architecting the evaluation model of various repair alternatives, Analytical hierarchy process techniques was applied to this study. It is composed of aesthetics, easy-to-application, economical efficiency, and environment-friendly properties in upper level. Among the qualitative evaluation items, Environment-friendly properties and execution cost included in economical efficiency is highly weighted. It was concluded that the evaluation model by this study is very useful to choose the best alternative among various repair materials.

  • PDF

Performance comparative evaluation of Two-level skip connection for nested U-Net-based noise cancellation (Nested U-Net 기반 잡음 제거를 위한 two-level skip connection 제안 및 성능 비교 평가)

  • Hwang, Seorim;Byun, Joon;Heo, Junyeong;Cha, Jaebin;Park, Youngcheol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.228-230
    • /
    • 2022
  • 본 논문은 최근 잡음 제거에서 우수한 성능을 보인 Nested U-Net의 성능을 최적화하기 위하여 두 단계로 이루어진 two-level skip connection (TLS)을 제안하였다. 이때, 인코더와 디코더의 경로를 다르게 하여 다양한 형태의 TLS을 제안하고 각 형태의 성능을 비교 평가하였다. 또한, 가장 좋은 성능을 보인 두 개의 경로를 조합하여 최종 Nested U-Net 기반 모델을 제안하였다. 제안된 모델은 다른 잡음 제거 모델과 비교하여 객관적인 평가 지표에서 매우 우수한 성능을 보인다.

  • PDF