• Title/Summary/Keyword: 모델 성능 평가

Search Result 3,558, Processing Time 0.034 seconds

A Study on Proficiency in Solving Riddles of Large Language Model (초거대 언어모델의 재치에 관한 고찰: 수수께끼 해결 능력을 중심으로)

  • Sugyeong Eo;Chanjun Park;Hyeonseok Moon;Jaehyung Seo;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.25-30
    • /
    • 2023
  • 초거대 언어모델은 과연 수수께끼 문제에 재치있는 답변을 할 수 있을까? 최근 초거대 언어모델(Large language model, LLM)은 강력한 성능 및 유저 만족도를 보이며 세계의 이목을 집중시키고 있다. 여러 태스크들에 대한 정량 평가를 넘어서 최근에는 LLM의 창의력 및 고도화된 언어능력을 평가하는 연구들이 등장하고 있다. 본 논문에서는 이러한 연구 흐름에 따라 LLM의 재치에 관해 고찰해본다. 이때 재치를 평가하기 위한 태스크로 이를 요구하는 말놀이인 수수께끼를 활용한다. 본 논문은 LLM이 수수께끼를 잘 수행하는지를 모델 추론을 통해 평가하며, 모델 추론 시 활용되는 프롬프트들의 성격에 따른 성능 변화를 관찰한다. 또한 수수께끼의 종류에 따른 모델의 능력을 비교 분석하며 LLM의 추론 결과에 대한 오류 분석을 수행한다. 본 논문은 실험을 통해 GPT-4가 가장 높은 성능을 보이며, 설명글이나 데이터 예시를 추가할 시 성능을 한층 더 향상시킬 수 있음을 확인한다. 또한 단어 기반보다는 특성 기반의 수수께끼에 더욱 강력한 성능을 보이며, 오류 유형 분석을 통해 LLM이 환각(hallucination) 문제와 창의력을 동시에 가지고 있다고 분석한다.

  • PDF

Evaluation and Analysis of Gwangwon-do Landslide Susceptibility Using Logistic Regression (로지스틱 회귀분석 기법을 이용한 강원도 산사태 취약성 평가 및 분석)

  • Yeon, Young-Kwang
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.14 no.4
    • /
    • pp.116-127
    • /
    • 2011
  • This study conducted landslide susceptibility analysis using logistic regression. The performance of prediction model needs to be evaluated considering two aspects such as a goodness of fit and a prediction accuracy. Thus to gain more objective prediction results in this study, the prediction performance of the applied model was evaluated considering two such evaluation aspects. The selected study area is located between Inje-eup and Buk-myeon in the middle of Kwangwon. Landslides in the study area were caused by heavy rain in 2006. Landslide causal factors were extracted from topographic map, forest map and soil map. The evaluation of prediction model was assessed based on the area under the curve of the cumulative gain chart. From the results of experiments, 87.9% in the goodness of fit and 84.8% in the cross validation were evaluated, showing good prediction accuracies and not big difference between the results of the two evaluation methods. The results can be interpreted in terms of the use of environmental factors which are highly related to landslide occurrences and the accuracy of the prediction model.

Pan evaporation modeling using multivariate adaptive regression splines (다변량 적응 회귀 스플라인을 이용한 증발접시 증발량 모델링)

  • Seo, Youngmin;Kim, Sungwon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.351-354
    • /
    • 2018
  • 본 연구에서는 일 증발접시 증발량 모델링을 위한 다변량 적응 회귀 스플라인 (multivariate adaptive regression splines, MARS) 모델의 성능을 평가하였다. 모델 입력변수 집합은 부산 관측소 (기상청)로부터 수집된 기상자료를 활용하여 증발접시 증발량과의 상관성이 높은 변수들의 조합으로 구성되었으며, 일사량, 일조시간, 평균지상온도, 최대기온의 조합으로 구성된 세 가지 입력집합이 결정되었다. MARS 모델의 성능은 네 가지의 모델성능평가지표를 활용하여 정량적으로 산출되었으며, 그 결과를 인공신경망 (artificial neural network, ANN) 모델과 비교하였다. 입력변수로서 일사량 및 일조시간을 가지는 Set 1의 경우 MARS1 모델이 ANN1 모델보다 우수한 성능을 나타내었으며, Set 2 (일사량, 일조시간, 평균지상온도)의 경우 ANN2 모델, Set 3 (일사량, 일조시간, 평균지상온도, 최대기온)의 경우 MARS3 모델이 상대적으로 우수한 모델 성능을 나타내었다. 모든 분석 모델들을 비교하였을 때, MARS3, ANN2, ANN3, MARS2, MARS1, ANN1 모델의 순서로 우수한 모델 성능을 나타내었으며, 특히 MARS3 모델은 CE = 0.790, $r^2=0.800$, RMSE = 0.762, MAE = 0.587로서 가장 우수한 일 증발접시 증발량 모델링 성능을 나타내었다. 따라서 본 연구에서 적용한 MARS 모델은 지상관측 기상자료를 활용한 일 증발접시 증발량 모델링에서 효과적인 대안이 될 수 있을 것으로 판단된다.

  • PDF

태양광발전소 현장 진단평가 기술: 발전량 시뮬레이션과 다채널 I-V 장치를 통한 고장진단

  • Go, Seok-Hwan;Sin, U-Gyun;Sin, Ju-Yeong;Choe, Ui-Seong
    • Bulletin of the Korea Photovoltaic Society
    • /
    • v.7 no.2
    • /
    • pp.7-15
    • /
    • 2021
  • 태양광 발전소에 대한 성능을 평가하기 위해서는 IEC 61724-1에 적합한 계측장치를 설치하고 데이터를 수집하여 평가하는 것이 일반적인 방법이다. 본 논문에서는 태양광발전소 현장에서 DC 어레이 성능을 평가하기 위한 방법을 제시하였다. 측정 일사량과 같은 환경정보 값과 태양광 DC 어레이 전압-전류 특성 곡선을 이용해 일사량에 따른 출력모델 식을 도출하였다. 도출된 모델 식은 태양전지 셀의 종류나 버스바에 따라서 차이가 발생되므로 기존의 태양전지 셀 등가회로 수식을 반영한 시뮬레이션 모델식이 적절히 변경되어야 함을 실험을 통해 검증하였다. 주기적인 진단 평가를 실시하지 않는 국내외 태양광 발전소는 성능저하가 발생된 상태로 운전되는 경우가 다수 일 것이다. 대부분의 관제모니터링을 시스템은 미쓰매칭 손실 평가분석이 불가능하며 운전상태 모니터링 하는 시스템이 대부분이다. 이에 태양광 발전소의 효율적 운영을 위해서는 현장진단 장치를 이용한 주기적 성능진단 평가나 발전소 데이터의 손실평가 분석 기술의 개발이 필요할 것이다.

Convergence Performance Evaluation Model for Intrusion Protection System based on CC and ISO Standard (CC와 ISO 표준에 따른 침입방지시스템의 융합 성능평가 모델)

  • Lee, Ha-Yong;Yang, Hyo-Sik
    • Journal of Digital Convergence
    • /
    • v.13 no.5
    • /
    • pp.251-257
    • /
    • 2015
  • Intrusion protection system is a security system that stop abnormal traffics through automatic activity by finding out attack signatures in network. Unlike firewall or intrusion detection system that defends passively, it is a solution that stop the intrusion before intrusion warning. The security performance of intrusion protection system is influenced by security auditability, user data protection, security athentication, etc., and performance is influenced by detection time, throughput, attack prevention performance, etc. In this paper, we constructed a convergence performance evaluation model about software product evaluation to construct the model for security performance evaluation of intrusion protection system based on CC(Common Criteria : ISO/IEC 15408) and ISO international standard about software product evaluation.

이론적 강제대류CHF 해석 모델의 연구 현황 및 성능 평가

  • Kwon, Hyuk-Sung;Jeon, Tae-Hyun;Hong, Sung-Duk;Hwang, Dae-Hyun;Park, Chul
    • Nuclear Engineering and Technology
    • /
    • v.27 no.6
    • /
    • pp.918-931
    • /
    • 1995
  • 임계열속을 예측하는 기존의 여러 방법중 임계열속 발생 역학구조에 근거한 이론적 접근 방법은 여러 유동형태(Flow pattern)별로 연구되고 있으며, 대표적으로 환상유동에서의 LFD(Liquid Film Dryout) 이론, 기포류에서의 BBLD(Bubble Boundary Layer Dryout) 흑은 LNID(Local Nucleation Initiated Dryout)이론 등이 제시되고 있다. 본 논문에서는 일반적으로 원자로 조건에 서 적용될 수 있는 LFD이론과 BBLD 이론에 대하여 대표적인 모델들을 소개하고 특성을 검토하였다. 특히 BBLD 이론중에서 기포군집 (Bubble coalescence) 모델과 층류막 드라이 아웃(Sublayer dryout) 모델에 대해서는 원형관에서의 임계열속 시험자료를 사용하여 각 모델의 예측 성능 및 특성을 평가하였다. 평가 결과, 기포군집 모형인 Weisman 모델의 예측성능이 가장 우수했으며 아울러 층류막 드라이아웃 모델인 Katto 모델과 Mudawwar 모델은 구성 인자중 기포군속도와 층류막 두께와의 관계가 보다 정확히 모형화되야 할 것으로 판단된다.

  • PDF

Performance Comparisons of Multi-Process and Multi-Thread based Web Servers on Multiple Operating System Platforms (다양한 운영체제에서의 다중 프로세스와 스레드 모델의 웹 서버 성능 비교)

  • 도인환;김경중;정규헌;전기훈;노삼혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.94-96
    • /
    • 2003
  • 맡은 사용자 영역의 프로그램들이 확장성과 성능 향상을 목적으로 다중 프로세스 모델에서 다중 스레드 모델로 바뀌고 있다. 웹 서버도 폭발적으로 증가하는 사용자 요청을 수용할 수 있도록 확장성과 성능 향상을 위해서 다중 스레드 모델을 적용하였다. 본 논문에서는 다중 프로세스 모델을 적용한 웹 서버와 다중 프로세스/다중 스레드 모델을 적용한 웹 서버에 대한 성능을 여러 운영체제 환경에서 평가하였다. 실험 결과 전체적으로 다중 프로세스 모델이 다중 스레드 모델보다 더 좋은 성능과 안정성을 보였다.

  • PDF

A Study on the Construction of the Stochastic Model for the Computer Systems Performance Evaluation (확률적 컴퓨터 성능평가 모델설정에 관한 연구)

  • 김상복;김정기
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.14 no.1
    • /
    • pp.58-64
    • /
    • 1989
  • This paper constructs a stochastic model for computer performance evaluation which has several parameters such as the kinds of instruction mix of benchmark programs, distribution and frequency of instruction mix. It shows, by applying the model to the performance evaluation of the Intel 8086/8088 microprocessor, that this model could be utilited not only for performance evaluation of existing computer systems but also for estimation of nonexisting systems.

  • PDF

Performance Evaluation of Distributed Processing System using Fuzzy Queueing Network Model (퍼지 큐잉네트워크모델을 이용한 분산처리시스템의 성능평가)

  • 추봉조
    • Journal of the Korea Society of Computer and Information
    • /
    • v.6 no.4
    • /
    • pp.138-145
    • /
    • 2001
  • In this paper, we propose fuzzy closed BCMP queueing network model for the performance evaluation of distributed processing system. Which has the ambiguous service requirements of job to servers and service rates of server according to network environments. This model can derive the measures for system Performances using fuzzy mean value analysis which can process the fuzzy factors. Computer simulation has been performed for verifying the effectiveness of derived equations of performance evaluation according to service requirements of job and the numbers of clients.

  • PDF

A Study on the Services Performance Evaluation of Intelligent Network Facilities (지능망 설비에서의 서비스 성능평가에 관한 연구)

  • 전희종;오중민;김춘수;김병진
    • The Proceedings of the Korean Institute of Illuminating and Electrical Installation Engineers
    • /
    • v.9 no.2
    • /
    • pp.50-57
    • /
    • 1995
  • In this paper the model was analyzed on performance evaluation for IN facility and we carried out evaluation on it's service performance using this model as an example. We used simulation method and operation analysis method as evaluation technology. As the evaluation results, the case of simulation method was nearly consistent with the case of the operation analysis method and the user-network interaction time had more effect on service performance than delay time of IN facility. We expects that the performance models proposed in this paper is useful when operating, managing and designing IN services in considering service performance.

  • PDF