Search | Korea Science

FubaoLM : Automatic Evaluation based on Chain-of-Thought Distillation with Ensemble Learning (FubaoLM : 연쇄적 사고 증류와 앙상블 학습에 의한 대규모 언어 모델 자동 평가)

Huiju Kim;Donghyeon Jeon;Ohjoon Kwon;Soonhwan Kwon;Hansu Kim;Inkwon Lee;Dohyeon Kim;Inho Kang
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.448-453
- /
- 2023
대규모 언어 모델 (Large Language Model, LLM)을 인간의 선호도 관점에서 평가하는 것은 기존의 벤치마크 평가와는 다른 도전적인 과제이다. 이를 위해, 기존 연구들은 강력한 LLM을 평가자로 사용하여 접근하였지만, 높은 비용 문제가 부각되었다. 또한, 평가자로서 LLM이 사용하는 주관적인 점수 기준은 모호하여 평가 결과의 신뢰성을 저해하며, 단일 모델에 의한 평가 결과는 편향될 가능성이 있다. 본 논문에서는 엄격한 기준을 활용하여 편향되지 않은 평가를 수행할 수 있는 평가 프레임워크 및 평가자 모델 'FubaoLM'을 제안한다. 우리의 평가 프레임워크는 심층적인 평가 기준을 통해 다수의 강력한 한국어 LLM을 활용하여 연쇄적 사고(Chain-of-Thought) 기반 평가를 수행한다. 이러한 평가 결과를 다수결로 통합하여 편향되지 않은 평가 결과를 도출하며, 지시 조정 (instruction tuning)을 통해 FubaoLM은 다수의 LLM으로 부터 평가 지식을 증류받는다. 더 나아가 본 논문에서는 전문가 기반 평가 데이터셋을 구축하여 FubaoLM 효과성을 입증한다. 우리의 실험에서 앙상블된 FubaoLM은 GPT-3.5 대비 16% 에서 23% 향상된 절대 평가 성능을 가지며, 이항 평가에서 인간과 유사한 선호도 평가 결과를 도출한다. 이를 통해 FubaoLM은 비교적 적은 비용으로도 높은 신뢰성을 유지하며, 편향되지 않은 평가를 수행할 수 있음을 보인다.
PDF

Guideline for Forensic Marking Certification (포렌식마크 기술 평가 및 인증 지침)

Oh, Weon-Geun
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 2012.07a
- /
- pp.111-114
- /
- 2012
본 논문에서는 국내 디지털 저작권 보호 업체 혹은 대학 및 연구소에서 개발하고 생산하는 포렌식마크 기술의 품질을 객관적으로 평가할 수 있는 평가절차와 평가지표를 정량적으로 제시하였다. 포렌식마크 기술을 객관적으로 평가하기 위해서 본 논문에서는 우선, 구매자 정보(포렌식마크라)가 삽입된 테스트 영상의 공격 항목과 수준을 정하고, 포렌식마크 정보의 추출 성능을 평가하기 위한 평가절차로서 평가항목, 평가기준, 평가절차를, 그리고 인증을 위해서는 포렌식마크 기술의 신뢰성에 대한 통계정보를 포함하는 인증서를 생성하기 위한 인증절차를 포함하였다. 이러한 포렌식마크 기술의 평가 및 인증 지침은 기술 개발자에게는 자신들이 개발한 포렌식마크 기술에 대한 객관적인 평가결과를 미리 알아볼 수 있어서 기술의 상품성을 점검할 수 있고 소비자 입장에서는 객관적이고 보편타당성 있는 평가 결과에 대한 신뢰를 가질 수 있다. 평가자 입장에서는 표준 평가를 통해 객관적이고 정량적인 평가 결과를 얻을 수 있어서 상대적인 우열을 가리기가 용이해지는 편리성을 얻을 수 있다. 이를 통하여 포렌식마크 기술의 발전과 디지털 저작권 보호 시장의 활성화에 일조를 할 수 있을 것으로 사료된다.
PDF

A Study on Modeling for Vibration Serviceability Evaluation (교량의 진동사용성 평가를 위한 모델링에 관한 연구)

Lee, Hu-Seok;Ha, Sin-Yong;Hwang, In-Ho;Lee, Jong-Seh
- Proceedings of the Computational Structural Engineering Institute Conference
- /
- 2010.04a
- /
- pp.39-42
- /
- 2010
최근 보행자가 교량의 진동에 의한 불안감을 느끼는 경우가 발생되면서 설계 단계에서 진동에 대한 고려하고 있다. 그러나 설계자는 범용유한요소프로그램에 이동하중을 적용하여 동적응답해석을 하는 것에 어려움을 느끼고 있으며 그 결과 Meister감각곡선에 의한 진동사용성 평가도 정확히 수행되지 않고 있다. 본 연구에서는 설계자들이 수행하는 교량의 진동사용성 평가방법의 간편한 적용을 위하여 이동하중모델 생성툴을 연구하였으며, 범용유한요소프로그램으로 모델링 된 교량의 매개변수를 변화해가며 진동사용성 평가를 수행하였고 연구 결과 중 매개변수의 하나인 보요소의 길이에 따른 진동사용성 평가결과만을 작성하였다. 평가결과 보요소의 길이에 따라 교량에 발생되는 진동과 가속도의 응답치가 다르게 나타났으며, 발생되는 주요주파수 범위도 다르게 해석되었다. 이러한 동적응답의 결과가 다르게 해석되면서 Meister 감각곡선에 의한 평가등급이 차이도 발생되었다. 따라서 정확한 진동사용성 평가를 위해서는 동적응답해석 시 다양한 매개변수에 의한 동적응답의 결과에 대한 연구는 물론 다양한 교량 형식과 그에 맞는 모델링에 대한 많은 연구가 필요할 것으로 사료된다.
PDF

An Improvement and Applicability of Physical Disturbance Evaluation Technique by Quantification in River System (정량화에 의한 물리적 하천교란 평가기법의 개선과 적용)

Choi, Heung-Sik;Shim, Kyu-Rang;Lee, Woong-Hee
- Journal of Wetlands Research
- /
- v.17 no.3
- /
- pp.209-220
- /
- 2015
This study has improved the existed physical disturbance evaluation assessment technique in a river and analysed its applicability. The improvements are the quantitative evaluation items instead of qualitative one by providing the background and their evaluation equations, corresponding detailed itemization of evaluation score, and the direct input of hydraulic characteristics and geometrical changes by numerical simulation. In order to confirm the applicability of improved disturbance evaluation technique, the comparison and analysis between the evaluation results of existed and improved techniques have been carried out by applying to the 6 cases of natural, urban, and mountainous streams. Direct input of numerical simulation results of HEC-RAS enables the evaluation simple for 8 evaluation items excluding the items of habitat environment and bottom substrate. The improved disturbance evaluation technique, which evaluates the degree of disturbance sensitively by the quantitative and detailed itemized evaluations, has been confirmed the appropriate applicability by applying to river systems.
https://doi.org/10.17663/JWR.2015.17.3.209 인용 PDF KSCI

Derivation of Repair or Reinforcement Priority of Dam Members using State Assessment (상태평가를 이용한 댐 시설물 부재별 보수·보강 우선순위 도출)

Kim, Tae Hyung;Park, Jiyeon;Kwon, Ji-Hye;Choi, Hong Suk
- Proceedings of the Korea Water Resources Association Conference
- /
- 2015.05a
- /
- pp.285-285
- /
- 2015
댐 및 저수지 시설물은 노후화나 안전성 미확보로 인한 파손 또는 붕괴 발생 시 하류부에 막대한 인명과 재산피해 등 치명적인 결과를 초래하게 된다. 이러한 대형 안전사고를 예방하고자 시설물의 안전관리에 관한 특별법에서는 댐 시설물을 규모별로 1, 2종 시설물로 구분하고, 이에 대해 주기적으로 안전점검 및 정밀안전진단을 실시하도록 제도화하는 한편 진단 결과에 따라 보수 보강 등의 안전조치를 의무화하고 있다. 구조물 결함에 따른 보수 보강은 보수재료와 공법 선정시 공법의 적용성, 구조적 안전성, 경제성 등을 종합적으로 검토하여 결정하여야 한다. 손상 부위에 대한 보수 보강은 제한된 예산과 인력을 효율적으로 투자하기 위해 보수재료 및 공법의 선정 뿐만 아니라 보수 보강이 이루어져야 하는 부재에 대한 우선순위를 산정하는 것이 최우선적으로 선행되어야 한다. 안전점검 및 정밀안전진단 세부지침에서는 보수 보강 대책 마련 시안전점검 및 정밀안전진단 결과를 기초로 하여 적정 재료 및 공법을 선정하고, 보수 보강의 수준 및 우선순위를 결정하도록 명시되어 있다. 하지만 우선순위 결정에 대한 가이드라인이 부재하여 불필요한 시공과 비효율적인 예산 투입으로 인해 국가예산의 낭비되고 시설물의 안전까지 위협받게 되는 경우가 발생하고 있다. 따라서 본 연구에서는 시설물의 상태에 따른 적절한 보수 보강 필요성을 판단하고 보수 보강 수준 및 우선순위를 결정하기 위한 방법론을 개발하였다. 댐 시설물에 대한 안전점검 및 정밀안전진단의 종합평가는 평가대상 개별시설에 대하여 상태 평가 및 안전성 평가를 실시한 후 그 결과에 의해 산출된 상태평가지수와 안전성평가지수를 비교하여 평가단계별로 그 결과를 취합하여 종합평가를 실시하고 있다. 따라서 상태평가에 의해 산정된 종합평가 결과를 이용하여 개별 부재의 상태평가값 산정을 위해 하부 단계의 가중치 및 평가 지수 역산하고, 재산정된 가중치 및 평가지수를 이용하여 각 부재에 대한 보수 보강 우선순위를 산정하고자 하였다. 개발된 방법론은 점검 진단 책임기술자 및 시설물 관리주체 담당자가 댐 시설물의 개별부재에 대한 보수 보강 실시 여부를 판정할 수 있는 기준으로, 보수 보강에 대한 정책 결정시 경제성을 고려한 신뢰도 있는 기준으로 활용될 수 있을 것으로 기대된다.
PDF

A Study on the results of Technical Risk Analysis based IDS Assessment Methodology (기술적 위험분석 결과를 활용한 IDS 평가방법에 관한 연구)

Shim, Mi-Na;Cho, Sang-Hyun;Lim, Jong-In
- Proceedings of the Korea Information Processing Society Conference
- /
- 2005.11a
- /
- pp.945-948
- /
- 2005
현재 침입탐지시스템(IDS:Intrusion Detection System)은 다양한 평가요소들 - 탐지율, 오탐율, 새로운 공격탐지능력, 안정성 등을 기준으로 평가되고 있고, 이러한 결과는 제품의 보호수준을 결정하거나 한 조직의 정보보호장치로 적합한지를 평가하는 벤치마킹테스트의 방법으로 활용된다. 그러나, 이러한 평가의 결과는 조직의 침입탐지시스템을 구축하고자 하는 네트워크 환경하에서 각각의 침입탐지시스템이 갖는 특성에 따라 상대적인 평가는 가능하나 해당 조직의 네트워크 인프라와 위협요소, 취약점을 고려했을 때 보다 최적의 것이 무엇인지를 평가하는 방법으로는 한계가 있다. 그러므로, 본 연구논문에서는 이러한 한계를 극복하기 위한 방법으로서 조직의 정보보호 위험분석에서 도출된 해당 네트워크 환경의 자산, 위협, 취약성의 결과인 위험과 위험수준을 IDS 평가에 반영하여 조직의 환경하에 보다 적합한 침입탐지시스템 선정이 가능한 평가방법을 제안한다.
PDF

Improving reliability of reservoir hydrological data followed by periodic evaluation (주기별 평가에 의한 저수지 수문자료 신뢰도 개선)

Jaekyoung Noh;Jaenam Lee
- Proceedings of the Korea Water Resources Association Conference
- /
- 2023.05a
- /
- pp.106-106
- /
- 2023
저수지 수문자료는 강우량, 유입량, 저수량, 방류량이다. 이 중에서 관측되고 있는 것은 저수량과 일부 수로방류량에 불과하다. 그럼에도 모의에 의해 유입량을 고정시키면, 물수지에 의해 방류량을 계산할 수 있다. 그러나 저수량 오차로 모의 유입량과 계산 방류량의 신뢰도는 반드시 확인돼야 한다. 신뢰도가 낮으면 모의 유출량과 계산 방류량을 조정하며 신뢰도를 높여야 한다. 신뢰도는 평가주기가 짧을수록 보장된다. 여기서는 유역면적 218.80km², 유효저수량 3,494만m³, 수혜면적 5,117ha인 탑정지에 대해 2020년 1월1일부터 12월31일까지 1시간 단위로 1달, 10일, 3일, 2일 간격의 주기로 저수지 운영자료를 생산하고, 그 신뢰도를 평가하여 평가주기가 짧을수록 오차가 감소되는 것을 관찰코자 했다. 1시간 간격의 유입량은 ONE 모형으로 모의했고, 저수지 물수지 모형을 구축하여 모의 유입량에 저수량 변화를 더해 방류량을 계산했다. 또한 저수지 물수지에 의해 저수위를 모의했으며, 관측 저수위와의 오차제곱근(RMSE)으로 신뢰도를 평가한 결과는 다음과 같다. 1달 간격으로 신뢰도를 평가한 경우 RMSE는 132.466m, 10일 간격은 46.922m, 3일 간격은 0.520m, 2일 간격은 0.349m로 나타났다. 위의 결과로부터 저수지 수문자료의 평가주기를 짧게 할수록 신뢰도는 개선된다고 말할 수 있다. 이상의 결과는 과거 자료에 대해 1년 동안 1시간 간격으로 유입량을 모의하고 방류량을 계산한 결과를 고정시키고, 평가주기를 달리하며 수위오차를 분석한 결과이다. 만약 평가주기별로 유입량과 방류량을 실제 상황에 적합하게 조정하면, 그 신뢰도는 훨씬 더 개선될 것이다. 현재 저수지 수위만을 관리하고 있는 현장의 상황에서 이 연구결과가 시사하는 바는 매우 크다. 첨언하면 AI 시대의 핵심은 자료다. AI의 먹이는 자료다. 다시 말해 자료 없는 AI는 시체와 같다. 자료는 기본이고 진실이다. 자료 없는 결과는 가짜다. 또한 위의 결과는 자료는 상시 관찰돼야 한다는 것을 말한다. 1년에 한 번 수문자료를 평가하는 제도로는 고품질의 자료를 생산할 수 없다. 무엇보다 자료는 상시 관찰하는 제도가 정착돼야 하며, 그 때 비로소 AI와 공존과 협력으로 물관리 기술의 혁신을 이룰 것이라 확신한다.
PDF

Analyze GPT sentence generation performance based on Image by training data capacity and number of iterations (학습 데이터 용량 및 반복 학습 횟수에 따른 이미지 기반 GPT 문장생성 및 성능 분석)

Dong-Hee Lee;Bong-Jun Choi
- Proceedings of the Korean Society of Computer Information Conference
- /
- 2023.07a
- /
- pp.363-364
- /
- 2023
현재 많은 사람이 GPT를 통해 다양한 활동 및 연구를 진행하고 있다. 사람들은 GPT를 통해 문장생성 시 문장에 대한 정확도를 중요하게 생각한다. 하지만 용도에 따라 GPT를 통해 생성하는 문장의 문체와 같은 표현방식이 다르다. 그래서 생성된 문장이 유의미한 문장이라는 것에 판단이 매우 주관적이기 때문에 수치적 평가가 어렵다. 본 논문에서는 자연어처리 모델이 생성한 문장의 유의미함을 판단하기 위해 각 모델을 학습하는 데이터 용량과 반복 학습의 횟수에 따른 결과물을 비교하였다. 본 연구에서는 Fine-Tuning을 통해 총 4개의 GPT 모델을 구축하였다. 각 모델로 생성 문장을 BLEU 평가지표를 통해 평가한 결과 본 연구에 BLEU 모델은 부적합하다는 결과를 도출하였다. 이를 해결하기 위해 본 연구에서는 생성된 모델을 평가하고자 설문지를 만들어 평가를 진행하였다. 그 결과 사람에게 긍정적인 평가를 받는 결과를 얻을 수 있었다.
PDF

소비자의 제품 성과 평가 과정에 대한 점포 내 기분 상태의 역할

Kim, Gwang-Su;Sin, Jong-Guk;Gwak, Won-Il
- Journal of Global Scholars of Marketing Science
- /
- v.3
- /
- pp.173-193
- /
- 1999
본 연구는 소비자의 제품성과 평가에 대한 선행요인을 규명하기 위한 것이다. 기존의 연구 결과에서는 제품성과에 대한 소비자의 사전 기대 신념 수준이 제품 성과 평가에 주요한 원인임을 밝히고 있다. 1980년대부터 소비자행동 및 심리학 분야에서 감정의 역할 및 기타 심리요소와의 관계에 대한 관심이 증대되면서 제품 평가 과정에 있어서 감정이 중요한 요인이 될 수 있음이 밝혀 졌다. 즉, 제품성과 평가에 있어서 소비자의 일시적 측면과 감정적 측면에 모두 영향을 받을 수 있다는 것이다. 그러나 감정에 관련된 인구에 있어서 항상 문제가 되어왔던 부분이 감정의 개념 규정과 특성이다. 현재까지도 이 문제는 여전히 해결해야 할 것이 많지만 이에 대한 새로운 연구 결과가 많이 제시되었다. 본 연구에서는 우선 이론적 고찰을 통하여 소비자 감정 반응의 유형을 구분하고 제품 평가 과정에서 발견되는 감정 반응은 주로 기분 상태의 성질을 띠고 있음을 설명한다. 한편 본 연구와 관련하여 주목할 만한 이론이 감정의 인지적 평가 이론이다. 이 이론의 필자는 개인의 복지에 영향을 미치는 사건에 대한 인지적 평가가 감정에 선행한다는 것이다. 본 연구에서는 감정의 인지적 점포 내 기분 상태의 인지적 평가 요소로 사전적 기대와 점포 평가를 제시하고, 점포 내 기분 상태의 결과로 제품 성과 평가를 제시하는 연구 모형을 수립하였다. 이 연구 모형에 대해 공분산 구조 분석을 실시한 결과 점포 평가가 점포 내 기분 상태의 중요한 인지적 평가 요인이 되었으며, 점포 내 기분 상태의 유쾌 차원이 소비자의 제품 성과 평가에 유의적인 영향을 미치는 것으로 나타났다.
PDF

Development of High Resolution Climate Change Scenario Bias Correction Method for Hydrologic Application (수문학적 활용을 위한 고해상도 기후시나리오 편의보정 기법 개발)

Lee, Moon-Hwan;Bae, Deg-Hyo
- Proceedings of the Korea Water Resources Association Conference
- /
- 2012.05a
- /
- pp.158-158
- /
- 2012
기후시나리오는 시 공간 해상도가 낮아 결과를 직접적으로 활용하기에는 한계가 있다. 따라서 국내외적으로 지역기후모형(RCM)을 통해 고해상도 기후시나리오를 생산하여 각 분야의 영향평가 시 활용하고 있다. 그럼에도 불구하고 기후모형이 갖는 한계로 인하여 시나리오는 관측자료에 비해 과소모의되는 경향이 발생하기 때문에 이를 고려할 수 있는 편의보정 과정이 필요하다. 하지만 국내 외적으로 여러 편의보정기법이 존재하며, 편의보정기법 선정에 따라 최종 평가 결과에 영향을 미칠 수 있다. 특히 수문 분야에서 활용하기 위해 기후시나리오 중 가장 중요한 요건은 일단 관측치의 월 및 계절별 변동성이 잘 반영되는 가이며, 두 번째는 극한 사상(high, low)을 얼마나 잘 모의하여 홍수와 가뭄을 평가하는데 용이한 가이다. 따라서 본 연구에서는 기존 편의보정 기법의 불확실성을 평가하고, 이를 통해 수문학적 활용을 위한 고해상도 기후시나리오의 편의 보정 기법을 제안 및 적용성 평가를 수행하고자 한다. 기존 편의보정기법의 적용성을 평가하기 위해 Change factor method, Quantile mapping, Weather Generator 등을 이용하였다. 이를 위해 역학적으로 상세화된 기후시나리오와 기상청 관할의 기상관측소의 최고기온, 최저기온, 평균기온, 강수량 등의 기후 자료를 수집하였다. 평가를 위해 선정한 관측소 지점은 1951년부터 강수 및 기온 자료가 존재하는 기상청 관할 기상관측소를 토대로, 지역적인 평가를 위해 최종적으로 서울, 강릉, 대구, 부산, 목포, 광주, 전주, 울산, 추풍령을 선정하였다. 이 중 1956~1980년을 과거기간으로 1981~2005년를 미래기간으로 가정하고, 편의 보정 기법 적용하여 기온과 강수량의 통계적 특성을 비교 분석하였으며 평가결과, 편의보정 기법의 따른 한계점들을 도출하였다. 한계점들을 개선하기 위해 본 연구에서 제안한 편의 보정기법은 강수량을 크게 3단계(극한 호우사상, 강수일수, 평균 표준편차 보정)로 나누어 편의보정을 실시하는 것으로 극한 호우사상을 위해서는 연최대치 계열을 이용한 회귀식을 이용하여 보정하였고, 비초과확률을 이용하여 RCM 결과값의 강수일수를 보정하였다. 최종적으로 나머지 강수시나리오에 대해서 평균과 표준편차를 보정하여 최종시나리오를 생산 및 적용성을 평가하였다. 평가 결과, 기존 편의보정기법의 단점을 극복할 수 있었으며, 이를 통해 향후 수문학 분야에 적용하여 신뢰성 있는 기후변화 영향평가를 수행될 수 있을 것이다. 제안한 편의보정 기법 및 평가 결과에 대한 자세한 내용은 발표 시 제시하고자 한다.
PDF

Search Result 56,143, Processing Time 0.065 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)