• 제목/요약/키워드: 언어평가

Search Result 1,675, Processing Time 2.035 seconds

Measurement of Political Polarization in Korean Language Model by Quantitative Indicator (한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안)

  • Jeongwook Kim;Gyeongmin Kim;Imatitikua Danielle Aiyanyo;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

Construction of Evaluation-Annotated Datasets for EA-based Clothing Recommendation Chatbots (패션앱 후기글 평가분석에 기반한 의류 검색추천 챗봇 개발을 위한 학습데이터 EVAD 구축)

  • Choi, Su-Won;Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.467-472
    • /
    • 2021
  • 본 연구는 패션앱 후기글에 나타나는 구매자의 의견에 대한 '평가분석(Evaluation Analysis: EA)'을 수행하여, 이를 기반으로 상품의 검색 및 추천을 수행하는 의류 검색추천 챗봇을 개발하는 LICO 프로젝트의 언어데이터 구축의 일환으로 수행되었다. '평가분석 트리플(EAT)'과 '평가기반요청 쿼드러플(EARQ)'의 구성요소들에 대한 주석작업은, 도메인 특화된 단일형 핵심어휘와 다단어(MWE) 핵심패턴들을 FST 방식으로 구조화하는 DECO-LGG 언어자원에 기반하여 반자동 언어데이터 증강(SSP) 방식을 통해 진행되었다. 이 과정을 통해 20여만 건의 후기글 문서(230만 어절)로 구성된 EVAD 평가주석데이터셋이 생성되었다. 여성의류 도메인의 평가분석을 위한 '평가속성(ASPECT)' 성분으로 14가지 유형이 분류되었고, 각 '평가속성'에 연동된 '평가내용(VALUE)' 쌍으로 전체 35가지의 {ASPECT-VALUE} 카테고리가 분류되었다. 본 연구에서 구축된 EVAD 평가주석 데이터의 성능을 평가한 결과, F1-Score 0.91의 성능 평가를 획득하였으며, 이를 통해 향후 다른 도메인으로의 확장된 적용 가능성이 유효함을 확인하였다.

  • PDF

Korean Commonsense Reasoning Evaluation for Large Language Models (거대언어모델을 위한 한국어 상식추론 기반 평가)

  • Jaehyung Seo;Chanjun Park;Hyeonseok Moon;Sugyeong Eo;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.162-167
    • /
    • 2023
  • 본 논문은 거대언어모델에 대한 한국어 상식추론 기반의 새로운 평가 방식을 제안한다. 제안하는 평가 방식은 한국어의 일반 상식을 기초로 삼으며, 이는 거대언어모델이 주어진 정보를 얼마나 잘 이해하고, 그에 부합하는 결과물을 생성할 수 있는지를 판단하기 위함이다. 기존의 한국어 상식추론 능력 평가로 사용하던 Korean-CommonGEN에서 언어 모델은 이미 높은 수준의 성능을 보이며, GPT-3와 같은 거대언어모델은 사람의 상한선을 넘어선 성능을 기록한다. 따라서, 기존의 평가 방식으로는 거대언어모델의 발전된 상식추론 능력을 정교하게 평가하기 어렵다. 더 나아가, 상식 추론 능력을 평가하는 과정에서 사회적 편견이나 환각 현상을 충분히 고려하지 못하고 있다. 본 연구의 평가 방법은 거대언어모델이 야기하는 문제점을 반영하여, 다가오는 거대언어모델 시대에 한국어 자연어 처리 연구가 지속적으로 발전할 수 있도록 하는 상식추론 벤치마크 구성 방식을 새롭게 제시한다.

  • PDF

Research on the Effects of a Consultant's Nonverbal Communications on a Client's Evaluation (컨설턴트의 비언어커뮤니케이션이 고객 평가에 미치는 영향에 관한 연구)

  • Shin, Dong-Ju;Lee, Seok Kee;You, Yen-Yoo
    • Journal of Digital Convergence
    • /
    • v.13 no.3
    • /
    • pp.167-178
    • /
    • 2015
  • This research focused on the research on nonverbal communication among communication, an important trait of consultants, who provide knowledge for the clients. The aim was to investigate meaningful influence on the perceived evaluation of clients, as well as the influence on the consulting corporate trust. The research results can be summarized as follows. It was verified that consultants' nonverbal communication positively influenced perceived consultants' evaluation. Also, it was confirmed that clients' perceived consultant evaluation positively influenced service provision corporate trust and long-term relationships.

Rated Recall: Evaluation Method for Constructing Bilingual Lexicons (등급 재현율: 이중언어 사전 구축에 대한 평가 방법)

  • Seo, Hyeong-Won;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.146-151
    • /
    • 2013
  • 이중언어 사전 구축 방법을 평가하는 방법에는 정확률, 재현율, MRR(Mean Reciprocal Rank) 등이 있다. 이들 방법들은 평가 집합에 있는 대역어를 정확하게 찾는 것에 초점을 맞추고 있다. 그러나 어떤 대역어가 얼마나 많이 사용되는지는 전혀 고려하지 않는다. 즉 자주 사용되는 대역어를 빨리 찾을 수 있는 방법이 좋은 방법이라고 말할 수 있다. 이와 같은 문제를 해결하기 위해서 본 논문에서는 이중언어 사전 구축의 새로운 평가 방법인 등급 재현율을 제안한다. 등급 재현율(rated recall)은 대역어가 학습 말뭉치에 나타난 정도를 반영하는 재현율이며, 자주 사용되는 대역어를 얼마나 정확하게 찾는지를 파악할 수 있는 좋은 측도이다. 본 논문에서는 문맥벡터와 중간언어를 이용한 이중언어 사전 구축 시스템의 성능을 평가하고 기존의 방법과 비교 분석하였다.

  • PDF

Analysis of Incremental Evaluation Technique For Object Oriented Language (객체 지향 언어를 위한 점진 평가 방법 분석)

  • Junglan Han
    • Annual Conference of KIPS
    • /
    • 2008.11a
    • /
    • pp.433-436
    • /
    • 2008
  • 프로그램의 생산성을 향상시키기 위해 프로그램 개발 단계에서 소요되는 비용을 최소화하려는 목적으로 점진 평가를 사용하고 있다. 점진 평가는 전체 프로그램을 다시 평가하는 대신 수정한 부분과 그 부분에 영향 받는 부분만을 다시 평가하는 방법이다. 본 논문에서는 기존의 종속 차트(dependency chart)를 확장하여 객체 지향언어인 자바 같은 언어에서 점진 평가를 수행할 수 있도록 확장된 종속 차트를 제시한다. 객체 지향언어에서 점진 평가를 수행하는 알고리즘을 제시하고 실험을 통해 점진 평가의 효율성을 분석한다.

Comparative Analysis of Language Model Performance in News Domain Summarization (언어 모델의 뉴스 도메인 요약 성능 비교 분석)

  • Sangwon Ryu;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.131-136
    • /
    • 2023
  • 본 논문에서는 기존의 요약 태스크에서 주로 사용하는 인코더-디코더 모델과 디코더 기반의 언어 모델의 성능을 비교한다. 요약 태스크를 평가하는 주요한 평가 지표인 ROUGE 점수의 경우, 정답 요약문과 모델이 생성한 요약문 간의 겹치는 단어를 기준으로 평가한다. 따라서, 추상적인 요약문을 생성하는 언어 모델의 경우 인코더-디코더 모델에 비해 낮은 ROUGE 점수가 측정되는 경향이 있다. 또한, 최근 연구에서 정답 요약문 자체의 낮은 품질에 대한 문제가 되었고, 이는 곧 ROUGE 점수로 모델이 생성하는 요약문을 평가하는 것에 대한 신뢰도 저하로 이어진다. 따라서, 본 논문에서는 언어 모델의 요약 성능을 보다 다양한 관점에서 평가하여 언어 모델이 기존의 인코더-디코더 모델보다 좋은 요약문을 생성한다는 것을 보인다.

  • PDF

음질(Voice Quality)에 관한 청지각적 훈련자료개발을 위한 기초연구

  • 심현섭
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.198-199
    • /
    • 2003
  • 최근에 음성언어장애에 대한 언어치료사의 평가 및 치료 활동이 활발히 이루어지고 있으나, 음성평가 기준 및 치료 자료가 충분치 않은 것이 현실이다. 음성 평가를 실시할 때에도 각 치료실마다 음성 평가에 사용하는 장비가 달라 결과물의 해석에 다소 차이가 있으며, 또한 같은 장비를 사용함에도 불구하고 음성 자료를 수집하는 방법에 있어서 표준화된 절차 및 자료에 따라 평가를 하지 못하고 있는 실정이다. 이러한 표준화된 측정절차에 대한 요구는 개인적인 기준으로 좌우될 수 있는 주관적인 평가에서는 더욱 절실하다. 음성의 지각적 평가에서 중요한 측면 중에 하나는 음성의 질에 정확한 판단 및 이에 대한 자료공유 및 정보교환이다. 현재 음성의 질에 대한 측정평가를 위해 제일 많이 사용되고 있는 방법 중 하나가 GRBAS 방법이 간편하여 임상적으로 많이 사용하나 음성의 질에 대한 세밀한 평가를 하는 데는 한계가 있다. 따라서 본 연구에서는 음질을 평가하는데 있어서 자주 사용되는 음질 용어에 대한 우리말 용어를 통일의 필요성의 시급한 실정에 기초하여 이를 대표할 수 있는 음성샘플 자료의 구축마련을 위한 일종의 발제이다. 이러한 작업을 통해 각 음성 및 언어치료실에서 음성의 질에 대한 청지각적 평가에 공통 기준을 마련하고, 임상교육 적인 목적으로 청지각적 훈련 자료로 이용이 가능할 수 있으리라 사료된다. (중략)

  • PDF

A Study on Evaluating Summarization Performance using Generative Al Model (생성형 AI 모델을 활용한 요약 성능 평가 연구 )

  • Gyuri Choi;Seoyoon Park;Yejee Kang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.228-233
    • /
    • 2023
  • 인간의 수동 평가 시 시간과 비용의 소모, 주석자 간의 의견 불일치, 평가 결과의 품질 등 불가피한 한계가 발생한다. 본 논문에서는 맥락을 고려하고 긴 문장 입출력이 가능한 ChatGPT를 활용한 한국어 요약문 평가가 인간 평가를 대체하거나 보조하는 것이 가능한가에 대해 살펴보았다. 이를 위해 ChatGPT가 생성한 요약문에 정량적 평가와 정성적 평가를 진행하였으며 정량적 지표로 BERTScore, 정성적 지표로는 일관성, 관련성, 문법성, 유창성을 사용하였다. 평가 결과 ChatGPT4의 경우 인간 수동 평가를 보조할 수 있는 가능성이 있음을 확인하였다. ChatGPT가 영어 기반으로 학습된 모델임을 고려하여 오류 발견 성능을 검증하고자 한국어 오류 요약문으로 추가 평가를 진행하였다. 그 결과 ChatGPT3.5와 ChatGPT4의 오류 요약 평가 성능은 불안정하여 인간을 보조하기에는 아직 어려움이 있음을 확인하였다.

  • PDF

A Study on Language Modeling for Korean Legal Text Processing (한국어 법률 텍스트 처리를 위한 언어 모델링 연구)

  • Ye-Jee Kang;Fei Li;Yeon-Ji Jang;Hye-Rin Kang;Seo-Yoon Park;Han-Saem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.300-304
    • /
    • 2022
  • 본 논문은 한국어 법률 텍스트 처리를 위해 세 가지 서로 다른 사전 학습 모델을 미세 조정하여 그 성능을 평가하였다. 성능을 평가하기 위해 타겟 판결 요지에 대한 판결 요지 후보를 추출하여 판결 요지 간의 유사도를 계산하였다. 또한 유사도를 바탕으로 추출된 판결 요지가 실제 법률 전문가와 일반 언어학자의 직관에 부합하는지 판단하기 위해 정성적 평가를 진행하였다. 그 결과 법률 전문가가 법률 전문 지식이 없는 일반 언어학자에 비해 판결 요지 간 유사도를 낮게 평가하였는데 법률 전문가가 법률 텍스트의 유사성을 판단하는 기준이 기계와 일반 언어학자와는 달라 전문가 자문에 기반한 한국어 법률 AI 모델 개발의 필요성을 확인하였다. 최종 연구 결과로 한국어 법률 AI 프레임워크를 제안하였다.

  • PDF