• Title/Summary/Keyword: 언어평가

Search Result 1,675, Processing Time 0.03 seconds

Automatic Evaluation of Speech and Machine Translation Systems by Linguistic Test Points (자동통번역 시스템의 언어 현상별 자동 평가)

  • Choi, Sung-Kwon;Choi, Gyu-Hyun;Kim, Young-Gil
    • Annual Conference of KIPS
    • /
    • 2019.10a
    • /
    • pp.1041-1044
    • /
    • 2019
  • 자동통번역의 성능을 평가하는데 가장 잘 알려진 자동평가 기술은 BLEU이다. 그러나 BLEU로는 자동통번역 결과의 어느 부분이 강점이고 약점인지를 파악할 수 없다. 본 논문에서는 자동통번역 시스템의 언어 현상별 자동평가 방법을 소개하고자 한다. 언어 현상별 자동평가 방법은 BLEU가 제시하지 못하는 언어 현상별 자동평가가 가능하며 개발자로 하여금 해당 자동통번역 시스템의 언어 현상별 강점과 약점을 직관적으로 파악할 수 있도록 한다. 언어 현상별 정확도 측정은 Google 과 Naver Papago 를 대상으로 실시하였다. 정확률이 40%이하를 약점이라고 간주할 때, Google 영한 자동번역기의 약점은 스타일(32.50%)번역이었으며, Google 영한 자동통역기의 약점은 음성(30.00%)인식, 담화(30.00%)처리였다. Google 한영 자동번역기 약점은 구문(34.00%)분석, 모호성(27.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(30.00%)처리였다. Papago 영한 자동번역기는 대부분 정확률이 55% 이상이었으며 Papago 영한 자동통역기의 약점은 담화(30.00%)처리였다. 또한 Papago 한영 자동번역기의 약점은 구문(38.00%)분석, 모호성(32.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(20.00%)처리였다. 언어 현상별 자동평가의 궁극적인 목표는 자동통번역기의 다양한 약점을 찾아내어 약점과 관련된 targeted corpus 를 반자동 수집 및 구축하고 재학습을 하여 자동통번역기의 성능을 점증적으로 향상시키는 것이다.

Automatic Analysis Service for Korean Speaking by Age (연령별 한국어 발화 자동 분석 서비스)

  • Choi, Ji-Eun;Oh, Byoung-Doo;Heo, Tak-Sung;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.557-558
    • /
    • 2018
  • 언어를 구사하는 능력은 연령별, 개인별로 차이가 있다. 이 능력은 평가 분류에 따라 수치적으로 평가될 수 있다. 그러나 수치로 평가하는 것 보다 비슷한 연령의 평균적인 능력과 비교를 통하여 능력을 평가하는 것이 일반적이다. 언어 병리학에서 평가를 하는 보편적인 방법은 언어 병리 전문가가 하는 것이다. 그러나 사람을 통한 평가 방법은 시간과 비용이 많이 소요될 뿐만 아니라 객관적이지 못한 평가라 할 수 있다. 따라서 이번 연구에서는 한국어 발화에 대한 분석을 자동화 하는 시스템을 제안한다.

  • PDF

KFREB: Korean Fictional Retrieval-based Evaluation Benchmark for Generative Large Language Models (KFREB: 생성형 한국어 대규모 언어 모델의 검색 기반 생성 평가 데이터셋)

  • Jungseob Lee;Junyoung Son;Taemin Lee;Chanjun Park;Myunghoon Kang;Jeongbae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.9-13
    • /
    • 2023
  • 본 논문에서는 대규모 언어모델의 검색 기반 답변 생성능력을 평가하는 새로운 한국어 벤치마크, KFREB(Korean Fictional Retrieval Evaluation Benchmark)를 제안한다. KFREB는 모델이 사전학습 되지 않은 허구의 정보를 바탕으로 검색 기반 답변 생성 능력을 평가함으로써, 기존의 대규모 언어모델이 사전학습에서 보았던 사실을 반영하여 생성하는 답변이 실제 검색 기반 답변 시스템에서의 능력을 제대로 평가할 수 없다는 문제를 해결하고자 한다. 제안된 KFREB는 검색기반 대규모 언어모델의 실제 서비스 케이스를 고려하여 장문 문서, 두 개의 정답을 포함한 골드 문서, 한 개의 골드 문서와 유사 방해 문서 키워드 유무, 그리고 문서 간 상호 참조를 요구하는 상호참조 멀티홉 리즈닝 경우 등에 대한 평가 케이스를 제공하며, 이를 통해 대규모 언어모델의 적절한 선택과 실제 서비스 활용에 대한 인사이트를 제공할 수 있을 것이다.

  • PDF

A Training Feasibility Evaluation of Nuclear Safeguards Terms for the Large Language Model (LLM) (거대언어모델에 대한 원자력 안전조치 용어 적용 가능성 평가)

  • Sung-Ho Yoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.479-480
    • /
    • 2024
  • 본 논문에서는 원자력 안전조치 용어를 미세조정(fine tuning) 알고리즘을 활용해 추가 학습한 공개 거대 언어모델(Large Language Model, LLM)이 안전조치 관련 질문에 대해 답변한 결과를 정성적으로 평가하였다. 평가 결과, 학습 데이터 범위 내 질문에 대해 학습 모델은 기반 모델 답변에 추가 학습 데이터를 활용한 낮은 수준의 추론을 수행한 답변을 출력하였다. 평가 결과를 통해 추가 학습 개선 방향을 도출하였으며 저비용 전문 분야 언어 모델 구축에 활용할 수 있을 것으로 보인다.

  • PDF

청각장애 아동의 청각통합 능력과 언어능력과의 상관관계 연구

  • 박상희;권영주
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.239-239
    • /
    • 2003
  • 연구목적 : 본 연구의 목적은 청각장애 아동들이 실제적으로 소리를 듣는 능력과 말소리를 이해하고 표현하는 언어 능력과 어떠한 관계가 있는가에 대해서 알아보고자 하는데 있다. 일반적으로 청각통합 능력은 청각장애 아동의 듣기 능력을 측정할 수 있는 대표적인 검사도구이며, MCDI-K는 부모가 언어능력을 평가할 수 있는 도구이다. 이 두 가지 모두 부모가 평가할 수 있는 도구이다. 따라서 본 연구에서는 청각통합 능력, 언어이해능력, 언어표현능력이 연령과 교육받은 시기와 어떠한 관계가 있는 가 알아보기 위해서 실시하였다. (중략)

  • PDF

Evaluation of the Translation Part of the Concept-based Spoken Language Translation System (개념기반 대화체 언어번역시스템의 번역부평가)

  • Choi, Un-Cheon;Han, Nam-Yong;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.322-325
    • /
    • 1996
  • 이 논문은 개념기반의 대화체 언어번역시스템의 번역부의 평가에 대해 기술한 것이다. 대상언어는 한국어와 영어로 한국어를 해석하여 영어로 번역하는 시스템이다. 개념기반 시스템은 개념을 기준으로 입력된 문장을 해석하고 그 개념을 이용하여 번역한다. 개념기반 시스템은 개념에 기반을 두기 때문에 자유로운 간투사의 사용, 빈번한 단어 생략 등의 특성을 가지는 대화체 번역에 유리하다. 시스템의 평가는 입력문에 대한 번역문의 결과가 의미적으로 어느 정도 전달되었는지를 평가자의 주관적인 판단에 의해 평가한다. 현재 개발된 시스템은 여행안내 영역(domain)을 대상으로 하고 있다. 개발된 시스템에 대한 평가는 대화체를 전사한 문장과 음성인식의 결과 두 가지의 입력에 대해 하였다.

  • PDF

Assessment of Writing Fluency For Automated English Essay Scoring (영어 논술 자동 평가를 위한 언어 유창성 측정 방법)

  • Yang, Min-Chul;Kim, Min-Jeong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.25-29
    • /
    • 2011
  • 영어 논술 자동 평가 시스템은 수험자가 쓴 에세이에 대하여 전문 평가자가 직접 읽고 평가하는 방식에서 벗어나 웹상에서 자동으로 평가 받을 수 있는 실시간 시스템이다. 하지만 비영어권 수험자에게는 논리력 혹은 작문 능력보다 그것을 영어로 표현하는 유창성에서 더 큰 문제가 있을 수 있는데 기존 연구에서는 이런 측면에 대한 평가가 부족하였다. 본 연구에서는 보다 정확한 비영어권 수험자의 영어 논술 평가를 위해 어휘력, 문장 구조의 다양성, 문장의 혼잡도를 평가하여 언어 유창성에 집중된 기계학습 방법의 추가적인 자질을 제안한다. 실험 결과 전문 평가자의 점수와 1) 상관관계 2) 정확도 측면에서 제안하는 방법은 기존의 방법에 비해 더 나은 성능을 보였다.

  • PDF

Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment (기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가)

  • Lim, Joon-Ho;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

A Study on the Configuration of Detail Design Language of the Idiosyncrasy of Community Facilities with the Qualitative Method - in Cases of Concord, Lexington and Arlington, Massachusetts - (정성적 접근방법에 따른 도시 커뮤니티 시설 특성의 상세설계 언어 형상에 관한 연구 - 콩코드(Concord), 렉싱톤(Lexington), 알링톤(Arlington) 타운을 사례로 -)

  • Kwon, Sang-Zoon
    • Journal of the Korean Institute of Landscape Architecture
    • /
    • v.35 no.5
    • /
    • pp.1-15
    • /
    • 2007
  • 본 연구는 커뮤니티 시설 상세 설계의 대상물에 대한 질적 특성을 파악하기 위하여 그 대상물의 이미지를 상징화하는 단계적 발전 과정을 거쳐 그 시설의 상세 설계적 언어를 형상화하는 방법을 제시하였다. 사례로 역사적, 문화적, 전이적 특성을 지닌 세 커뮤니티를 조사하여 디자인 언어와 상징화되는 이미지를 구명해 보면서 디자인 언어의 구성과 설계요소와의 관계 커뮤니티의 목표 등과 연관시켜 커뮤니티의 본질성을 추구하는 수단을 평가 분석하는 방법을 강구하고 커뮤니티 시설의 상세 설계 언어의 형상을 검토하는 방법을 통섭적으로 제시하였다. 설계 언어의 형상 분석의 수단을 구체화 하는 데는 시각적 형태, 설계 주제의 상황, 설계요소의 관계성, 설계요소의 위치와 구성 등과 연관된 문제이다. 본 연구는 상세설계 언어의 형상을 개발하는 시도로 네 가지 기본 전제를 세우고 그를 설명해 보았다. 본 연구는 커뮤니티 시설 특성의 상징화를 위한 설계언어연구 대상의 사례로 미국의 전통성이 강한 메사츄세츠주에서 역사적, 문화적, 전이적 특성을 각기 다르게 지니고 있는 콩코드(Concord), 렉싱톤(Lexington), 알링톤(Arlington) 등의 세 커뮤니티를 택하였다. 사례 커뮤니티 시설 특성의 상세 설계 언어의 형상을 도출하는 과정을 설명하고 시각적 노트와 디자인 의미와 그 상징성을 바탕으로 상징과 시각적 언어를 찾으면서 상세 요소의 디자인 언어를 비교하였다. 그를 바탕으로 디자인 언어와 의미 및 그에 대한 평가를 위하여 편익을 기초로 사회, 건강, 환경, 경제 등 네 가지로 세부 분류된 커뮤니티 시설을 검토하였다. 커뮤니티 시설 특성을 파악하는 기법 발굴 과정에서 시작된 시각적 형상으로부터 상징과 그 의미 등을 구명하면서 그를 정성화하기 위한 기준으로서 설계 언어, 상징적 언어, 커뮤니티, 자연적 심미성 등의 네 가지로 대표되는 평가 요소에 의하여 분석 평가 검토에 이르기까지 일련의 과정이 그 상세설계언어의 형상에 관하여 통섭적 접근이 이루어 졌다.

Development of an Evaluation Criterion for Educational Programming Language Contents (프로그래밍 언어 교육용 콘텐츠의 평가준거 개발)

  • Kim, Yong-Dae;Lee, Jong-Yun
    • The KIPS Transactions:PartA
    • /
    • v.17A no.6
    • /
    • pp.289-296
    • /
    • 2010
  • So far, previous works with respect to evaluating program contents have concentrated on the implementation of general educational content evaluation. In terms of the efforts required to solve problems, however, there are a few evaluation methods on educational programming language contents. Therefore, we propose new evaluation criteria for educational programming language contents. The detailed research contents can be summarized as follows. First, we analyze existing works and propose naval evaluation criteria for educational programming language contents. Second, the new evaluation criteria is verified by teachers who use Visual Basic educational contents via questionaries. Also, a program content is experimented via the evaluation criteria. Finally, it is expected that our proposed evaluation criteria for educational programming language contents can be used to evaluate newly developed educational programming language contents and to design its evaluation plans.