• 제목/요약/키워드: 국립국어원

검색결과 32건 처리시간 0.026초

한국어 경제 도메인 텍스트 속성 기반 감성 분석을 위한 말뭉치 주석 요소 연구 (A study of Corpus Annotation for Aspect Based Sentiment Analysis of Korean financial texts)

  • 박서윤;장연지;강예지;강혜린;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.232-237
    • /
    • 2022
  • 본 논문에서는 미세 조정(fine-tuning) 및 비지도 학습 기법을 사용하여 경제 분야 텍스트인 금융 리포트에 대해 속성 기반 감성 분석(aspect-based sentiment analysis) 데이터셋을 반자동적으로 구축할 수 있는 방법론에 대한 연구를 수행하였다. 구축 시에는 속성기반 감성분석 주석 요소 중 극성, 속성 카테고리 정보를 부착하였으며, 미세조정과 비지도 학습 기법인 BERTopic을 통해 주석 요소를 자동적으로 부착하는 한편 이를 수동으로 검수하여 데이터셋의 완성도를 높이고자 하였다. 데이터셋에 대한 실험 결과, 극성 반자동 주석의 경우 기존에 구축된 데이터셋과 비슷한 수준의 성능을 보였다. 한편 정성적 분석을 통해 자동 구축을 동일하게 수행하였더라도 기술의 원리와 발달 정도에 따라 결과가 상이하게 달라짐을 관찰함으로써 경제 도메인의 ABSA 데이터셋 구축에 여전히 발전 여지가 있음을 확인할 수 있었다.

  • PDF

한국어 법률 텍스트 처리를 위한 언어 모델링 연구 (A Study on Language Modeling for Korean Legal Text Processing)

  • 강예지;비립;장연지;강혜린;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.300-304
    • /
    • 2022
  • 본 논문은 한국어 법률 텍스트 처리를 위해 세 가지 서로 다른 사전 학습 모델을 미세 조정하여 그 성능을 평가하였다. 성능을 평가하기 위해 타겟 판결 요지에 대한 판결 요지 후보를 추출하여 판결 요지 간의 유사도를 계산하였다. 또한 유사도를 바탕으로 추출된 판결 요지가 실제 법률 전문가와 일반 언어학자의 직관에 부합하는지 판단하기 위해 정성적 평가를 진행하였다. 그 결과 법률 전문가가 법률 전문 지식이 없는 일반 언어학자에 비해 판결 요지 간 유사도를 낮게 평가하였는데 법률 전문가가 법률 텍스트의 유사성을 판단하는 기준이 기계와 일반 언어학자와는 달라 전문가 자문에 기반한 한국어 법률 AI 모델 개발의 필요성을 확인하였다. 최종 연구 결과로 한국어 법률 AI 프레임워크를 제안하였다.

  • PDF

관용표현 중의성 해소를 위한 다층위 임베딩 연구 (Embedding with different levels for idiom disambiguation)

  • 박서윤;강예지;강혜린;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-172
    • /
    • 2021
  • 관용표현 중에는 중의성을 가진 표현이 많다. 즉 하나의 표현이 맥락에 따라 일반적 의미와 관용적 의미 두 가지 이상으로 해석될 가능성이 있어 이런 유형의 관용표현을 중의성 해소 없이 자연어 처리 태스크에 적용할 경우 문제가 발생하게 된다. 본 연구에서는 관용표현의 특성인 중의성과 더불어 '관용표현은 이미 사용자의 머릿속에 하나의 토큰으로 저장되어 있다'라는 'Idiom Principle'을 바탕으로 관용표현에 대해 각각 표면형, 단순 단일 토큰형, stemming 단일 토큰형 층위의 임베딩을 만들어 관용표현 분류 연구를 진행하였으며, 실험 결과 표면형 및 stemming을 적용하지 않은 단순 단일 토큰으로 학습하는 것보다, stemming을 적용한 후 단일 토큰으로 학습하는 것이 관용표현의 중의성 해소에 유의미한 효과가 있음을 확인하였다.

  • PDF

ELECTRA 모델을 이용한 음절 기반 한국어 개체명 인식과 슬롯 필링 (Syllable-based Korean Named Entity Recognition and Slot Filling with ELECTRA)

  • 도수종;박천음;이청재;한규열;이미례
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-342
    • /
    • 2020
  • 음절 기반 모델은 음절 하나가 모델의 입력이 되며, 형태소 분석을 기반으로 하는 모델에서 발생하는 에러 전파(error propagation)와 미등록어 문제를 회피할 수 있다. 개체명 인식은 주어진 문장에서 고유한 의미를 갖는 단어를 찾아 개체 범주로 분류하는 자연어처리 태스크이며, 슬롯 필링(slot filling)은 문장 안에서 의미 정보를 추출하는 자연어이해 태스크이다. 본 논문에서는 자동차 도메인 슬롯 필링 데이터셋을 구축하며, 음절 단위로 한국어 개체명 인식과 슬롯 필링을 수행하고, 성능 향상을 위하여 한국어 대용량 코퍼스를 음절 단위로 사전학습한 ELECTRA 모델 기반 학습방법을 제안한다. 실험 결과, 국립국어원 문어체 개체명 데이터셋에서 F1 88.93%, ETRI 데이터셋에서는 F1 94.85%, 자동차 도메인 슬롯 필링에서는 F1 94.74%로 우수한 성능을 보였다. 이에 따라, 본 논문에서 제안한 방법이 의미있음을 알 수 있다.

  • PDF

국외 한국어 교재 개발을 위한 중요도-만족도 분석 (Importance-Performance Analysis for Developing Korean Language Textbooks for overseas)

  • 이해영;방성원;박기영;박선희;이보라미;최은지
    • 한국어교육
    • /
    • 제29권3호
    • /
    • pp.227-253
    • /
    • 2018
  • The purpose of this study is to propose a plan for future developments of the Korean language textbooks for overseas by conducting the Importance-Performance Analysis (IPA) of the Korean language textbooks for overseas. For this purpose, this study analyse and evaluate the Korean language textbooks for overseas and the researches for developing Korean language textbooks for overseas. In this study, we have the IPA of the Korean language textbooks from the total of 158 surveys that were collected from teachers who teach Korean at King Sejong Institute and overseas university. The survey conducted about the Korean textbooks regarding the following questionnaires: 1) integrated and separated textbooks, 2) textbooks by learners' variables, 3) teaching materials by media type, 4) supplementary teaching materials, 5) diffusion and support of textbooks. The result of this survey found that supporting for the separated textbooks is needed, and there is a high demand for localized textbooks considering local characteristics. Furthermore, it is noteworthy that King Sejong Institute has a high demand for textbooks that can be downloaded from the web despite most of institutes are highly satisfied with paper textbooks. For the supplementary textbooks, it was found that vocabulary learning materials were needed for the King Sejong school students and additional reading materials for overseas college learners needed to be developed. We also found that it is necessary to support not only the development of textbooks but also smooth and efficient diffusion.

국내 헤어 논문 외래어 오류 실태 분석 (Analysis of Mistakes Made in Using Loan Words in Domestic Hairstyling-related Academic Papers)

  • 이영아;이재숙
    • 디지털융복합연구
    • /
    • 제17권1호
    • /
    • pp.449-456
    • /
    • 2019
  • 현재 우리나라에서 사용되는 헤어 미용 용어는 전 세계 미용 교육기관의 각기 다른 미용 용어가 뒤섞여 사용됨으로써 혼란을 주고 있다. 미용이 학문으로 더 많은 발전을 하려면 외래어가 많은 미용 용어의 통일이 이루어져야 할 것이라 사료된다. 연구과제에 대한 타당한 결론을 도출하기 위한 자료 수집은 학술연구정보서비스에서 '헤어'라는 키워드를 입력하여 수집한 학위논문 1980건의 서명을 대상으로 하였다. 키워드 단어를 추출하고 국립국어원에서 제공하는 맞춤법 검사기로 외래어를 분류한 후 잘못 표기된 단어를 추출, 알맞은 외래어 표기법을 분석하여 나타내었다. 헤어 미용 관련 석 박사학위 논문 서명에서 발견된 외래어 오류를 분석한 결과 총 28단어의 표기를 오용한 것으로 나타났다. 이러한 오용이 발견된 논문은 분류한 논문 208편 중 105편(50.48%)으로 아주 높게 나타났다. 이에 대하여 헤어 미용 분야 연구자들의 미용 용어 외래어 표기의 사용실태를 세분화하고 분석, 검토함으로써 실제 오용 현황과 쟁점을 도출하였다. 본고의 연구 결과가 미용 분야의 정확한 미용 용어 정립에 기여하고 나아가 미용의 학문적 발전에도 도움이 될 것으로 기대한다.

딥러닝 알고리즘을 이용한 유사 판례 매칭 데이터셋 구축 방안 연구 (A Study on the building Dataset of Similar Case Matching in Legal Domain using Deep Learning Algorithm)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.72-76
    • /
    • 2021
  • 판례는 일반인 또는 법률 전문가가 사건에 참조하기 위해 가장 먼저 참고할 수 있는 재판의 선례이다. 하지만 이러한 판례의 유용성에도 불구하고 현 대법원 판례 검색 시스템은 판례 검색에 용이하지 않다. 왜냐하면 법률 전문 지식이 없는 일반인은 검색 의도에 부합하는 검색 결과를 정확히 도출하는 데 어려움이 있으며, 법률 전문가는 검색에 많은 시간과 비용이 들게 되기 때문이다. 이미 해외에서는 유사 케이스 매칭 데이터셋을 구축하여 일반인과 전문가로 하여금 유사 판례 검색을 용이하게 할 뿐만 아니라 여러 자연어 처리 태스크에도 활용하고 있다. 하지만 국내에는 법률 AI와 관련하여 오직 법률과 관련한 세부 태스크 수행에 초점을 맞춘 연구가 많으며, 리소스로서의 유사 케이스 매칭 데이터셋은 구축되어 있지 않다. 이에 본 논문에서는 리소스로서의 판례 데이터셋을 위해 딥러닝 알고리즘 중 문서의 의미를 반영할 수 있는 Doc2Vec 임베딩 모델과 SBERT 임베딩 모델을 적용하여 판례 문서 간 유사도를 측정·비교하였다. 그 결과 SBERT 모델을 통해 도출된 유사 판례가 문서 간 내용적 유사성이 높게 나타났으며, 이를 통해 SBERT 모델을 이용하여 유사 판례 매칭 기초 데이터셋을 구축하였다.

  • PDF

구어 말뭉치를 통한 한국어 용언활용에서의 모음조화 변이 및 변화 추이 연구 (Transition of vowel harmony in Korean verbal conjugation: Patterns of variation in a spoken corpus)

  • 강희조
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.21-29
    • /
    • 2023
  • 이 논문은 현대 한국어 용언활용에서 모음조화 양상에서 보이는 변이(조화형과 비조화형의 공존)가 어떤 언어 내적/외적 변수들에 의해 통제되고 있는지 확인하여 그 변화의 발동과 전파 과정을 설명하려는 연구이다. 이를 위하여 국립국어원 발행 일상 대화 음성 말뭉치를 활용하여 42개 어간의 조화형 및 비조화형을 검색한 후 음운/형태적 특성 및 사회언어학적 특성에 따른 효과를 검증하였다. 그 결과 전반적으로 비조화형의 비율이 1% 미만으로 매우 낮게 나타났으며 대부분은 /ㅏ/-모음 어간이 단모음 종결 어미와 결합한 사례임을 확인하였다. 다만 기존 연구들에서 거의 보이지 않던 연결 어미나 선어말 어미의 경우에도 비조화형이 소수 나타났다. 말뭉치에서 발견된 /ㅗ/-모음 어간의 비조화형을 자료로 삼아 청취실험을 실시하여 비조화형의 발동이 음운 감쇄나 과소 실현에 의해 일어났을 가능성을 보였다. 다만 전파되는 과정에는 모음의 변별도나 형태적 분석과 같은 인지적 관점에서의 설명이 더 나음을 주장한다. 결과적으로 현대 한국어의 모음조화 변이 및 변화는는 조음적/인지적 요인이 복합적으로 작용되었다고 본다.

Evaluating the Impact of Training Conditions on the Performance of GPT-2-Small Based Korean-English Bilingual Models

  • Euhee Kim;Keonwoo Koo
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권9호
    • /
    • pp.69-77
    • /
    • 2024
  • 본 연구는 GPT-2-Small 버전 모델을 사용하여 한국어와 영어를 학습하는 이중 언어 모델의 성능을 평가하고, 다양한 학습 조건이 모델 성능에 미치는 영향을 분석하였다. 연구 방법으로 단일 언어 학습, 순차 학습, 순차-교차 학습, 순차-EWC 학습의 네 가지 조건을 설정하여 모델을 훈련하였다. 국립국어원 말뭉치와 영어 위키피디어 말뭉치를 사용하고, PPL과 BLiMP 지표를 통해 성능을 측정하였다. 연구결과, 단일 언어 학습 조건에서 PPL 값은 16.2, BLiMP 정확도는 73.7%로 가장 우수한 성능을 보였다. 반면, 순차-EWC 학습 조건에서는 PPL 값이 41.9로 가장 높았고, BLiMP 정확도는 66.3%로 가장 낮았다(p < 0.05). 단일 언어 학습이 이중 언어 모델 성능 최적화에 가장 효과적임을 확인하였다. 이는 결정적 시기 이론에 따라 모델이 단일 언어에 최적화될 때 더 나은 성능을 보인다는 것을 의미한다. 또한, 프로그래밍 가소성을 조절하는 EWC 정규화를 적용한 지속 학습 조건에서는 성능 저하가 두드러졌는데, 이는 정규화가 가중치 업데이트를 제한하여 새로운 언어 학습 능력을 저하시켰다는 것을 의미한다. 본 연구는 언어 모델링에 대한 이해를 높이고, AI 언어 학습에서 인지적 유사성을 개선하는 데 기여한다.

빅데이터 기반 관광지 추천 시스템 구현 - 한국관광공사 LOD를 중심으로 - (Big Data based Tourist Attractions Recommendation - Focus on Korean Tourism Organization Linked Open Data -)

  • 안진현;김응희;김홍기
    • 경영과정보연구
    • /
    • 제36권4호
    • /
    • pp.129-148
    • /
    • 2017
  • 기존 전시회 정보 제공 서비스는 전시회가 열리는 장소 주변의 관광지를 추천한다. 이러한 위치기반 추천의 경우 전시회의 내용과 관련이 없는 관광지를 추천할 수 있다는 한계점이 있다. 전시회 내용과 관련된 관광지를 관람객에게 추천함으로써 전시회에서 획득한 지식을 관광지에서 경험하는 데에 도움을 줄 필요가 있다. 전시회 큐레이터들이 전시회 내용과 관련된 관광지를 일일이 찾아 추천하는 방법이 있지만, 수작업이다 보니 큐레이터가 가지고 있는 배경지식의 범위 내에서만 추천이 가능하다는 한계점이 있다. 수작업에 따른 오류가 있을 수도 있기 때문에 자동화된 방법이 필요하다. 본 연구에서는 언어자원 빅데이터를 활용하여 전시회 내용과 관련된 관광지를 자동으로 추천하는 방법을 제안한다. 언어자원으로는 한국관광공사 LOD(Linked Open Data), 위키피디아, 국립국어원 사전 등을 활용했다. 단일 컴퓨터로는 이러한 대용량 언어자원을 효율적으로 처리하기 어렵기 때문에, 클라우드 컴퓨팅 프레임워크인 아파치 스파크(Apache Spark)에 기반하여 구현했다. 사용자가 웹브라우저를 통해 전시회 정보를 열람하면 본 알고리즘에 의해 추천된 관광지들을 같이 보여주는 웹인터페이스도 구현했다(http://bike.snu.ac.kr/WARP). 주요 전시회에 대한 관광지 추천 정확도에 대해 전문가 평가를 진행했다. 기존 방법에 비해 본 논문에서 제안한 방법의 정확도가 더 높았다. 본 연구를 활용하면 전시회 큐레이터의 수작업을 줄여줄 수 있고 전시회 관람자들을 관광지로 자연스럽게 유도할 수 있기 때문에, 전시산업과 관광산업 모두에게 도움이 될 수 있다.

  • PDF