• 제목/요약/키워드: 이용 기반 언어학

검색결과 14건 처리시간 0.019초

코퍼스에 기반한 문학텍스트 분석 (Corpus-Based Literary Analysis)

  • 하명정
    • 한국콘텐츠학회논문지
    • /
    • 제13권9호
    • /
    • pp.440-447
    • /
    • 2013
  • 코퍼스 언어학이 연구방법의 한 분야로서 최근 그 입지를 급격하게 넓혀온 가운데, 언어학적 현상과 함께 문학텍스트의 이해를 깊게 하는데 기여를 해 왔다. 최근 코퍼스 언어학의 급속한 저변확대에도 불구하고 문학텍스트 코퍼스를 기반으로 한 고전 및 문학작품의 재해석에 대한 시도는 국내언어학계에서 매우 미미한 실정에 머물러 있다. 이에 본 연구는 코퍼스 언어학의 분석도구인 컴퓨터 콘코던스 프로그램인 워드스미스를 이용하여 방대한 전자텍스트로 이루어져 있는 문학작픔의 문체적 특성과 주요테마를 조사하고자 하였다. 특히 본 연구는 텍스트의 주요한 특성을 나타내는 키워드(keyword)에 초점을 두고 세익스피어의 비극작품인 로미오와 줄리엣을 코퍼스 언어학적 분석기법으로 접근하여 작품세계를 재조명하여 학문적 의의가 크다고 생각되며 앞으로 관련된 후속연구가 이어질 것으로 기대된다.

동사의 애매성 해소를 위한 시소러스의 이용과 한계 (Using Thesaurus for Disambiguation and if's limit)

  • 송영빈;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.255-261
    • /
    • 2000
  • 동사의 애매성 해소는 언어학의 여러 부문 중에서도 가장 실체가 불명확한 의미를 다루는 것이기 때문에 언어학뿐만 아니라 자연언어처리에 있어서도 가장 해결하기 어려운 문제 중에 하나이다. 애매성은 언어학에서 말하는 동음이의어와 다의어를 동시에 포괄하는 개념으로 정의된다. 단일어를 대상으로 한 이와 같은 분류는 비교적 명확한 반면 두 개의 언어 이상의 다국어를 대상으로 하는 기계번역용 사전과 같은 대역사전에 있어서는 동음이의어와 다의어의 구별은 경계가 불명확하여 의미에 기반한 대역어의 작성에 도움이 되지 않는다. 그 원인은 의미를 구성하는 세 가지 요소인 [실체], [개념], [표현]의 관점에서 [실체]와 [개념]은 어느 언어를 막론하고 보편적인 반면 [실체]와 [개념]을 최종적으로 실현하는 형태인 [표현]의 경우 각각의 언어에 따라 그 형태가 다르게 표출된다고 하는 사실 때문이다. [나무]라는 [실체]가 있다고 할 때 [나무]에 대한 [실체]와 [개념]은 언어를 초월해서 공통적이라고 할 수 있다. 한편 [개념]을 표현하는 실체인 [표현]은 언어에 따라 [namu](한국어_, [ki](일본어),[tree](영어) 등과 같이 언어에 따라 자의적으로 [개념]을 표현하고 있다. [namu], [ki], [tree]가 같은 뜻을 나타낸다고 인식할 수 있는 것은 [개념]이 같기 때문이지 이들 각각의 [표현]이 의미적 연관성을 갖고 있기 때문은 아니다. 지금까지 의미를 다루는 연구에서는 이와 같은 관점이 결여됨으로 인해 의미의 다양성을 정확히 파악하는 데 한계가 있었으며 애매성 해소에 관한 연구도 부분적 시도에 그친 면이 적지 않다. 본고에서는 다국어를 대상으로 한 대역사전의 구축에 있어서 다의어와 동음이의어에 대한 종래의 분류의 문제점을 지적하고 나아가 애매성 해소의 한 방법론으로 활발히 이용되고 있는 시소러스의 분류체계의 한계를 지적한다. 나아가 이의 해결책을 한국어와 일본어의 대역사전의 구축에서 얻어진 경험을 바탕으로 제시한다.

  • PDF

동사의 애매성 해소를 위한 시소러스의 이용과 한계 (Using Thesaurus for Disambiguation and it's limit)

  • 송영빈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-261
    • /
    • 2000
  • 동사의 애매성 해소는 언어학의 여러 부문 중에서도 가장 실체가 불명확한 의미를 다루는 것이기 때문에 언어학뿐만 아니라 자연언어처리에 있어서도 가장 해결하기 어려운 문제 중에 하나이다. 애매성은 언어학에서 말하는 동음이의어와 다의어를 동시에 포괄하는 개념으로 정의된다. 단일어를 대상으로 한 이와 같은 분류는 비교적 명확한 반면 두 개의 언어 이상의 다국어를 대상으로 하는 기계번역용 사전과 같은 대역사전에 있어서는 동음이의어와 다의어의 구변은 경계가 불명확하여 의미에 기반한 대역어의 작성에 도움이 되지 않는다. 그 원인은 의미를 구성하는 세 가지 요소인 [실체], [개념], [표현]의 관점에서 [실체]와 [개념]은 어느 언어를 막론하고 보편적인 반면 [실체]와 [개념]을 최종적으로 실현하는 형대인 [표현]의 경우 각각의 언어에 따라 그 형태가 다르게 표출된다고 하는 사실 때문이다. [나무]라는 [실체]가 있다고 할 때 [나무]에 대한 [실체]와 [개념]은 언어를 초월해서 공통적이라고 할 수 있다. 한편, [개념]을 표현하는 실체인 [표현]은 언어에 따라 [namu](한국어), [ki](일본어), [tree](영어) 등과 같이 언어에 따라 자의적으로 [개념]을 표현하고 있다. [namu], [ki], [tree]가 같은 뜻을 나타낸다고 인식할 수 있는 것은 [개념]이 같기 때문이지 이들 각각의 [표현]이 의미적 연관성을 갖고 있기 때문은 아니다. 지금까지 의미를 다루는 연구에서는 이와 같은 관점이 결여됨으로 인해 의미의 다양성을 정확히 파악하는 데 한계가 있었으며 애매성 해소에 관한 연구도 부분적 시도에 그친 면이 적지 않다. 본고에서는 다국어를 대상으로 한 대역사전의 구축에 있어서 다의어와 동음이의어에 대한 종래의 분류의 문제점을 지적하고 나아가 애매성 해소의 한 방법론으로 활발히 이용되고 있는 시소러스의 분류체계의 한계를 지적한다. 나아가 이의 해결책을 한국어와 일본어의 대역사전의 구축에서 얻어진 경험을 바탕으로 제시한다.

  • PDF

비디오 스크립트를 이용한 문법적 패턴 습득 모델링 (Modelling Grammatical Pattern Acquisition using Video Scripts)

  • 석호식;장병탁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.127-129
    • /
    • 2010
  • 본 논문에서는 다양한 코퍼스를 통해 언어를 학습하는 과정을 모델링하여 무감독학습(Unsupervised learning)으로 문법적 패턴을 습득하는 방법론을 소개한다. 제안 방법에서는 적은 수의 특성 조합으로 잠재적 패턴의 부분만을 표현한 후 표현된 규칙을 조합하여 유의미한 문법적 패턴을 탐색한다. 본 논문에서 제안한 방법은 베이지만 추론(Bayesian Inference)과 MCMC (Markov Chain Mote Carlo) 샘플링에 기반하여 특성 조합을 유의미한 문법적 패턴으로 정제하는 방법으로, 랜덤하이퍼그래프(Random Hypergraph) 모델을 이용하여 많은 수의 하이퍼에지를 생성한 후 생성된 하이퍼에지의 가중치를 조정하여 유의미한 문법적 패턴을 탈색하는 방법론이다. 우리는 본 논문에서 유아용 비디오의 스크립트를 이용하여 다양한 유아용 비디오 스크립트에서 문법적 패턴을 습득하는 방법론을 소개한다.

  • PDF

응급의료 영역 한국어 음성대화 데이터베이스 구축 (Building a Korean conversational speech database in the emergency medical domain)

  • 김선희;이주영;최서경;지승훈;강지민;김종인;김도희;김보령;조은기;김호정;장정민;김준형;구본혁;박형민;정민화
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.81-90
    • /
    • 2020
  • 본 논문은 응급의료 환경에서 음성인식 성능을 향상시키기 위하여 실제 환경에서 데이터 수집 방법을 정의하고 정의된 환경에서 수집된 데이터를 전사하는 방법을 제안한다. 그리고 제안된 방법으로 수집되고 전사된 데이터를 이용하여 기본 음성인식 실험을 진행함으로써 제안한 수집 및 전사 방법을 평가하고 향후 연구 방향을 제시하고자 한다. 모든 음성은 기본적으로 16비트 해상도와 16 kHz 샘플링으로 저장되었다. 수집된 데이터는 총 166건의 대화로서 8시간 35분의 분량이다. 수집된 데이터는 Praat를 이용하여 철자 전사, 음소 전사, 방언 전사, 잡음 전사, 그리고 의료 코드 전사를 수행하여 다양한 정보를 포함한 텍스트 데이터를 구축하였다. 이와 같이 수집된 데이터를 이용하여 기본 베이스라인 실험을 통하여 응급의료 영역에서의 음성인식 문제를 실제로 확인할 수 있었다. 본 논문에서 제시한 데이터는 응급의료 영역의 1단계 데이터로서 향후 의료 영역에서의 음성인식 모델의 학습 데이터로 활용되고, 나아가 이 분야의 음성기반 시스템 개발에 기여할 수 있을 것으로 기대된다.

딥러닝 방식을 이용한 환유 해소 (Metonymy Resolution based on Neural Approach)

  • 황태선;이찬희;양기수;이동엽;구영은;전태희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.375-379
    • /
    • 2019
  • 언어학에서의 환유법은 표현을 위해 빌려온 대상이 다양한 의미로 해석 가능하기에 매우 어렵고 난해한 분야이다. 환유의 특성 상 주어진 엔티티의 환유 여부를 구분하기 위해서는 앞뒤 단어와의 연관성 뿐만 아니라 문장 전체의 문맥 정보에 대한 고려가 필수적이다. 최근 이러한 문맥 정보를 고려하여 학습된 다양한 모델들이 등장하면서 환유법에 대한 연구를 하기에 좋은 환경이 구축되고 있다. 본 논문에서는 언어학적 자질 정보를 최소화한 딥러닝을 이용한 환유 해소 모델을 제안한다. LSTM 기반의 feature-based 모델과 및 BERT, XLNet, RoBERTa와 같은 fine-tuning 모델들에 대한 실험을 진행하였다. 실험 결과, fine-tuning 모델들이 baseline과 비교하여 뛰어난 성능 향상을 가져왔으며, 특히 XLNet 모델은 두 개의 환유 해소 데이터 SemEval 2007와 ReLocaR에 대해 각각 90.1%과 95.8%의 정확도를 보여주었다.

  • PDF

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해 낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

격틀 사전과 하위 범주 정보를 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling Using Case Frame Dictionary and Subcategorization)

  • 김완수;옥철영
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1376-1384
    • /
    • 2016
  • 기계가 사람과 같이 문장을 처리하게 하려면 사람이 쓴 문장을 토대로 사람이 문장을 통해 발현하는 모든 문장의 표현 양상을 학습해 사람처럼 분석하고 처리할 수 있어야 한다. 이를 위해 기본적으로 처리되어야 할 부분은 언어학적인 정보처리이다. 언어학에서 통사론적으로 문장을 분석할 때 필요한 것이 문장을 성분별로 나눌 수 있고, 문장의 핵심인 용언을 중심으로 필수 논항을 찾아 해당 논항이 용언과 어떤 의미역 관계를 맺고 있는지를 파악할 수 있어야 한다. 본 연구에서는 국립국어원 표준국어대사전을 기반으로 구축한 격틀사전과 한국어 어휘 의미망에서 용언의 하위 범주를 자질로 구축한 CRF 모델을 적용하여 의미역을 결정하는 방법을 사용하였다. 문장의 어절, 용언, 격틀사전, 단어의 상위어 정보를 자질로 구축한 CRF 모델을 기반으로 하여 의미역을 자동으로 태깅하는 실험을 한 결과 정확률이 83.13%로 기존의 규칙 기반 방법을 사용한 의미역 태깅 결과의 정확률 81.2%보다 높은 성능을 보였다.

모음 스펙트럼에 기반한 전후 비자음 조음위치 판별 (Classification of nasal places of articulation based on the spectra of adjacent vowels)

  • 윤지현;성철재
    • 말소리와 음성과학
    • /
    • 제15권1호
    • /
    • pp.25-34
    • /
    • 2023
  • 본 연구에서는 한국어 비음의 조음위치 변별을 위한 지표로서 모음 음향 특성의 활용 가능성을 타진하였다. 비음에 인접한 /ㅏ/ 모음 시료를 대용량 한국어 자연발화 말소리 자료에서 추출하여 모음 구간의 25%, 50%, 75% 시점에서 음향 매개변수를 측정하였다. 이 스펙트럼 및 지속시간 변수를 이용하여 판별분석을 수행하고 이를 바탕으로 선행 또는 후행 비자음의 조음위치 분류정확도를 추정하였다. 또한 조음위치 공조음(coarticulation)의 관점에서 순행적 공조음과 역행적 공조음의 영향을 확인하기 위하여 측정 대상 모음에 비음이 선행하는 경우와 후행하는 경우로 나누어 비교하였다. 분석 결과, 전후 비자음의 조음위치 분류정확도는 약 50%-60%로 나타났다. 모음의 음향 매개변수 측정값만으로 비음의 조음위치를 예측·분류하기에는 어려움이 있으나, 공조음 정도가 가장 약할 것으로 예상되는 모음 정중 구간에서 측정된 음향 변수만으로도 위와 같은 정확도를 얻었다는 점에서 비음 구간의 분석결과와 함께 모음 측정치를 활용함으로써 비음 조음위치 인식률 향상에 기여할 수 있을 것으로 기대한다. 한편 측정 대상 모음에 선행 또는 후행하는 비음 조건 간에 비교하였을 때, 후행 비음 조음위치의 분류정확도가 더 높게 나타났다는 점에서 역행적 조음위치 공조음의 영향이 더 클 가능성이 확인되었다.