• 제목/요약/키워드: 의미정보 말뭉치

검색결과 178건 처리시간 0.023초

의미 부착이 없는 데이터로부터의 학습을 통한 의미 중의성 해소 (Word Sense Disambiguation From Unlabelled Data)

  • 박성배;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.330-332
    • /
    • 2000
  • 의미 모호성 해소는 문맥상의 한 단어의 올바른 의미를 밝히는 것으로, 대부분의 자연언어처리 응용에서 가장 중요한 문제 중 하나이다. 말뭉치로부터 얻어진 예제로부터 의미 모호성 해소 방법을 학습하기 위해서는 답이 알려져 있는 대량의 학습 예제가 필요하지만, 답이 알려져 있는 예제를 구하는 일은 사람의 간섭을 필요로 하므로 매우 비싼 작업이다. 본 논문에서는 답이 알려져 있는 학습 예제로 어느 정도 학습한 수, 답이 알려져 있지 않은 예제로 학습을 보충하는 방법을 통해 사람의 간섭을 최소화하였다. 결정트리 학습을 통한 한국어 명사에 대한 의미 결정 실험 결과, 본 논문에서 제안한 방법은 가장 많은 분포를 보이는 의미를 선택하는 경우보다 평균적으로 33.6%의 성능 향상을 보이며, 이는 전체 학습 예제의 답이 모두 알려져 있는 경우와 거의 비슷한 결과이다. 따라서, 한국어와 같이 신뢰할 만한 의미 부착 말뭉치가 없는 경우에 본 논문에서 제시된 방법은 매우 효율적이다.

  • PDF

어절별 중의성 해소 정보를 이용한 품사 태깅의 성능 향상 (Improving Part-of-speech Tagging by using Resolution Information for Individual Ambiguous Word)

  • 박희근;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.134-139
    • /
    • 2007
  • 품사 태깅 시스템에서 규칙 정보와 통계 정보는 상호보완적으로 사용되어 품사 태깅의 성능을 향상시킨다. 하지만, 두 가지 정보로는 품사 태깅의 성능을 향상시키기에는 한계가 있다. 이에 본 논문에서는 어절별 중의성 해소 정보를 이용하여 품사 태깅 시스템의 정확률을 향상시키는 방법에 대해서 기술한다. 통계 정보는 21세기 세종계획의 천만 어절 균형 말뭉치와 태그 부착 말뭉치에서 추출한 trigram 형태의 중의성 어절 및 품사 태그열 출현 빈도 정보를 이용하여 구축하였고, 규칙 정보는 보조용언, 숙어, 관용적 표현 등을 이용하여 구축하였다. 어절별 중의성 해소 정보는 세종 천만 어절 균형 말뭉치의 중의성 어절에서 고빈도 상위 50%에 해당하는 어절을 대상으로 해당 어절의 의미정보와 문맥정보를 고려하여 구축되었고, 이것은 통계 정보를 이용한 품사 태깅 전에 적용되어 분석 후보를 줄여준다. 또한, 학습을 통하여 어절별 중의성 해소 정보를 수정 및 보강하여 잘못된 품사 태깅 결과를 보정해준다. 이와 같이 통계 정보와 규칙 정보를 이용한 품사 태깅 시스템에 고빈도 중의성 어절에 대한 어절별 중의성 해소 정보를 이용함으로써 품사 태깅의 성능을 향상시킬 수 있었다.

  • PDF

한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구 (On Word Embedding Models and Parameters Optimized for Korean)

  • 최상혁;설진석;이상구
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.252-256
    • /
    • 2016
  • 본 논문에서는 한국어에 최적화된 단어 임베딩을 학습하기 위한 방법을 소개한다. 단어 임베딩이란 각 단어가 분산된 의미를 지니도록 고정된 차원의 벡터공간에 대응 시키는 방법으로, 기계번역, 개체명 인식 등 많은 자연어처리 분야에서 활용되고 있다. 본 논문에서는 한국어에 대해 최적의 성능을 낼 수 있는 학습용 말뭉치와 임베딩 모델 및 적합한 하이퍼 파라미터를 실험적으로 찾고 그 결과를 분석한다.

  • PDF

담화에서의 어휘지도를 이용한 한국어 무형대용어 탐지 및 해결 말뭉치 생성 (Building a Korean Zero-Anaphora Detection and Resolution Corpus in Korean Discourse Using UWordMap)

  • 윤호;남궁영;박혁로;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.591-594
    • /
    • 2020
  • 담화에서 의미를 전달하는 데 문제가 없을 경우에는 문장성분을 생략하여 표현한다. 생략된 문장성분을 무형대용어(zero anaphora)라고 한다. 무형대용어를 복원하기 위해서는 무형대용어 탐지와 무형대용어 해결이 필요하다. 무형대용어 탐지란 문장 내에서 생략된 필수성분을 찾는 것이고, 무형대용어 해결이란 무형대용어에 알맞은 문장성분을 찾아내는 것이다. 본 논문에서는 담화에서의 무형대용어 탐지 및 해결을 위한 말뭉치 생성 방법을 제안한다. 먼저 기존의 세종 구어 말뭉치에서 어휘지도를 이용하여 무형대용어를 복원한다. 이를 위해 본 논문에서는 동형이의어 부착과 어휘지도를 이용해서 무형대용어를 복원하고 복원된 무형대용어에 대한 오류를 수정하고 그 선행어(antecedent)를 수동으로 결정함으로써 무형대용어 해결 말뭉치를 생성한다. 총 58,896 문장에서 126,720개의 무형대용어를 복원하였으며, 약 90%의 정확률을 보였다. 앞으로 심층학습 등의 방법을 활용하여 성능을 개선할 계획이다.

  • PDF

영어 교육을 위한 거대 언어 모델 활용 말뭉치 확장 프레임워크 (Data Augmentation using Large Language Model for English Education)

  • 정진우;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.698-703
    • /
    • 2023
  • 최근 ChatGPT와 같은 사전학습 생성모델은 자연어 이해 (natural language understanding)에서 좋은 성능을 보이고 있다. 또한 코드 작업을 도와주고 대학수학능력시험, 중고등학교 수준의 문제를 풀거나 도와주는 다양한 분야에서 활용되고 있다. 본 논문은 사전학습 생성모델을 이용하여 영어 교육을 위해 말뭉치를 확장하는 프레임 워크를 제시한다. 이를 위해 ChatGPT를 사용해 말뭉치를 확장 한 후 의미 유사도, 상황 유사도, 문장 교육 난이도를 사용해 생성된 문장의 교육적 효과를 검증한다.

  • PDF

다중 자질 결정 목록을 이용한 단어 의미 중의성 해결 (World Sense Disambiguation using Multiple Feature Decision Lists)

  • 서희철;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.659-671
    • /
    • 2003
  • 본 논문에서는 결정 목록을 이용해서 단어 의미 중의성을 해결하는 방법을 제안한다. 결정 목록은 하나 이상의 규칙으로 구성되며, 각 규칙에는 신뢰도가 부여되어 있고, 규칙은 불린 함수(=조건, precondition 와 부류(=의미, class)로 구성되어 있다. 분류 대상이 만족하는 불린 함수를 가진 규칙들 중에서 가장 신뢰도가 높은 규칙에 의해서 분류 대상의 부류가 정해진다. 기존 방법에서는 하나의 자질로 하나의 불린 함수를 구성하는 단일 자질 결정 목록을 이용해서 단어 의미 중의성을 해결했다. 이 경우, 자료 부족 문제와 전처리 과정의 오류에 민감하게 반응한다는 문제점이 있다. 본 논문에서는 기존의 단일자질 결정 목록의 문제점을 해결하기 위해서, 하나 이상의 자질로 불린 함수를 구성하는 다중 자질 결정 목록을 제안하고, 다중 자질 결정 목록을 이용하여, 단어 의미 중의성을 해결하는 방법을 기술하고 있다. 단일 자질 결정 목록과 다중 자질 결정 목록을 비교하기 위해서, 1개의 한국어 의미 부착 말뭉치와 5개의 영어 의미 부착 말뭉치를 대상으로 단어 의미 중의성 해결 실험을 했다. 실험 결과 6개의 말뭉치 모두에 서 다중 자질 결정 목록이 단일 자질 결정 목록에 비해서 더 좋은 결과를 나타냈다.

한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소 (Word Sense Disambiguation using Korean Word Space Model)

  • 박용민;이재성
    • 한국콘텐츠학회논문지
    • /
    • 제12권6호
    • /
    • pp.41-47
    • /
    • 2012
  • 한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다. 세종 형태의미분석 말뭉치를 사용하여 학습하고 임의의 200문장(583 단어 종류)에 대해 평가한 결과, 정확도가 94%로 기존의 방법에 비해 매우 우수했다.

한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축 (Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis)

  • 이수선;박현재;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

말뭉치와 개념정보를 이용한 명사 중의성 해소 방법 (Noun Sense Disambiguation Based-on Corpus and Conceptual Information)

  • 이휘봉;허남원;문경희;이종혁
    • 인지과학
    • /
    • 제10권2호
    • /
    • pp.1-10
    • /
    • 1999
  • 본 노문에서는 말뭉치와 개념정보에 기반한 명사 중의성 해소 방법을 제안하다. 지곤의 연구에서는 대부분 어휘의 공기 정보을 이용하고있으나, 이러한 방법은 많은 저장공간이 필요하고, 적용률이 크지 않다는 단점이 있다. 본 논무에서는 자동으로 의미 태깅된 한국어 말뭉치에서 추출된 공기 개념정보를 이용하여 명사 중의성을 해소하는 방법을 제안한다. 제안한 방법의 평가 실험에서 기본의미를 정하는 것보다 1.6% 높은 평균 82.4%의 정확률을 보였다. 실험 문장들이 학습문장과 다른 것을 고려하면, 제안된 방법이 어휘 중의성 해소에 유용함을 보여주는 결과라고 할 수 있다.

  • PDF

한영 자동 번역을 위한 동사구 번역패턴의 활용 (Design of Verb-Phrase Patterns for Korean-to-English MT)

  • 양성일;김영길;서영애;김창현;홍문표;최승권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.178-180
    • /
    • 2001
  • 원시언어 문장의 구조 분석을 기반으로 하는 기계번역 시스템에서 원시언어의 최소 의미 단위는 동사를 중심으로 한 단문으로 생각할 수 있다. 단문 단위 대역어를 지정하기 위해서는 동사구 번역패턴의 사용이 요구된다. 본 논문에서는 한국어 단문 내 격 정보와 번역을 위한 의미 제약조건을 기술하여 한영 기계번역 시스템에서 사용하는 동사구 번역패턴을 정의하고, 문장 정규화를 통한 동사구 번역패턴의 활용방법을 제안한다. 동사구 번역패턴은 단문 구조 파악을 위한 제약 조건부와 대역어 선정부로 나뉜다. 제약 조건부는 단문 구조 번역을 위한 최소한의 의미 제약만으로 기술되며, 격조사로 구분되는 격 정보를 갖는다. 이러한 격 정보는 원시언어인 한국어의 단문 분석을 위해 사용되며 분석결과에 대해 단문 단위 대역어를 지정한다. 동사구 번역 패턴은 실제 말뭉치에서의 사용을 반영하기 위해 병렬 말뭉치로부터 구축되며 실험을 통해 예측되는 패턴의 규모를 알아볼 수 있다.

  • PDF