• 제목/요약/키워드: 사전 처리

검색결과 2,335건 처리시간 0.027초

DDAG: 효율적인 한국어 형태소 해석 방법 (DDAG: An Efficient Method for Morphological Analysis of Korean)

  • 김덕붕;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.341-353
    • /
    • 1993
  • 기존의 한국어 형태소 해석 시스템들은 철자 변화형 어절에 대한 처리가 매우 효율적이지 못했다. 대개가 문제를 일으키는 형태소들의 변형들을 모두 사전에 등록하여 후처리 형태로 다루려 하거나, 각 형태/음운 규칙을 적용한 다음 거기에 대응하는 후보 단어들을 사전 검색을 통해 확인하는 방법들을 취하고 있다. 그러나 이러한 방법들은 과다한 사전 정보의 중복이나 계산의 중복으로 인하여 비효율적인 면을 많이 내포한다. 또한, 기존의 한국어 형태소 시스템들은 거의 모두가 형태소해석 엔진과 언어학적인 지식(특히, 철자 규칙과 형태소 배열 규칙)이 제대로 분리되지 않아 시스템 확장이 매우 어려웠다. 이 논문에서는, 철자 변화형 어절을 후처리에 의하지 않고, 사전 검색과 함께 하나의 오토마타에 의해 처리하면서, 형태소 해석시 발생하는 중복 계산을 최대한 배경하고, 또한 형태소 해석 엔진과 언어학적인 지식을 완전히 분리하여 시스템의 확장성을 한층 높인, 효율적인 한국어 형태소 해석 시스템 DDAG를 소개한다. 이 시스템의 주요 알고리즘의 계산적인 복잡도는 n이 입력 어절의 길이이고, m이 입력 어절을 이루고 있는 형태소의 최대 수라고 할 때 다음과 같이 분석된다: (1) 철자 변화의 처리와 사전 검색 부분의 계산적인 복잡도는 $O(n^2)$이고, (2) 형태소 배열 검사와 모든 가능한 결과를 출력해 내는 부분은 $O(2^m)$이다. 여기에서 m의 실질적인 값은 복잡한 한국어 용언의 경우 최대 8이다.

  • PDF

동사의 애매성 해소를 위한 구문의미사전의 구축 (Dictionary Making for Disambiguation)

  • 송영빈;채영숙;박용일;이정민;설가영;황혜리;한나리;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.280-287
    • /
    • 1999
  • 동사의 애매성이란 동일 동사 내부에서 공기하는 명사의 상충적 의미의 분포에 의해 발생한다. 이는 동일한 동사라 하더라도 명사의 상위개념, 흑은 개개의 명사에 따라 동사의 의미가 달라진다는 것을 의미한다. 동사의 애매성 해소를 위한 구문의미사전은 동사가 갖는 격틀과 논항에 오는 명사의 단어 집합에 의해 구성된다. 기계용 사전에서의 동사의 애매성이란 명사의 상위개념, 혹은 개개의 명사에 관한 정보가 결여될 때 나타난다. 지금까지의 구문의미사전은 개개의 동사가 갖는 격틀을 중심으로 논합명사의 예만을 제시하거나 명사의 상위개념을 기술하는 형식으로 구성되어 왔다. 이는 형식적인 패턴의 추출에는 유용하지만 대역어 선정을 위한 구문의미사전과 같은 섬세한 의미 정보를 필요로 하는 사전에서는 거의 효력을 발휘하지를 못한다. 다국어를 전제로 한 동사 대역어의 추출을 목적으로 하는 구문의미사전에서는 동사와 공기하는 논항명사의 철저한 추출과 검증에 의한 명사목록의 구축이 애매성 해소와 정확한 동사 대역어의 선정에 전제가 된다. 본 논문에서는 KAIST Corpus를 기반으로 현재 구축 중인 한국어 구문의미사전의 개요와 구축 과정에서 얻어진 방법론을 소개한다. 이 연구개발 결과는 과학기술부 KISTEP 특정연구개발과제 핵심소프트웨어개발 국어정보처리기술개발 중 "대용량 국어정보 심층 처리 및 품질 관리 기술 개발"의 지원을 받았다.

  • PDF

텍스트 및 전자사전 관리시스템의 설계 (The Design of Text and Dictionary Management System)

  • 이재성;최병진;이운재;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.408-414
    • /
    • 1996
  • 자연언어처리 프로그램에서 어휘지식을 제공하는 전자사전은 그 중요성에 비해 작성 및 관리에 불편함이 많다. 본 논문에서는 전자사전의 작성 및 관리를 편리하게 할 수 있도록, 다양한 형태의 어휘 자료로부터 필요한 정보를 추출, 변형하고, 편집할 수 있는 텍스트 및 사전 관리시스템(TDMS: Text and Dictionary Management System)의 설계에 관하여 소개한다. TDMS에서는 SGML(Standard General Markup Language)의 일부를 사용하여, 표준사전 표기언어(SDML: Standard Dictionary Markup Language)를 정의하고, 이를 이용하여 다양한 형태의 사전 형식을 기술하고 있다. 또, 표준사전 표기언어로 표현된 사전이나 텍스트는 각종 응용프로그램에 독립적인 형태로 존재하여, 정보의 표준화와 교환을 용이하게 한다.

  • PDF

건설용어사전 표준 서비스 체계 구축에 관한 연구 (A Study on Development of Service System for Construction Terminology Dictionary)

  • 옥현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.872-875
    • /
    • 2012
  • 최근 정보기술의 발전으로 책자 형태의 건설용어사전 보다는 인터넷을 통한 다양한 건설용어사전이 제공되어 있으며, 특히 정부기관을 비롯하여 건설관련 학회 및 협회, 건설관련 포탈 및 정보시스템 등에서 자체적인 건설용어사전을 개발하여 제공하고 있다. 이처럼 건설분야에서 활용되고 있는 건설용어 사전은 다양하게 서비스 되고 있으나, 아직까지 건설용어에 관한 표준 체계가 정립되지 않아, 건설용어사전에서 정의하고 있는 건설용어가 서로 상이하며 현업에서는 아직도 관행처럼 외래어를 사용함에 따라 건설공사 수행시 참여주체 간에 의사소통의 저해 요인으로 작용하고 있다. 따라서 본 연구에서는 국내외 건설용어사전의 유형을 살펴보고, 건설용어 표준 활동 사례의 분석을 통해 국내 실정에 적합한 건설용어사전 서비스 체계 구축을 위한 방안을 제시하고자 한다.

딥러닝 기반 사전학습 언어모델에 대한 이해와 현황 (A Survey on Deep Learning-based Pre-Trained Language Models)

  • 박상언
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.11-29
    • /
    • 2022
  • 사전학습 언어모델은 자연어 처리 작업에서 가장 중요하고 많이 활용되는 도구로, 대량의 말뭉치를 대상으로 사전학습이 되어있어 적은 수의 데이터를 이용한 미세조정학습으로도 높은 성능을 기대할 수 있으며, 사전학습된 토크나이저과 딥러닝 모형 등 구현에 필요한 요소들이 함께 배포되기 때문에 자연어 처리 작업에 소요되는 비용과 기간을 크게 단축시켰다. 트랜스포머 변형 모형은 이와 같은 장점을 제공하는 사전학습 언어모델 중에서 최근 가장 많이 사용되고 있는 모형으로, 번역을 비롯하여 문서 요약, 챗봇과 같은 질의 응답, 자연스러운 문장의 생성 및 문서의 분류 등 다양한 자연어 처리 작업에 활용되고 있으며 컴퓨터 비전 분야와 오디오 관련 분야 등 다른 분야에서도 활발하게 활용되고 있다. 본 논문은 연구자들이 보다 쉽게 사전학습 언어모델에 대해 이해하고 자연어 처리 작업에 활용할 수 있도록 하기 위해, 언어모델과 사전학습 언어모델의 정의로부터 시작하여 사전학습 언어모델의 발전과정과 다양한 트랜스포머 변형 모형에 대해 조사하고 정리하였다.

전자사전 컴포넌트의 구현 (Component Implementation of Electronic Dictionary)

  • 최성운
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.587-592
    • /
    • 2001
  • 사무자동화의 필요성이 증가함에 따라 많은 응용 프로그램이 개발되고 있으며, 전자사전은 이러한 사무용 프로그램의 주요 구성요소 중 하나이다. 효율적인 전자사전은 빠른 검색을 지원해야 하며, 타 사전과 데이터 교환을 통해 사어 및 신조어에 대처할 수 있어야 한다. 또한 전자 사전 프로그램 자체의 재사용의 고려하여 전자 사전 프로그램 구축비용 및 시간을 절감할 수 있어야 한다. 본 논문에서는 사전 내부 데이터 표현 형식을 정의하여 정의된 표현 방식에 기초한 타 전자 사전 데이터 교환을 가능하게 하는 방안을 제시하였다. 또한 재사용 및 호환성을 향상시키기 위하여 사전 구조를 시스템 사전 컴포넌트와 사용자 사전 컴포넌트로 나누어 구현하여 차후 바이너리 단위로의 재사용을 가능하게 하였다. 컴포넌트화로 인한 검색속도 저하 가능성은 트라이 및 B 트리 인덱스 구조를 통하여 효과적으로 방지하였다.

  • PDF

비정형 데이터를 활용한 감기 판단 사전 구축 (Constructing the Dictionary of Flue using unstructured data)

  • 김광민;남기훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1187-1190
    • /
    • 2015
  • 최근에 비정형 데이터의 잠재적 가치를 유용한 데이터로써 사용하려는 경우가 많아지고 있다. 특히 트위터는 사용자의 상태나 이벤트가 잘 나타나 있어서 하나의 사용자의 이벤트로서 간주될 수 있다. 본 논문은 트위터에서 발생하는 이벤트에 주목하여, 감기라는 이벤트를 트위터 내에서 추적하고자 한다. 추적을 위해서는 트위터를 판단할 필요가 있는데, 이를 위해 기존의 감성 사전 방식 중 하나인 통계적 사전 구축을 기반으로 키워드를 활용하여 감기 판단 사전을 구축하는 방식을 제안한다.

기계가독사전을 이용한 한국어 시소러스 구축 (Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary)

  • 이주호;은광희;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.273-279
    • /
    • 2001
  • 시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.

  • PDF

사전 학습 모델의 위치 임베딩 길이 제한 문제를 극복하기 위한 방법론 (Methodology for Overcoming the Problem of Position Embedding Length Limitation in Pre-training Models)

  • 정민수;허탁성;이주환;김지수;이경욱;김경선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.463-467
    • /
    • 2023
  • 사전 학습 모델을 특정 데이터에 미세 조정할 때, 최대 길이는 사전 학습에 사용한 최대 길이 파라미터를 그대로 사용해야 한다. 이는 상대적으로 긴 시퀀스의 처리를 요구하는 일부 작업에서 단점으로 작용한다. 본 연구는 상대적으로 긴 시퀀스의 처리를 요구하는 질의 응답(Question Answering, QA) 작업에서 사전 학습 모델을 활용할 때 발생하는 시퀀스 길이 제한에 따른 성능 저하 문제를 극복하는 방법론을 제시한다. KorQuAD v1.0과 AIHub에서 확보한 데이터셋 4종에 대하여 BERT와 RoBERTa를 이용해 성능을 검증하였으며, 실험 결과, 평균적으로 길이가 긴 문서를 보유한 데이터에 대해 성능이 향상됨을 확인할 수 있었다.

  • PDF

도메인 적응 사전 훈련 (Domain-Adaptive Pre-training, DAPT) 한국어 문서 요약 (Domain-Adaptive Pre-training for Korean Document Summarization)

  • 장형국;장현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.843-845
    • /
    • 2024
  • 도메인 적응 사전 훈련(Domain-Adaptive Pre-training, DAPT)을 활용한 한국어 문서 요약 연구에서는 특정 도메인의 문서에 대한 이해도와 요약 성능을 향상시키기 위해 DAPT 기법을 적용했다. 이 연구는 사전 훈련된 언어 모델이 일반적인 언어 이해 능력을 넘어 특정 도메인에 최적화된 성능을 발휘할 수 있도록 도메인 특화 데이터셋을 사용하여 추가적인 사전 훈련을 진행한다. 구체적으로, 의료, 법률, 기술 등 다양한 도메인에서 수집한 한국어 텍스트 데이터를 이용하여 모델을 미세 조정하며, 이를 통해 얻은 모델은 도메인에 특화된 용어와 문맥을 효과적으로 처리할 수 있음을 보여준다. 성능 평가에서는 기존 사전 훈련 모델과 DAPT를 적용한 모델을 비교하여 DAPT의 효과를 검증했다. 연구 결과, DAPT를 적용한 모델은 도메인 특화 문서 요약 작업에서 성능 향상을 보였으며, 이는 실제 도메인별 활용에서도 유용할 것으로 기대된다.