• 제목/요약/키워드: 자연 언어 처리

검색결과 430건 처리시간 0.027초

한국어 의존 파싱을 이용한 트리플 관계 추출 (Triplet Extraction using Korean Dependency Parsing Result)

  • 곽수정;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.86-89
    • /
    • 2013
  • 자연언어 문서에서 지식 추출은 QA 시스템을 비롯한 여러 분야에서 필수적이다. 트리플은 가장 일반적인 지식 추출 형식으로 문장 내부의 지식 정보를 주어, 서술어, 목적어의 관계로 표현한다. 본 논문에서는 한국어 의존 파서로 문장을 분석하고, 그 결과에서 트리플을 추출하는 방법을 제안했다. 제안된 트리플 추출기는 21개 문장에서 추출된 78개의 트리플 정답 집합과, 64개의 준정답 집합에 대해서 각각 60.75%와 66.67%의 F-measure 성능을 보였다.

  • PDF

상황의미론에 의한 명사구의 의미분석 (An Analysis on Noun Phrases in Situation Semantics)

  • 경정숙
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.261-267
    • /
    • 1993
  • Barwise & Cooper (1991)는 Hans Kamp(1981)의 DRS(Discourse Representation structure)를 기초로 EKN(Extended Kamp Notation)을 개발하였다. 본 논문은 EKN을 통해 실제 자연언어의 의미를 분석하는 데 그 목적이었다. 특히 이 논문은 양화사 의미해석의 기본개념이 되는 자원상황(resource situation), 치역(range), 사건(event) 등의 개념을 구체화하여 영어나 한국어 명사구의 누적성과 의존성에 관련된 의미를 분석한다. '세명의 학생이 (비디오 가게에서) 영화 일곱편을 빌렸다'라는 표현은 '학생'과 '영화'의 배분성 ${\pm}$ 과 집합성 ${\pm}$ 에 의한 일곱가지 해석 이외에 '세명의 학생이 각자 빌린 영화들이 일곱가지'라는 누적적 해석도 가능하다. 이러한 명사구의 누적적 해석에 대하여 분석하고, 'John always wears a tie,. They, were all silk,'에서 'a tie'와 'they'가 공지표화(i) 되기 위한 통사적 요건(성, 수의 일치)을 충족하지 않는 의존적 복수에 대하여도 분석한다.

  • PDF

롱테일 질의 확장을 위한 추출 및 생성 기반 모델 (Long-tail Query Expansion using Extractive and Generative Methods)

  • 김래선;김성순;장헌석;박석원;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.267-273
    • /
    • 2020
  • 검색 엔진에 입력되는 질의 중 입력 빈도는 낮지만 상대적으로 길이가 긴 질의를 롱테일 질의라고 일컫는다. 롱테일 질의가 전체 검색 로그에서 차지하는 비중은 높은 반면, 그 형태가 매우 다양하고 검색 의도가 상세하며 개별 질의의 양은 충분하지 않은 경우가 많기 때문에 해당 질의에 대한 적절한 검색어를 추천하는 것은 어려운 문제다. 본 논문에서는 롱테일 질의 입력 시 적절한 검색어 추천을 제공하기 위하여 질의-문서 클릭 정보를 활용한 추출기반 모델 및 Seq2seq와 GPT-2 기반 생성모델을 활용한 질의 확장 방법론을 제안한다. 실험 및 결과 분석을 통하여 제안 방법이 기존에 대응하지 못했던 롱테일 질의를 자연스럽게 확장할 수 있음을 보였다. 본 연구 결과를 실제 서비스에 접목함으로써 사용자의 검색 편리성을 증대하는 동시에, 언어 모델링 기반 질의 확장에 대한 가능성을 확인하였다.

  • PDF

규칙기반 한글 자동 프로그램을 위한 프로그램 변형기법 (A Program Transformational Approach for Rule-Based Hangul Automatic Programming)

  • 홍성수;이상락;심재홍
    • 한국정보처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.114-128
    • /
    • 1994
  • 초고급 언어에 의한 자동 프로그래밍은 프로그램의 자료구조 이외에 많은 부분을 시스템이 관장함으로써 프로그램 명세의 표현이 추상적이지만 프로그램 의미소가 술 어논리, 집합, 사상, 혹은 제안된 자연언어를 사용하기 때문에 초고급 구조에 익숙하 지 않은 프로그래머들이 이를 이용하여 프로그램을 작성하는 경우 상당한 어려움이 따 르고, 이들 초고급언어 구조에 익숙하기까지 많은 시간이 요하게 된다. 왜냐하면 초 고급언어는 프로그램 명세의 표현이 추상적이지만 프로그램 의미소가 술어 논리, 집합, 사상, 혹은 제한된 자연언어를 사용하기 때문이다. 본 논문에서는 기존의 자동 프로 그램의 어려움을 줄이기 위해서 한글로 구성된 선언적구문, 절차적 구문, aggregate 구문으로 광역언어를 설계하고 구현한다. 본 논문에서는 제안하는 한글 자동 프로그래 밍 시스템(Hangul Automatic Programming)은 입력으로 순수한 한글로 구성되어 있으며 추상 알고리즘(Abstract Algorithm)과 자료형(Data Type)혹은 절차적 구문을 받아서 출력으로는 C 언어 프로그램을 만들어 낸다. 자동 프로그래밍 접근 방식은 프로그램 변형기법과 규칙기반에 바탕을 두고 문제영역은 일반적인 프로그램으로 한정 하였다. 시스템 제어구조는 한글 프로그램을 입력으로 받아서 지식베이스로부터 적절한 규칙 을 선택해서 이것을 변형한 다음 전체 데이타 베이스에 넣는데 이과정을 프로그램이 완성 될 때 까지 반복한다.

  • PDF

KoDialoGPT2 : 한국어 일상 대화 생성 모델 (KoDialoGPT2 : Modeling Chit-Chat Dialog in Korean)

  • 오동석;박성진;이한나;장윤나;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.457-460
    • /
    • 2021
  • 대화 시스템은 인공지능과 사람이 자연어로 의사 소통을 하는 시스템으로 크게 목적 지향 대화와 일상대화 시스템으로 연구되고 있다. 목적 지향 대화 시스템의 경우 날씨 확인, 호텔 및 항공권 예약, 일정 관리 등의 사용자가 생활에 필요한 도메인들로 이루어져 있으며 각 도메인 별로 목적에 따른 시나리오들이 존재한다. 이러한 대화는 사용자에게 명확한 발화을 제공할 수 있으나 자연스러움은 떨어진다. 일상 대화의 경우 다양한 도메인이 존재하며, 시나리오가 존재하지 않기 때문에 사용자에게 자연스러운 발화를 제공할 수 있다. 또한 일상 대화의 경우 검색 기반이나 생성 기반으로 시스템이 개발되고 있다. 검색 기반의 경우 발화 쌍에 대한 데이터베이스가 필요하지만, 생성 기반의 경우 이러한 데이터베이스가 없이 모델의 Language Modeling (LM)으로 부터 생성된 발화에 의존한다. 따라서 모델의 성능에 따라 발화의 품질이 달라진다. 최근에는 사전학습 모델이 자연어처리 작업에서 높은 성능을 보이고 있으며, 일상 대화 도메인에서도 역시 높은 성능을 보이고 있다. 일상 대화에서 가장 높은 성능을 보이고 있는 사전학습 모델은 Auto Regressive 기반 생성모델이고, 한국어에서는 대표적으로 KoGPT2가 존재한다. 그러나, KoGPT2의 경우 문어체 데이터만 학습되어 있기 때문에 대화체에서는 낮은 성능을 보이고 있다. 본 논문에서는 대화체에서 높은 성능을 보이는 한국어 기반 KoDialoGPT2를 개발하였고, 기존의 KoGPT2보다 높은 성능을 보였다.

  • PDF

복합명사 분할과 명사구 합성을 이용한 통합 색인 기법 (Integrated Indexing Method using Compound Noun Segmentation and Noun Phrase Synthesis)

  • 원형석;박미화;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권1호
    • /
    • pp.84-95
    • /
    • 2000
  • 본 논문에서는 명사구 색인과 복합명사 분할을 포함한 복합명사 처리를 위해 통계 정보와 자연언어 처리를 제한적으로 이용 가능하게 하는 통합적 색인 기법을 제안한다. 먼저 색인과 검색에서 복합명사 분할 및 합성 모두를 고려한 통합 기법을 제시하고, 이를 위해 통계 정보와 제한적인 자연언어 처리를 모두 이용하는 통합 색인 기법을 제안한다. 먼저 형태소 분석 및 태깅 과정에서 단일어를 색인어로 추출하고 구문분석의 결과에서 명사구를 합성해 낸다. 구문 분석 실패 시에는 형태소 분석 및 태깅의 결과만을 사용하게 된다. 또한 태깅의 결과에서 복합명사를 골라 통계 정보를 이용하여 단일 명사로 분할하고 재합성한다. 분할된 단일 명사와 합성된 명사구는 기존의 단일어로만 이루어진 색인어를 보완하기 위해 색인어로 사용된다. 실험은 한국어 정보검색의 실험 집합인 KTSET 2.0과 KRIST SET을 사용하여 통합색인 기법이 복합명사 처리에 효율적임을 보였다.

  • PDF

CRFs와 Bi-LSTM/CRFs의 비교 분석: 자동 띄어쓰기 관점에서 (CRFs versus Bi-LSTM/CRFs: Automatic Word Spacing Perspective)

  • 윤호;김창현;천민아;박호민;남궁영;최민석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-192
    • /
    • 2018
  • 자동 띄어쓰기란 컴퓨터를 사용하여 띄어쓰기가 수행되어 있지 않은 문장에 대해 띄어쓰기를 수행하는 것이다. 이는 자연언어처리 분야에서 형태소 분석 전에 수행되는 과정으로, 띄어쓰기에 오류가 발생할 경우, 형태소 분석이나 구문 분석 등에 영향을 주어 그 결과의 모호성을 높이기 때문에 매우 중요한 전처리 과정 중 하나이다. 본 논문에서는 기계학습의 방법 중 하나인 CRFs(Conditional Random Fields)를 이용하여 자동 띄어쓰기를 수행하고 심층 학습의 방법 중 하나인 양방향 LSTM/CRFs (Bidirectional Long Short Term Memory/CRFs)를 이용하여 자동 띄어쓰기를 수행한 뒤 각 모델의 성능을 비교하고 분석한다. CRFs 모델이 양방향 LSTM/CRFs모델보다 성능이 약간 더 높은 모습을 보였다. 따라서 소형 기기와 같은 환경에서는 CRF와 같은 모델을 적용하여 모델의 경량화 및 시간복잡도를 개선하는 것이 훨씬 더 효과적인 것으로 생각된다.

  • PDF

일-한 기계 번역에 있어서 한국어 술부의 생성과 평가 (Generation of Korean Predicates for Japanese-Korean Machine Translation System and its Evaluation)

  • 김정인;문경희;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-337
    • /
    • 1996
  • 일-한 기계 번역을 연구하는 많은 연구자들은 양국어의 문절-어절 단위의 어순 일치와 같은 구조적 유사성을 최대한 이용하기 위해 직접 번역 방식을 채택하고 있다. 그러나, 일본어와 한국어 술부간에는 대응하는 품사의 불일치 및 국부적인 어순의 불일치 등이 어려운 문제로 남아 있다. 본 논문에서는 이들 술부 표현의 불일치를 해결하기 위해 이미 제안하였던 "양상 테이블을 기반으로 한 한국어 술부의 생성 방법"에 대해 좀더 체계적인 평가를 하고자 한다. 이 방법은 술부만을 대상으로 하는 추상적이고 의미 기호적인 양상 자질(modality feature)을 테이블화(양상 테이블)하여, 양국어의 술부 표현의 피봇(pivot)으로 이용함으로써 술부 양상 표현의 효과적인 번역을 가능하게 하였다. 일본어 499 문을 대상으로 실제 술부의 번역처리를 시행해 본 결과, 약 97.7%가 자연스럽게 번역됨을 확인하였다. 특히, 술부의 생성 부분은 일본어에 의존하지 않는 양상 테이블을 도입함으로써 일-한뿐만 아니라 다른 언어로부터의 한국어 술부 생성에도 적용시킬 수 있을 것이다.

  • PDF

한영 기계번역에서의 효율적인 구문분석과 번역을 위한 유한상태 변환기 기반 전처리기의 설계 및 구현 (Design and Implementation of Finite-State-Transducer Preprocessor for an Efficient Parsing and Translation in Korean-to-English Machine Translation)

  • 박준식;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.128-134
    • /
    • 1999
  • 기계번역이나 정보검색 등에 적용되는 자연언어처리기술에 있어서 구문분석은 매우 중요한 위치를 차지한다. 하지만, 문장의 길이가 증가함에 따라 구문분석의 복잡도는 크게 증가하게 된다. 이를 해결하기 위한 많은 노력 중에서 전처리기의 지원을 통해 구문분석기의 부담을 줄이려는 방법이 있다. 본 논문에서는 구문분석의 애매성과 복잡성을 감소시키기 위해 유한상태 변환기 (Finite-State-Transducer FSI)를 이용한 전처리기를 제안한다. 유한상태 변환기는 사전표현, 단어분할, 품사태깅 등에 널리 사용되어 왔는데, 본 논문에서는 유한상태 변환기를 이용하여 형태소 분석된 문장에서 시간표현 등의 제한된 표현들을 구문요소화하는 전처리기를 설계 및 구현하였다. 본 논문에서는 기계번역기에서의 구문분석기 뿐만 아니라 변환지식의 모듈화를 지원하기 위해 유한상태 변환기를 이용하여 시간표현 등의 부분적인 표현들을 번역하는 방법을 제안한다. 또한 유한상태 변환기의 편리한 작성을 위하여 유한상태 변환기 작성 지원도구를 구현하였다. 본 논문에서는 전처리기의 적용을 통해 구문분석기의 부담을 덜어 주며 기계번역기의 변환부분의 일부를 성공적으로 담당할 수 있음을 보여 준다.

  • PDF

한국어 어휘의미망에 기반을 둔 어의 중의성 해소 시스템의 구현 (Implementation of Word Sense Disambiguation System based on Korean WordNet)

  • 김민호;황명진;신종훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.96-102
    • /
    • 2008
  • 자연언어처리에서 어휘의 의미를 구분하는 것은 기계번역이나 정보검색과 같은 여러 응용 분야에서 매우 중요한 역할을 한다. 국내에서도 여러 어의 중의성 해소 시스템이 소개되었으나 대부분 시스템이 의미 부착 말뭉치를 이용한 감독 학습 방식을 기반으로 두고 있다. 본 논문은 한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 시스템을 소개한다. 일반적으로 감독어의 중의성 해소 시스템은 비감독 어의 중의성 해소 시스템보다 성능은 좋으나 대규모의 의미 부착 말뭉치가 있어야 한다. 그러나 본 시스템은 한국어 어휘의미망과 의미 미부착 말뭉치에서 추출한 어휘 통계정보를 이용해, 의미 부착 말뭉치에서 추출한 의미별 통계 정보를 이용하는 감독 중의성 해소 방법과 같은 효과를 낸다. 본 시스템과 타 시스템의 성능 비교를 위해 'SENSEVAL-2' 평가 대회의 한국어 평가 데이터를 이용하였다. 실험 결과는 추출된 통계 정보를 바탕으로 우도비를 이용하였을 때 정확도 72.09%, 관계어 가중치를 추가로 이용하였을 때 정확도 77.02%로 감독 중의성 해소 시스템보다 높은 성능을 보였다.

  • PDF