• 제목/요약/키워드: 한국어정보처리

검색결과 2,780건 처리시간 0.031초

단어의 음성학적 특징을 이용한 한국어 기계 번역 데이터 세트 구축 방안 (Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features)

  • 장칭하오;양홍진;김세린;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.592-595
    • /
    • 2022
  • 한국어에서 한자어와 외래어가 차지하는 비중은 매우 높다. 일상어의 경우 한자어와 외래어의 비중이 약 53%, 전문어의 경우 약 92%에 달한다. 한자어나 외래어는 중국이나 다른 나라로부터 영향을 받아 한국에서 쓰이는 단어들이다. 한국어에서 사용되는 한자어와 외래어의 한글 표기과 원어 표기를 발음해보면, 발음이 상당히 유사하다는 것을 알 수 있다. 한자어인 도서관(图书馆)을 중국어로 발음해보면 thu.ʂu.kwan'로 해당 단어에 대한 한국 사람의 발음과 상당히 유사하다. 본 논문에서는 Source Length, Source IPA Length, Target Length, Target IPA Length, IPA Distance 등 총 5가지의 음성학적 특징을 고려한 한국어-중국어 한국어-영어 단어 기계번역 데이터 세트를 구축하고자 한다.

  • PDF

메타 검색을 위한 한국어 질의 생성에 관한 연구 (A Study on Korean Query Generation for Meta Retrieval)

  • 이덕남;이용석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.687-690
    • /
    • 2005
  • 인터넷의 급속한 팽창으로 인해 가용 정보의 양이 폭발적으로 증가하고 있으나 이에 대응되는 효과적이고 효율적인 정보 검색 능력의 지원이 없다면 방대한 가용 정보들은 정보 사용자들에게 있어 이용 될 가치가 없으며 이는 곧 정보 범람(information overflow)으로 이어진다. 본 논문에서는 이에 대한 해결 방안으로써 한국어 표준 문형의 패턴을 기술하고 한국어 문장 구조(Korean Syntax Structure) 파악을 통한 메타 검색 시스템 설계를 제안한다.

  • PDF

식당예약 및 추천을 위한 한국어 대화 코퍼스 구축 연구 (A Study on Building Korean Dialogue Corpus for Restaurant reservation and recommendation)

  • 소아람;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.630-632
    • /
    • 2018
  • 최근 딥러닝(Deep Learning)기반 연구가 활발해짐에 따라 딥러닝 모델 기반의 대화 시스템 연구가 활성화되고 있다. 하지만 이러한 연구는 다량의 데이터를 기반으로 이루어지기 때문에 데이터 구축 연구의 필요성이 증가하고 있다. 기존에 공개된 대화 코퍼스는 대부분 영어로 이루어져있어 한국어 대화 시스템에는 적용하기 어렵다. 본 논문에서는 한국어 대화 코퍼스 구축을 위하여 식당예약 및 추천을 위한 한국어 대화를 수집하였으며, 총 498개의 대화를 수집하였다. 대화는 식당 예약 및 추천을 위한 12개의 정보를 수집할 수 있도록 구성하였다. 또한 데이터의 활용성을 높이기 위하여 데이터 후처리 작업으로 12개의 정보를 태깅작업을 하였다.

  • PDF

모두의 말뭉치를 이용한 한국어 다의어 분별 (Korean Polysemy Word-Sense-Disambiguation using MoDu-Corpus)

  • 신준철;이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-210
    • /
    • 2020
  • 한국어 자연어처리 분야가 발달하면서 동형이의어 분별을 한 단계 넘어선 다의어 분별의 중요성이 점점 상승하고 있다. 최근에 다의어가 태깅된 "모두의 말뭉치"가 발표되었고, 이 말뭉치는 다의어가 태깅된 최초의 공개 말뭉치로써 다의어 연구가 본격적으로 진행될 수 있음을 의미한다. 본 논문에서는 이 말뭉치를 학습하여 작동하는 다의어 분별의 초기 모델을 제시하며, 이 모델의 실험 결과는 차후 연구를 위한 비교 기준점이 될 수 있다. 이 모델은 딥러닝을 사용하지 않은 통계형으로 개발되었고, 형태소분석과 동형이의어 분별은 기존의 UTagger로 해결하고 말뭉치 자원 외에도 UWordMap을 사용하여 다의어 분별을 보조하였다. 이 모델의 정확률은 약 87%이며, 다의어 분별 전에 형태소분석 또는 동형이의어 분별 단계에서 오류가 난 것을 포함한다. 현재까지 공개된 이 말뭉치는 오직 명사만 다의어 주석이 있기 때문에 명사만 정확률 측정 대상이 되었다. 이 연구를 통하여 다의어 분별의 어려움과, 다의어 분별에는 동형이의어 분별과는 다른 방법이 필요하다는 것을 확인할 수 있었다.

  • PDF

정보 검색용 다중 스레드 한국어 형태소 해석기 (A Korean Morphological Analyzer Supports Multi-Threads)

  • 최유경;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-47
    • /
    • 2001
  • 본 논문에서는 한국어 형태소 해석기에 다중 스레드 기법을 도입하여 다중 처리가 가능하도륵 하였다. 기존의 여러 형태소 해석기들은 언어 분석에만 관심이 있었기 때문에 다량의 문서를 동시에 처리하는 기능을 고려하지 않았다. 그러나 형태소 해석기가 정보 검색 시스템 분야에서 사용되기 시작하면서, 다수의 사용자가 대량의 문서를 처리해야 하는 필요성이 생겼다. 스레드 간에는 메모리 영역과 같은 자원을 공유한다. 이러한 특징 때문에 자칫하면 예상치 못한 결과가 야기될 수 있다. 따라서, 다중 스레드 기법을 사용하기 위해서는 스레드의 특징을 고려한 조치가 필요하다 기존의 한국어 형태소 해석기의 소스 코드를 분석하여 자주 사용되는 전역 변수는 하나의 구조체로 구성하였다. 그리고 이러한 전역 변수와 크기가 큰 지역 변수를 사용할 때 메모리를 동적으로 할당하였다. 또한, 파일에서 입력값을 읽어오거나 파일에 결과값을 쓰는 등 여러 스레드가 접근할 때 값이 변경될 위험이 있는 부분은 조건 변수를 이용하여 동기화 시켰다. 구현된 시스템의 검증을 위하여, 단일 스레드 방식으로 순차적인 처리를 하는 원래의 형태소 해석기와 비교 실험을 실시하였다. 35Kbyte 문서 30개를 처리하는 경우, 다중 처리가 가능한 형태소 해석기가 단일 스레드 방식의 형태소 해석기보다 처리속도가 약 12% 향상되었다.

  • PDF

한국어-일본어 정렬 기법 연구 (Aligning Word Correspondence in Korean-Japanese Parallel Texts)

  • 김태완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2001
  • 병렬 코퍼스의 확보가 과거에 비해 용이하게 됨에 따라 기계번역, 다국어 정보 검색 등 언어처리시스템에 사용하기 위한 대역 사전 구축의 도구로서 정렬(Alignment) 기법에 대한 연구가 필요하다. 본 논문에서는 한국어-일본어 병렬 코퍼스를 이용한 정렬 기법에 관하여 제안한다.

  • PDF

KoNLTK: 한국어 언어 처리 도구 (KoNLTK: Korean Natural Language Toolkit)

  • 남규현;이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.611-613
    • /
    • 2018
  • KoNLTK는 한국어와 관련된 다양한 언어자원과 언어처리 도구들을 파이썬 플랫폼에서 하나의 인터페이스 환경에서 제공하기 위한 언어처리 플랫폼이다. 형태소 분석기, 개체명 인식기, 의존 구조 파서 등 기초 분석 도구들과 단어 벡터, 감정 분석 등 응용 도구들을 제공하여 한국어 텍스트 분석이 필요한 연구자들의 편의성을 증대시킬 수 있다.

  • PDF

코퍼스 확률에 기반한 한국어 표준발음 생성 (The Corpus-probability Based Generation of Korean Standard Pronunciation)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.210-215
    • /
    • 2007
  • 본 연구에서는 코퍼스 확률에 기반하여 한국어 표준 발음 생성에 대한 연구를 한다. 기존의 이은영 외 (2005)에서 연구된 규칙기반의 한국어 IPA 발음 변환방식과는 달리 본 연구에서는 음운변환 코퍼스를 바탕으로 표준발음을 변환한다. 이 방식을 위해서 Brill(1995)에서 제안한 변형기반 학습방식이 활용되었으며, 단계적인 처리방식이 아닌 입-출력 대응 방식의 확률적 처리 방식이 제안되었다. 음운변환 방식은 음운규칙에 근거한 처리가 아닌 언어자원인 코퍼스를 활용해서 처리하였다는 점에서 기존의 연구방식과 차이가 있다. 또한, 기존 연구에서는 음운규칙을 단계적으로 적용하여서 입력형이 출력형으로 도출되기 위해서 여러 단계를 거쳤지만, 본 연구에서는 입력형과 출력형의 일대일 대응이라는 점에서 차이점을 보인다.

  • PDF

한국어 생략어복원 가이드라인 (Korean Zero Anaphora Resolution Guidelines)

  • 류지희;임준호;임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

모빌구조와 표지 개념에 의한 지식기반적 한국어 구문분석기 개발 (Developing Knowledge-Based Korean Syntactic Parser In terms of Mobile Configuration and Marker Theory)

  • 우순조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-190
    • /
    • 2003
  • 이 글은 활용 개념과 수형도를 근간으로 기술되어 온 한국어 문법 모델에 대한 대안으로 표지 개념과 모빌 구조를 제시하고 이를 바탕으로 개발된 한국어 구문분석기의 특성을 소개하고자 한다. 먼저, 조사와 어미를 독자적인 토사 단위인 표지로 처리함으로써 국부 구조의 통사 범주와 문법적 기능을 명확하고 일관되게 구분할 수 있으며, 모빌 구조는 한국어의(상대적) 자유 어순 현상을 효과적으로 기술할 수 있다. 이에 의거한 문법 모형은 언어학적 지식과 구문분석 엔진 사이의 독립성을 향상시킴으로써 향후 구문분석기의 성능 개선을 보다 용이하게 한다. 이 글에서 소개하는 구문분석기는 언어학자에 의해 구축된 지식을 이용한다는 점에서 지식기반적이라고 할 수 있는데 여기에는 동사의 하위범주화 정보, 첨어 유형정보, 의미정보가 핵심적인 언어 지식으로 이용된다. 모빌 구조에 의한 구문분석은 국부 구조를 단순화함으로써 구문적 중의성을 최소화하며, 의미정보는 주어진 술어의 논항적 자격을 검증하는 기준으로 작용하여 구문적 중의성을 감소시키고 정확한 분석을 가능하게 한다.

  • PDF