• 제목/요약/키워드: 한국어 말뭉치

검색결과 522건 처리시간 0.063초

말뭉치의 통계정보를 이용한 한국어 글쓰기 도우미 시스템 (Korean Writing Assistant System using Corpus Statistics)

  • 이재승;유주현;이현호;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.206-208
    • /
    • 2015
  • 온라인을 통해 접하게 되는 잘못된 우리말 표현과 외국어 중심 교육 등으로 인하여 학생들의 한국어 능력, 특히 글쓰기 능력에 우려가 높아지고 있다. 본 논문에서는 잘 작성된 말뭉치에서 얻어진 데이터에 기반한 한국어 글쓰기 도우미 시스템을 제안한다. 시스템은 작성 중인 문맥에 맞은 단어를 추천하는 용언/체언 추천과 입력 문장의 주요 단어가 포함된 말뭉치의 문장을 제시하는 유사 문장 추천, 문서의 단어가 문서의 문맥 단어와 조화로운지를 확인하는 어휘 응집성 검사, 단어 중복도를 확인하기 위한 단어 빈도 검사 기능을 제공한다. 시스템에서는 사용자가 말뭉치를 추가하면 색인을 구축할 수 있어 원하는 분야에 맞는 추천과 검사 기능을 제공할 수 있다.

  • PDF

이국어 병렬말뭉치와 중간언어를 활용한 이국어 사전 자동구축 (Automatic bilingual lexicon construction via bilingual parallel corpus and pivot language)

  • 서형원;권홍석;김재훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.307-310
    • /
    • 2013
  • 본 논문은 한국어-스페인어와 한국어-불어 간의 양방향 이국어 사전(Bi-directional bilingual lexicon)을 자동으로 구축하기 위한 새로운 방법을 제안한다. 일반적으로 한국어와 스페인어/불어 간의 병렬 말뭉치를 직접적으로 구축하기에는 어려움에 따르기 때문에, 영어를 중심언어로 하는 영어(EN)-한국어(KR)/스페인어(ES)/불어(FR) 병렬 말뭉치를 이용하여 문맥 벡터를 만들고 그들 간의 유사도를 계산하는 변형된 문맥 벡터 방법을 제안한다. 영어는 다른 언어와의 이국어 병렬 말뭉치가 비교적 많이 공개되어 있기 때문에 이 방법을 이용하면 비교적 쉽게 KR-ES와 KR-FR 양방향 이국어 사전을 구축할 수 있다. 본 논문에서 제안한 방법으로 실험해본 결과 최고 85%(ES${\rightarrow}$KR)의 정확도를 얻을 수 있었다.

Kane: 의미정보 말뭉치 구축 도구 (Kane: Knowledge Annotation Tool for Semantic Information)

  • 배원식;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.121-125
    • /
    • 2009
  • 본 논문에서는 의미정보 말뭉치 구축 도구인 Kane에 대해 설명한다. 형태소 분석기나 구문 분석기, 개체명 인식기 등 자연어처리를 위한 기본이 되는 시스템에는 말뭉치가 필요하며, 말뭉치의 구축에는 많은 비용이 든다. 일반적으로 말뭉치 구축 작업은 전용 구축 도구가 없이 문서 편집기를 사용하여 이루어지는 경우가 많아 말뭉치 구축 작업 효율이 떨어지고, 자연스럽게 구축되는 말뭉치의 품질도 낮아진다. 문서 편집기를 사용할 때 발생하는 대표적인 문제는 키보드를 이용한 기계적인 작업이 반복된다는 것이며, 키보드 입력에 따른 오타 문제 또한 발생한다. Kane에서는 기계적인 작업 및 키보드 입력을 간편한 인터페이스를 통해 최소화하였으며, 마우스 조작으로도 쉽게 말뭉치를 구축할 수 있다. 또한 사전을 이용한 이전 작업 내용 참조 기능을 지원하여 작업의 효율성 및 일관성 문제를 개선하고자 하였다.

  • PDF

PPeditor: 한국어 의존구조 말뭉치 구축 도구 (PPeditor: A Corpus Annotation Tool for Korean Dependency Structures)

  • 박은진;김재훈;김강민;김창현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.741-744
    • /
    • 2005
  • 효과적인 언어처리 시스템을 개발하기 위해서는 언어정보가 부착된 대량의 말뭉치가 필요하다. 그러나, 대량의 말뭉치를 구축하기 위해서는 많은 시간과 노력이 필요하다. 이와 같은 시간과 노력을 절약하기 위해서 일반적으로 말뭉치 구축 도구를 사용한다. 본 논문에서는 한국어 의존구조 말뭉치를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 개발된 구축 도구는 여러 가지 특징을 가지고 있다. 1) 특정 응용분야에 관계없이 두루 사용할 수 있다. 2) 분석 단계와 분석 오류를 연계하여 작업의 집중도를 높였다. 3) 가능한 한 오류는 축적되지 않도록 하여 구축된 말뭉치의 질을 크게 개선할 수 있었다. 4) 구축된 정보는 서로 공유할 수 있도록 하여 작업의 일관성을 극대화하였다. 5) 초보자로 사용자가 쉽게 도구를 사용할 수 있도록 인터페이스를 설계하였다. 본 논문에서 개발된 구축 도구를 이용하여 8 명의 연구원이 약 2 개월 (하루에 평균 4 시간)에 걸쳐서 10,000 문장의 의존구조 말뭉치를 구축할 수 있었다. 구축된 말뭉치에는 형태소 정보, 구묶음 정보, 의존구조 정보가 부착되어 있다.

  • PDF

말뭉치 자동 확장을 통한 SMT 성능 향상에 대한 연구 (Research about SMT Performance Improvement Through Automatic Corpus Expansion)

  • 최규현;신종훈;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.296-299
    • /
    • 2016
  • 현재 자동번역에는 통계적 방법에 속하는 통계기반 자동번역 시스템(SMT)이 많이 사용되고 있지만, 학습 데이터로 사용되는 대용량의 병렬 말뭉치를 수동으로 구축하는데 어려움이 있다. 본 연구의 목적은 통계기반 자동번역의 성능을 향상시키기 위해 기존 다른 언어쌍의 말뭉치와 SMT 자동번역 기술을 이용하여 대상이 되는 언어쌍의 SMT 병렬 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안 방법은 서로 다른 언어 B와 C의 병렬 말뭉치를 얻기 위해, A와 B의 SMT 자동번역 시스템을 구축하고 기존의 A-C 말뭉치의 A를 SMT를 통해 B로 번역하여 B와 C의 말뭉치를 자동으로 확장한다. 실험을 통해 확장한 병렬 말뭉치가 통계기반 자동번역 시스템의 성능을 향상시킬 수 있음을 확인한다.

  • PDF

KoNLPy: 쉽고 간결한 한국어 정보처리 파이썬 패키지 (KoNLPy: Korean natural language processing in Python)

  • 박은정;조성준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2014
  • 파이썬은 간결한 아름다움을 추구하는 동시에 강력한 스트링 연산이 가능한 언어다. KoNLPy는 그러한 특장점을 살려, 파이썬으로 한국어 정보처리를 할 수 있게 하는 패키지이다. 꼬꼬마, 한나눔, MeCab-ko 등 국내외에서 개발된 여러 형태소 분석기를 포함하고, 자연어처리에 필요한 각종 사전, 말뭉치, 도구 및 다양한 튜토리얼을 포함하여 누구나 손쉽게 한국어 분석을 할 수 있도록 만들었다.

  • PDF

심층신경망을 활용한 제어가능 말뭉치 시각화 기법 (Constrained Corpus visualization using neural network)

  • 정지수;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.389-393
    • /
    • 2020
  • 말뭉치를 구성하고 있는 문장들 사이의 관계가 반영된 시각화는 말뭉치 전체의 구조나 유사의미 문장군의 분포 등을 파악하는데 매우 유용하게 활용될 수 있다. 본 연구에서는, 유사한 의미를 가지는 문장들은 서로 가까이에 분포하도록 시각화되어야 한다는 제어조건을 사용자가 제공했을 때, 해당 조건이 만족되도록 2차원 공간에 말뭉치의 각 문장을 시각화하는 기법을 소개한다.

  • PDF

세종 문어체 말뭉치를 위한 말뭉치 데이터 추출 도구 (Corpus Data Extracting Tool for Sejong Text Corpus)

  • 박일남;장우석;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.1102-1105
    • /
    • 2010
  • 본 논문에서는 세종 말뭉치 데이터를 활용할 때 한글코드의 변환 및 말뭉치에서 필요한 정보 추출 등 한국어 말뭉치에서 통계 정보를 추출하는데 사용되는 여러 가지 기능들을 한데 묶어, 말뭉치 작업의 사용자 편의성을 개선시키기 위한 도구를 설계, 구현하였다. 이 말뭉치 활용 도구는 세종 말뭉치의 원시, 형태, 형태의미, 구문 말뭉치들을 다양한 옵션에 따라 사용자가 원하는 데이터를 추출할 있을 뿐만 아니라 일반적인 한글 텍스트 파일에 공통적으로 사용되는 코드 변환, 파일 합병, 빈도 계산 등을 제공하기 때문에 말뭉치 작업을 하는 사용자들이 편리하게 사용할 수 있게 하였다.

MovieDic 말뭉치를 이용한 대화 참여 모델의 구성 (Construction of Dialog Engagement Model using MovieDic Corpus)

  • 구상준;유환조;이근배
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.249-251
    • /
    • 2016
  • 다중 화자 대화 시스템에서, 시스템의 입장에서 어느 시점에 참여해야하는지를 아는 것은 중요하다. 이러한 참여 모델을 구축함에 있어서 본 연구에서는 다수의 화자가 대화에 참여하는 영화 대본으로 구축된 MovieDic 말뭉치를 사용하였다. 구축에 필요한 자질로써 의문사, 호칭, 명사, 어휘 등을 사용하였고, 훈련 알고리즘으로는 Maximum Entropy Classifier를 사용하였다. 실험 결과 53.34%의 정확도를 기록하였으며, 맥락 자질의 추가로 정확도 개선을 기대할 수 있다.

  • PDF

한국어 의미역 결정을 위한 자질 정보 확장 (Expansion of Feature Information for Korean Semantic Role Labeling)

  • 조병철;석미란;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-186
    • /
    • 2015
  • 의미역 결정은 주어진 술어와 의존 관계에 있는 여러 논항들과 그 술어간의 의미 관계를 결정하는 것이다. 의미역 결정은 보통 대량의 말뭉치를 이용하여 분류의 관점에서 문제를 해결하고자 한다. 본 논문에서는 한국어 구문 표지 부착된 말뭉치에 구축한 의미역 표지 부착 말뭉치 10,000 문장을 이용한 자동 의미역 결정 방법을 제안한다. 특히, 한국어는 그 특성상 조사와 어미가 문법 관계뿐만 아니라 의미 관계 설정에도 매우 중요한 역할을 하기 때문에 기존의 의미역 결정 연구에서 미비했던 부분인 조사와 어미 정보를 개선하여 새로운 자질 (features) 로 설계하여 의미역 결정을 시도하였다. 기존의 다른 언어에서의 의미역 결정 연구에서 사용된 자질에 본 논문에서 제시된 접사 정보에 기반한 자질을 추가하게 되면 약 77.9%의 F1 점수를 얻을 수 있었는데, 이는 기존 연구에 비하여 약 10% 포인트 향상된 결과이다.

  • PDF