• 제목/요약/키워드: 어휘지식

검색결과 143건 처리시간 0.023초

어휘의미분석 기반 다국어 어휘대역 서비스 (Multilingual Word Translation Service based on Word Semantic Analysis)

  • 류법모
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.75-83
    • /
    • 2018
  • 다문화 가정 구성원은 언어 차이 때문에 자녀 교육에서 어려움을 겪고 있다. 이와 같은 어려움을 해결하기 위해서는 실생활에 필요한 한국어 용어들을 간편하고 신속하게 접근할 수 있는 스마트 번역 서비스를 이들에게 제공할 필요가 있다. 그러나 현재의 자동 번역 기술은 영어, 중국어, 일본어 등의 주요 국가 언어 중심으로 개발 되고 있으며, 자녀의 교육, 공공기관과의 소통 등 특수 목적의 용어들은 번역하기에는 한계가 있다. 본 연구에서는 초급 수준의 한국어를 이해하고 있는 다문화가정 구성원을 위한 실시간 자동 어휘대역어 서비스를 제안한다. 어휘대역어 서비스는 한국어 문장에 표현된 각 단어들의 의미를 자동으로 분석하여 다국어 대역어를 제공한다. 이를 위하여 한국어 의미분석 연구, 다국어 번역지식 구축 연구, 언어교육 연구의 융합연구를 수행하였다. 어휘대역서비스를 베트남, 일본 출신의 결혼이주여성을 대상으로 평가하여 의미있는 평가결과를 얻었다.

의학 전문용어의 정의문 자동 추출 (Automatic Extraction of Medical Term Definition from Texts)

  • 김재호;배선미;신효식;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.922-924
    • /
    • 2004
  • 지식 정보의 확산에 따라 기존 전문분야 용어집에 수록되지 않은 용어의 수가 폭발적으로 증가하고 있다 이에 따라 용어집을 자동으로 구축하는 작업이 필요하게 되었다. 본 논문에서는 의학분야 코퍼스에서 주어진 전문용어에 대한 정의문을 자동으로 추출하는 방법을 제안한다. 우선, 정의문의 구문적 패턴과 용어의 어휘구성 패턴을 이용하여 용어의 상위개념을 추정한다. 상위개념별로 구축된 특성 어휘 목록을 이용하여 구문적 패턴으로 뽑힌 문장에 등장하는 어휘의 적합성 여부를 판단하여 정의문을 추출한다. 실험 결과 코퍼스에 정의 정보가 있는 48개의 용어에 대하여 71.43%의 정확률을 보인다.

  • PDF

연구자 간 협업 지원 서비스를 위한 지식 베이스 설계 (A Design of Knowledge Base for the Service of Collaboration Support between Researchers)

  • 정한민;성원경;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.173-178
    • /
    • 2005
  • 지식 베이스는 대량의 인적 물적 자원을 투입하고 철저한 설계에 기반하여 구축하여야 하는 부담이 큰 자원이다. 그렇지만, 지식 베이스 없이 다양한 응용 분야와 서비스를 만족시키는 시스템을 구축할 수 없기 때문에 그 중요성을 인정하지 않을 수 없다. 기존의 지식베이스 구축에 있어서 간과했던 것들의 하나는 응용 분야와 서비스를 명확히 하고, 해당분야에 안는 지식 베이스를 선택해야 한다는 것이다. 어휘의미망을 포함하여 시소러스를 범용 또는 여러 분야에서 구축하고 있으나 이들이 어떤 서비스에 도움이 되는지를 확실히 분석하지 못함으로 인해 응용 시스템에서 제 기능을 다하지 못하고 있으며, 온톨로지 또한 근본적으로 분야와 활용 목적에 의존적이어서 이를 고려하여 설계를 하지만 시소러스나 용어 사전과 같은 기본적인 지식 베이스와의 연계를 통한 효율성 재고라는 측면에서 약점을 보여왔다. 본 연구에서는 사용자 질의와 실 데이터간의 어휘 불일치 해소를 위해 시소러스를 설계 구축하고 온톨로지의 사례화 결과인 인스턴스와 연동시킴으로써 연구자 간 협업 지원 서비스를 제공할 수 있는 기반 자원으로서의 지식 베이스 구축에 초점을 둔다.

  • PDF

온톨로지 객체 모델 생성 시스템 설계 (Design of Ontology Object Model Generation System)

  • 박천수;이미경;손주찬;함호상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.1297-1300
    • /
    • 2003
  • 본 논문은 웹 온톨로지 데이터를 접근, 표현 및 처리 할 수 있는 온톨로지 객체 모델을 생성하기 위한 시스템이다. 시멘틱 웹의 대두로 인해 웹 상에 존재하는 데이터의 특성에 따라서 접근 할수 있는 방법도 다양화 되었다. 이에 웹 상에서 산재되어 있는 지식들을 가져와 각 도메인에 맞게 새로운 온톨로지를 생성하고 서로 다른 언어로 표현된 온톨로지를 계층 어휘들을 이용하여 시멘틱웹 환경에서 지식을 처리하기 위해 웹 온톨로지를 구축하고 처리할 수 있는 온톨로지 객체 모델을 제공하고, 온톨로지 객체 모델 API를 통해 외부 어플리케이션과의 정보를 교환한다. 본 논문에서는 웹 온톨로지를 표현하기 위한 모델을 계층별로 구별하여 프레임 기반의 상위 온톨로지(frame-based ontology layer), 다른 도메인에서도 사용이 가능한 공통된 어휘(vocabulary)를 표현한 핵심 온톨로지(generic ontology layer)와 각각의 온톨로지 언어에 의존적인 어휘를 표현한 기능 온톨로지(functional ontology layer)로 구성하여 표현의 중복을 없애고 재 사용성을 높이기 위한 모델을 제공함으로써, 온톨로지 추론, 병합 및 저작 도구 등의 외부 어플리케이션이 온톨로지 객체 모델에 손쉽게 접근할수 있고, 온톨로지에 대한 쉬운 지식 표현 및 핸들링을 제공할 수 있다.

  • PDF

어휘 정보의 자동 추출과 이를 이용한 한국어 품사 태깅 (Korean Part-of-Speech Tagging using Automatically Acquired Lexical Information)

  • 강인호;김도완;이신목;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.117-122
    • /
    • 1999
  • 본 연구는 형태소 분석에 필요한 언어 지식과 품사 태깅에 필요한 확률 정보를 별도의 언어 지식 추가 없이 학습 말뭉치를 통해서 얻어내는 방법을 제안한다. 먼저 품사 부착된 학습 말뭉치로부터 형태소 사전과 결합 정보를 추출한다. 그리고 자주 발생하는 어절 및 해석상 모호성이 많은 어절에 대해서는 학습 말뭉치에서 발견된 형태소 분석 결과를 저장하여 형태소 분석에 소요되는 시간과 형태소 분석의 정확률을 높인다. 또한 미등록어의 많은 부분을 차지하는 인명, 지명, 조직명에 대해서는 정보 추출 분야에서 사용하는 고유 명사 분류법으로 해결한다. 품사 태깅을 위해서는 품사열 정보와 품사열 정보로는 해결할 수 없는 경우를 위한 어휘 정보를 학습 말뭉치에서 추출한다. 품사열 정보와 어휘 정보는 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용되어 품사 태깅 시스템을 위한 확률 분포를 구성한다. 본 연구에서 제안하는 방법은 학습 말뭉치를 기반으로 한다는 특성에 의해 다양한 영역에 사용하기 쉽다. 또한 어휘 정보로 품사 문맥 정보를 보완하기 때문에 품사 분류 체계와 형태소 해석 규칙에 영향을 적게 받는다는 장점을 가진다. MATEC '99 데이터 실험 결과 형태소 단위로 94%의 재현률과 93%의 정확률을 얻을 수 있었다.

  • PDF

학문목적 한국어 학습자의 어휘 습득 연구 -문맥 추론과 배경지식 활성화를 통한 수업 도입을 중심으로- (Vocabulary Acquisition of Korean Learners for Academic Purposes -Focusing on the Effects of Instruction Introductory Methods of Context Inference and Activation of Background Knowledge)

  • 이민우
    • 한국어교육
    • /
    • 제29권4호
    • /
    • pp.93-112
    • /
    • 2018
  • The purpose of this study is to deal with vocabulary in KFL. As a result of this study, learners learned vocabulary on average 43 points through contextual inference and introduction of the class to activate background knowledge. In particular, the implicit method showed the highest learning rate of 52 points, and the thematic method had a 41 point-learning rate. In contrast, the semantic method was the lowest with a 25 point-learning rate. There was no significant difference in the improvement rate of upper vocabulary learners, but in the case of the lower learner, there was significant difference in the improvement rate. The difference was not significant in the post-test relative gain rate of upper learners, but there was significant in lower learners. In the delayed test relative gain rate, the difference was significant in all groups. There was correlation between vocabulary difficulty and score, but there was no correlation with the thematic method. And there was no correlation between vocabulary difficulty, improvement rate and relative gain rate in all three classes. However, content understanding, lexical grade, improvement rate, and relative gain rate showed a significant correlation.

세종 의미 부류와 KorLex 명사 어휘 의미망 자동 맵핑 (Automatic Mapping of Korean Wordnet "KorLex" to Semantic Classes of Sejong Dictionary)

  • 소길자;윤애선;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-96
    • /
    • 2009
  • 인간이 가진 개념을 지식베이스화하려는 시도 중 하나로 의미망이 구축되고 있다. 한국어를 대상으로 한 어휘 의미망 중 프린스턴 대학의 WordNet을 대역한 KorLex는 1,2단계에서 한국어 어휘의미의 특성을 반영하여 개념 및 의미구조를 재구조화하고 있다. 그러나 현재 KorLex의 동의어 집합을 구성하는 어휘 의미에는 논항정보를 따로 구성할 수 없었다. 본 연구는 세종 전자 사전 격틀정보내의 선택제약조건(selectional restriction)으로 사용되고 있는 의미 부류와 KorLex의 명사 어휘 의미망을 자동 맵핑하는 방안을 제안함으로써 KorLex에서 세종 전자 사전 격틀정보를 활용할 수 있는 가능성을 제공한다.

  • PDF

어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기 (A Korean Grammar Checker using Lexical Disambiguation Rule and Partial Parsing)

  • 소길자;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권3호
    • /
    • pp.305-315
    • /
    • 2001
  • 본 논문에서는 우리말 문서에 있는 오류를 어절 단위로 검증하는 철자 오류와 여러 어절을 분석해야 처리할 수 있는 문법 오류로 분류하였다. 문법 오류를 처리할 때 전체 문장 분석은 시간이 많이 소요되고 구현하기 어려우므로 대부분 부분 문장 분석 방법을 이용한다. 기존 연구에서 사용한 부분 문장 분석은 분석 어절에 어휘 중의성이 있을 때 문장 분석 종결 또는 과분석 등의 오류가 발생한다. 본 논문에서는 문법 검사기에서 어휘 중의성 때문에 발생하는 문제점을 해결하는 방법으로 어휘 중의성 제거 규칙을 사용한다. 본 논문에서 구현한 어휘 중의성 제거 모듈은 코퍼스 데이타에서 얻은 경험적 규칙을 기반으로 한다. 이 경험적 규칙은 언어적 지식을 기반으로 한다.

  • PDF

다양한 지식을 사용한 영한 기계번역에서의 대역어 선택 (Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge)

  • 이기영;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.75-86
    • /
    • 2006
  • 일반적으로 영어를 한국어로 번역할 때, 대부분의 영어 명사 어휘들은 해당 어휘가 사용되는 문맥에 따라 다양한 한국어 명사로 번역될 수 있다. 따라서 영어 원문이 갖는 의미를 손실 없이 번역문으로 전달하기 위해서는 문맥에 맞는 올바른 한국어 대역어를 선택할 수 있어야 한다. 본 논문에서는 동사구패턴, 공기 정보에 기반한 의미벡터, 공기 품사 정보 및 한국어 문맥 통계 정보 등의 다양한 지식을 사용하여 영어 명사 어휘의 대역어를 올바로 선택하는 방안을 제공한다. 동사구 패턴은 사전과 코퍼스를 사용하여 구축되었으며, 의미 벡터는 영어 어휘가 특정 한국어 어휘로 번역될 때 공기하는 정보들의 조건부 확률을 나타낸다. 한국어 문맥 통계 정보는 한국어 코퍼스로부터 추출된 N-그램 정보를 나타내며, 품사 공기 정보는 대역어 선택 모호성을 지니는 영어 어휘와 통계적으로 깊은 관련성을 지니는 품사를 나타낸다. 마지막으로 본 논문에서 제안한 대역어 선택 모호성 해소 방안을 평가하기 위한 실험을 수행하였으며, 실험 결과, 제안하는 방법이 기존의 방법보다 성능이 좋다는 것을 확인할 수 있었다.

  • PDF

확장한 어휘적 중의성 제거 규칙에 따른 부분 문장 분석에 기반한 한국어 문법 검사기 (A Korean Grammar Chacker Founded on Expanded Lexical Disambiguation Rule and Partial Parsing)

  • 박수호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.516-522
    • /
    • 2001
  • 본 논문에서는 한국어 형태소 분석기가 처리할 수 없는 어휘적 중의성 해결을 위한 방법으로 부분 문장 분석 기법을 연구한다. 부분 문장 분석 기법의 신뢰도를 높이기 위해서 말뭉치를 이용한 데이터를 통해 학습한 경험적 규칙을 이용한다. 학습한 경험적 규칙을 오류 유형에 따라 확장하고 전문화하여 축적된 연구결과를 지식 베이스로 삼아 한국어 맞춤법 및 문법 검사기에서 사용하는 부분 문장 분석기의 성능을 향상시킨다. 본 논문에서 사용한 확장하고 전문화한 지식 베이스는 말뭉치에서 얻은 경험적 규칙을 기반으로 한다. 이 경험적 규칙은 언어적 지식을 기반으로 한다.

  • PDF