• 제목/요약/키워드: 다국어 언어 모델

검색결과 35건 처리시간 0.023초

반복적 기법을 사용한 그래프 기반 단어 모호성 해소 (Graph-Based Word Sense Disambiguation Using Iterative Approach)

  • 강상우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.102-110
    • /
    • 2017
  • 최근 자연어 처리 분야에서 단어의 모호성을 해소하기 위해서 다양한 기계 학습 방법이 적용되고 있다. 지도 학습에 사용되는 데이터는 정답을 부착하기 위해 많은 비용과 시간이 필요하므로 최근 연구들은 비지도 학습의 성능을 높이기 위한 노력을 지속적으로 시도하고 있다. 단어 모호성 해소(word sense disambiguation)를 위한 비지도 학습연구는 지식 기반(knowledge base)를 이용한 방법들이 주목받고 있다. 이 방법은 학습 데이터 없이 지식 기반의 정보을 이용하여 문장 내에서 모호성을 가지는 단어의 의미를 결정한다. 지식 기반을 이용한 방법에는 그래프 기반방식과 유사도 기반 방법이 대표적이다. 그래프 기반 방법은 모호성을 가지는 단어와 그 단어가 가지는 다양한 의미들의 집합 간의 모든 경로에 대한 의미 그래프를 구축한다는 장점이 있지만 불필요한 의미 경로가 추가되어 오류를 증가시킨다는 단점이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 그래프 구축을 위해 불필요한 간선들을 배제하면서 반복적으로 그래프를 재구축하는 모델을 제안한다. 또한, 구축된 의미 그래프에서 더욱 정확한 의미를 예측하기 위해 하이브리드 유사도 예측 모델을 적용한다. 또한 제안된 모델은 다국어 어휘 의미망 사전인 BabelNet을 사용하기 때문에 특정 언어뿐만 아니라 다양한 언어에도 적용 가능하다.

북한 PUST 디지털도서관 모델 개발 연구 (A Study on the Development of Digital Library Model for PUST in North Korea)

  • 이종문
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.143-158
    • /
    • 2008
  • 본 연구는 남북합작으로 건립하는 PUST에 설치될 도서관과 디지털도서관 모델 제시를 위해 수행되었다. 우선 이론적 연구를 통해 디지털도서관의 문제와 PUST 디지털도서관의 이슈를 파악하였다. 그 결과, 저작권법하의 공정사용 미흡 등으로 현 단계에서 디지털도서관만 운영하는 것은 문제가 있는 것으로 파악되었다. 또 남북의 언어와 지적기반의 차이 등으로 홈페이지 접근 데이터베이스 구축 자료 의 검색 등에 문제가 있는 것으로 파악되었다. 이에 연구자는 디지털도서관과 하이브리드 도서관을 병행 운영할 것과, 디지털도서관 관련 하여 유니코드를 통한 홈페이지의 이중화 NCHAR 데이터타입 설정을 통한 다국어 저장, 전거 데이터베이스 구축 등을 제안하였다.

BERT와 지식 그래프를 이용한 한국어 문맥 정보 추출 시스템 (Korean Contextual Information Extraction System using BERT and Knowledge Graph)

  • 유소엽;정옥란
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.123-131
    • /
    • 2020
  • 인공지능 기술의 비약적 발전과 함께 사람의 언어를 다루는 자연어 처리 분야 역시 활발하게 연구가 진행되고 있다. 특히 최근에는 구글에서 공개한 언어 모델인 BERT는 대량의 코퍼스를 활용해 미리 학습시킨 모델을 제공함으로써 자연어 처리의 여러 분야에서 좋은 성능을 보이고 있다. BERT에서 다국어 모델을 지원하고 있지만 한국어에 바로 적용했을 때는 한계점이 존재하기 때문에 대량의 한국어 코퍼스를 이용해 학습시킨 모델을 사용해야 한다. 또한 텍스트는 어휘, 문법적인 의미만 담고 있는 것이 아니라 전후 관계, 상황과 같은 문맥적인 의미도 담고 있다. 기존의 자연어 처리 분야에서는 어휘나 문법적인 의미를 중심으로 연구가 주로 이루어졌다. 텍스트에 내재되어 있는 문맥 정보의 정확한 파악은 맥락을 이해하는 데에 있어 중요한 역할을 한다. 단어들의 관계를 이용해 연결한 지식그래프는 컴퓨터에게 쉽게 문맥을 학습시킬 수 있는 장점이 있다. 본 논문에서는 한국어 코퍼스를 이용해 사전 학습된 BERT 모델과 지식 그래프를 이용해 한국어 문맥 정보를 추출하는 시스템을 제안하고자 한다. 텍스트에서 중요한 요소가 되는 인물, 관계, 감정, 공간, 시간 정보를 추출할 수 있는 모델을 구축하고 제안한 시스템을 실험을 통해 검증한다.

영어 리뷰데이터를 이용한 딥러닝 기반 다국어 감성분석 (Deep learning-based Multilingual Sentimental Analysis using English Review Data)

  • 성재경;김영복;김용국
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.9-15
    • /
    • 2019
  • 영어로 된 아마존과 같은 대형 글로벌 온라인 쇼핑몰은 전 세계를 대상으로 영어 또는 판매 해당국가 언어로 서비스를 하고 있다. 온라인 쇼핑몰 이용자 중, 많은 고객은 상품 리뷰평가를 참조하여 상품을 구매하고 있다. 그래서 고객들이 작성한 대량의 리뷰데이터를 이용하여 구매 상품에 대해 긍정과 부정을 판정하는 감성분석을 영어를 중심으로 활발히 연구되고 분석 결과는 고객의 타켓 마케팅에 활용되고 있다. 하지만 이와 같은 영어 중심의 감성분석 시스템을 전 세계의 다양한 언어에 그대로 적용하기는 어렵다. 따라서 본 연구에서는 영어로 된 50만개 이상의 아마존 푸드 상품 리뷰데이터를 학습과 테스트 데이터로 분리하여 딥러닝 기술 기반의 감성분석 시스템을 구현하였다. 먼저 영어 테스트데이터의 3가지 모델에 대한 감성분석 평가 실험을 한 후에, 같은 데이터를 자동번역기로 7개국(한국어, 일본어, 중국어, 베트남어, 불어, 독어, 영어) 언어로 번역 후에 다시 영어로 번역하여 실험 결과를 얻었다. 감성분석 정확성은 영어(94.35%)에 비해 각 7개국 언어의 평균(91.59%)보다 정확도가 2.77% 정도 낮게 나왔으나 번역 성능 수준에서 실용 가능성을 확인하였다.

O2O 서비스 기반 전통시장 주문 모바일 어플리케이션의 설계 및 개발 (Designing Mobile Application for Korean Traditional Markets Based on O2O Service Platform)

  • 방영선;양승목;전혜린;이다니엘
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권9호
    • /
    • pp.1689-1697
    • /
    • 2018
  • 본 논문에서는 첨단 ICT기술을 활용하여 온라인 소비자를 오프라인의 전통시장과 연결해주는 O2O 플랫폼 서비스를 기반으로한 모바일 어플리케이션의 디자인을 연구하였다. 소비자가 직접 시장에 방문하여 면대면 (Face-to-face)으로 접촉하는 기존 판매 방식에 더하여 모바일 결제와 개인화 추천서비스 등 첨단 기술을 이용하여 전통시장 소비자의 저변을 확대하고 판매방식 다변화를 통한 이익창출에 기여할 수 있는 방안을 모색한다. 특히, 한국 사용자뿐만 아니라 한국 문화와 상품에 익숙하지 않은 외국인을 위한 다국어를 통한 상품정보 제공기능과 모바일 결제, 저전력 블루투스 비콘(Beacon)을 이용한 근거리 상점 추천 등을 포함한 전통시장 소비자의 편의를 높일 수 있는 방안을 제안하였다. 본 연구에서 제안하는 전통시장 모바일 어플리케이션은 안드로이드 운영체제에 종속된 네이티브 어플리케이션으로 객체지향 프로그래밍 언어인 자바를 통해 개발하였고 이를 위해 객체지향 분석 설계 방식을 이용하였다. 연구의 결론으로는 현재 각광받고 있는 O2O 서비스를 중심으로 새로운 전자상거래 모델을 디자인하였으며, 이를 통해 전통시장의 저변 확대를 도모할 수 있는 방안을 또한 함께 제안하였다.