• 제목/요약/키워드: 언어획득

검색결과 236건 처리시간 0.031초

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해 낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용 (KB-BERT: Training and Application of Korean Pre-trained Language Model in Financial Domain)

  • 김동규;이동욱;박장원;오성우;권성준;이인용;최동원
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.191-206
    • /
    • 2022
  • 대량의 말뭉치를 비지도 방식으로 학습하여 자연어 지식을 획득할 수 있는 사전학습 언어모델(Pre-trained Language Model)은 최근 자연어 처리 모델 개발에 있어 매우 일반적인 요소이다. 하지만, 여타 기계학습 방식의 성격과 동일하게 사전학습 언어모델 또한 학습 단계에 사용된 자연어 말뭉치의 특성으로부터 영향을 받으며, 이후 사전학습 언어모델이 실제 활용되는 응용단계 태스크(Downstream task)가 적용되는 도메인에 따라 최종 모델 성능에서 큰 차이를 보인다. 이와 같은 이유로, 법률, 의료 등 다양한 분야에서 사전학습 언어모델을 최적화된 방식으로 활용하기 위해 각 도메인에 특화된 사전학습 언어모델을 학습시킬 수 있는 방법론에 관한 연구가 매우 중요한 방향으로 대두되고 있다. 본 연구에서는 금융(Finance) 도메인에서 다양한 자연어 처리 기반 서비스 개발에 활용될 수 있는 금융 특화 사전학습 언어모델의 학습 과정 및 그 응용 방식에 대해 논한다. 금융 도메인 지식을 보유한 언어모델의 사전학습을 위해 경제 뉴스, 금융 상품 설명서 등으로 구성된 금융 특화 말뭉치가 사용되었으며, 학습된 언어 모델의 금융 지식을 정량적으로 평가하기 위해 토픽 분류, 감성 분류, 질의 응답의 세 종류 자연어 처리 데이터셋에서의 모델 성능을 측정하였다. 금융 도메인 말뭉치를 기반으로 사전 학습된 KB-BERT는 KoELECTRA, KLUE-RoBERTa 등 State-of-the-art 한국어 사전학습 언어 모델과 비교하여 일반적인 언어 지식을 요구하는 범용 벤치마크 데이터셋에서 견줄 만한 성능을 보였으며, 문제 해결에 있어 금융 관련 지식을 요구하는 금융 특화 데이터셋에서는 비교대상 모델을 뛰어넘는 성능을 보였다.

검색 언어가 웹 정보검색행위에 미치는 영향에 관한 연구 - 웹 정보검색행위의 양상 차이를 중심으로 - (A Study on the Effects of Search Language on Web Searching Behavior: Focused on the Differences of Web Searching Pattern)

  • 변제연
    • 한국문헌정보학회지
    • /
    • 제52권3호
    • /
    • pp.289-334
    • /
    • 2018
  • 웹상에서 영어 이외의 언어들로 이루어진 정보가 빠르게 증가하고 있지만, 여전히 영어 정보가 가장 큰 비중을 차지함에 따라 공통어(lingua franca)로서의 지배적인 영향을 미치고 있다. 따라서 영어가 비모어인 이용자들이 보다 다양하고 풍부한 정보를 획득할 수 있도록 하기 위해서는 비영어권 화자의 모어 정보검색행위와 영어 정보검색행위에 대한 조사를 통해 주요 특징 및 차이점을 살펴볼 필요가 있다. 본 연구에서는 국내 한 사립대학의 대학생 24명을 대상으로 동시적 사고구술 기법을 적용한 정보검색 실험을 실시해 한글 정보검색행위 및 영어 정보검색행위와 인지과정을 조사하였다. 관찰데이터 및 사고구술데이터의 정성적 데이터를 기반으로, 검색 언어에 따른 웹 정보검색행위의 양상 차이에 대한 빈도분석을 실시하였다. 연구 결과, 한글 검색에서 능동적이고 적극적이며 독립적인 특성의 양상이, 영어 검색에서 수동적이고 소극적이며 의존적인 특성의 양상이 나타났다. 한글 검색에서는 이용자, 태스크, 시스템 등 다양한 출처에서 용어를 추출 조합한 검색어 구성, 여러 수준에서의 검색범위 조정, 검색엔진 검색결과페이지 내 탐색대상 아이템의 선택과 관련한 원활한 필터링, 다수 아이템의 탐색 및 비교, 웹 페이지의 전체 내용 브라우징 등이 주요 특징으로 확인되었다. 반면, 영어 검색에서는 주로 태스크 추출 용어 중심 검색어 구성, 제한된 검색범위 선호, 카테고리나 링크 등 아이템과 아이템 간 관련성에 의존한 탐색 대상 아이템 선택, 동일 아이템의 반복적 탐색, 웹 페이지의 일부 내용 브라우징, 그리고 사전 및 번역기와 같은 언어지원도구의 빈번한 사용 등이 두드러진 특징으로 파악되었다.

언어영역의 기능적 자기공명영상 (Functional MRI of Language Area)

  • 유재욱;나동규;변홍식;노덕우;조재민;문찬홍;나덕렬;장기현
    • Investigative Magnetic Resonance Imaging
    • /
    • 제3권1호
    • /
    • pp.53-59
    • /
    • 1999
  • 목적 : 언어기능의 지도화(language mapping) 및 우세반구 결정에 있어서 기능적 자기공명영상의 유용서을 알아보고자 하였다. 대상 및 방법 : 자원자 10명(남자 6명, 여자 4명, 오른손잡이 7명, 왼손잡이 3명)을 대상으로 단어생성 과제(명사만들기, 동사만들기)와 판단과제를 이용하여 언어영역의 활성화를 유도하였다. 1.5T 초진도 자기공명영상장치에서 EPI로 BOLD 기법을 이용하여 기능적 영상을 얻었으며, 여앙후처리는 SPM 분석 프로그램을 이용하였다. 기능적 영상은 2번의 활성기와 3번의 휴식기를 번갈아 시행하였고 스캔 시간은 각각30초였으며 총 영상획득시간은 162초였다. 유의수준 p<0.001을 기준ㅇ로 자극 과제에 따라 활성화된 뇌영역을 분석하였고 반구별로 활성화된 화소의 수를 측정하여 편재화지수(lateralization index)를 구하였다. 결과 : 왼손잡이 1명을 제외한 9명에서 성공적으로 기능적 영상을 얻었으며 양측 전운동영역(premotor area), 하전두회, 두정엽, 중측두회 등의 여러 영역에서 활성화 신호가 나타났다. 오른손잡이의 경우 편재화지수는 평균 0,64(0.16~1)로 모두 좌측으로 편재화 되었다. 과제별로는 동사만들기 과제가 명사만들기 및 판단 과제에 비해 언어 영역의 활성화가 많았고 편재화지수의 값도 높았다. 결론 : 기능적 자기공명영상은 언어영역의 뇌기능지도화 및 우세반구 결저에 있어서 유용한 검사 방법이 될 수 있으리라 생각된다.

  • PDF

조음 기관의 시각화를 이용한 음성 동기화 애니메이션 (Speech Animation by Visualizing the Organs of Articulation)

  • 이성진;김익재;고형석
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.843-851
    • /
    • 2006
  • 본 논문에서는 음성에 따른 얼굴 애니메이션을 사실적으로 표현하기 위한 조음기관(혀, 성대 등)의 움직임을 시각화하는 방법을 제시한다. 이를 위해서, 음성에 따른 얼굴 애니메이션을 위한 말뭉치(Corpus)를 생성하고, 생성된 말뭉치에 대해서 음소 단위의 분석(Phoneme alignment) 처리를 한 후, 각 음소에 따른 조음기관의 움직임을 생성한다. 본 논문에서는 조음기관의 움직임 생성을 위해서 얼굴 애니메이션 처리에서 널리 사용되고 있는 기저 모델 기반 형태 혼합 보간 기법(Blend shape Interpolation)을 사용하였다. 그리고 이를 통하여 프레임/키프레임 기반 움직임 생성 사용자 인터페이스를 구축하였다. 구축된 인터페이스를 통해 언어치료사가 직접 각 음소 별 조음기관의 정확한 모션 데이터를 생성토록 한다. 획득된 모션 데이터를 기반으로 각 음소 별 조음기관의 3차원 기본 기저를 모델링하고, 새롭게 입력된 음소 시퀀스(phoneme sequence)에 대해서 동기화된 3차원 조음기관의 움직임을 생성한다. 이를 통해 자연스러운 3차원 얼굴 애니메이션에 적용하여 얼굴과 동기화된 조음 기관의 움직임을 만들어 낼 수 있다.

  • PDF

학습장애아의 읽기 능력 향상을 위한 PREP 기반의 모바일 시스템 설계 (Design of a PREP-based Mobile System for Improving Reading Skills of Learning Disabled Children)

  • 이득예;전우천
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2010년도 동계학술대회
    • /
    • pp.101-107
    • /
    • 2010
  • 컴퓨터와 통신 기술이 발달한 정보화 사회의 현실에서 웹 기반의 프로그램 및 모바일은 중요한 매체로서 자리잡아가고 있다. 읽기는 정보 획득에서 가장 중요한 학습능력이나 학습장애아의 대부분이 읽기능력에서 문제를 가지고 있다. 오늘날 컴퓨터의 발달은 아동의 언어교육 특히 읽기 교육을 위해서 시간과 공간의 제약을 넘어 자주적으로 학습할 수 있는 모바일 활용 학습을 가능하게 하고 있다. 본 논문의 목적은 학습장애아들의 읽기 능력을 향상하기 위한 PREP 기반의 모바일 시스템을 설계하는 데 있다. 본 시스템을 통해 첫째, 학습장애아들의 읽기 능력 프로그램이 특수교사, 일반교사, 학생과 상호협력 할 수 있는 프로그램을 제공함으로써 학습장애아의 읽기 능력에 대한 진전도를 점검하고 학습능력을 향상시킬 수 있도록 설계하였다. 둘째, 학습자의 개별적 수준에 따라 수준별 학습을 제공하여 다양한 학생의 개별적 수준을 충족할 수 있도록 설계함으로써 학습장애아동의 읽기능력 향상에 기여할 수 있다. 셋째, 모바일 기기를 통해 공간적, 시간적 제약을 벗어남으로써 기존의 PREP 프로그램을 적용하는 것보다 효과적으로 읽기 능력을 향상시킬 수 있다.

  • PDF

일영 통계기계번역에서 의존문법 문장 구조와 품사 정보를 사용한 클러스터링 기법 (A Clustering Method using Dependency Structure and Part-Of-Speech(POS) for Japanese-English Statistical Machine Translation)

  • 김한경;나휘동;이금희;이종혁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권12호
    • /
    • pp.993-997
    • /
    • 2009
  • 클러스터링 기법은 다양한 분야에서 이용되어 왔으며, 통계 기반 기계번역에서도 익히 사용된 기법이다. 그러나 기존의 연구에서는 깊이 있는 문법적인 분석 없이 기계학습 기법을 사용하거나, 문장구조의 정보를 사용하더라도 정규식을 이용하여 판별하는 선에서 그치는 경우가 많았다. 본 논문에서는 각 문장의 의존관계 문법에 따른 구조와 조사 등의 품사 정보를 사용하여 문장구조를 파악하고 유형별로 분류하여 각각에 특화된 언어모델을 획득하는 방법과, 이를 구 기반 통계기계번역에 추가적인 정보로 사용하여 번역성능을 향상하는 데 이용하는 방법을 제안한다.

천체화상처리용 그래픽 라이브러리

  • 김갑성;홍승수
    • 천문학논총
    • /
    • 제7권1호
    • /
    • pp.261-271
    • /
    • 1992
  • 고수준의 천체화상처리에 관련된 모든 작업을 개인용 컴퓨터로도 충분히 수행할 수 있도록 제작된 화상처리용 그래픽라이브러리와 그 응용프로그램을 소개한다. 본 프로그램은 손쉽게 작업할 수 있는 대화식 한글 GUI 환경을 사용자에게 제공하여 다양하게 선택 가능한 작업메뉴로부터 천체화상처리를 비롯한 천문계산 및 도형출력등의 여러가지 응용프로그램을 실행시키도록 개발되었다. 그 주된 내용은 마우스에 의해 조작할 수 있는 통합처리환경의 제작. 양질의 천체화상 획득과 정밀측광을 위한 화상처리 그리고 출력장치에 구애받지 않는 화상출력의 구현이라 할 수 있다. 본 프로그램의 작성에는 C와 포트란언어가 사용되었으며 하드웨어에 관계없이 자유로운 한글처리를 위해 소프트웨어 자체에 한글을 내장하는 방법을 선택하였다.

  • PDF

외산 HCS장비와 호환 가능한 세포 분석 시스템 개발의 기초 연구 (Basic research of foreign HCS equipment compatible with the cell analysis system)

  • 나예지;이상준;왕창원;정화영;민세동
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2015년도 제46회 하계학술대회
    • /
    • pp.1415-1416
    • /
    • 2015
  • 본 논문은 외산 HCS장비에서 획득한 세포 이미지를 기반으로 다기능 분석 소프트웨어 개발을 위한 기초 연구로서 세포의 외곽선 검출 알고리즘을 제안한다. 기존 체인코드 알고리즘의 탐색 횟수를 줄여 ROI 검출 속도 및 전체 시스템의 성능을 높이고자 하였다. 기존 알고리즘과 제안한 알고리즘을 C언어로 구현하여 실제 영상에 실험해 본 결과 정확한 세포의 ROI 검출뿐만 아니라 속도 향상의 효과를 확인하였다.

  • PDF

CAD 인터페이스된 선삭공정의 자동공정설계시스템

  • 조규갑;김인호
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 1991년도 춘계공동학술대회 발표논문 및 초록집; 전북대학교, 전주; 26-27 Apr. 1991
    • /
    • pp.254-260
    • /
    • 1991
  • 본 연구는 CAD데이터로 부터 부품의 형상을 인식하여 CAD시스템과 인터페이스된 자동공정설계시스템을 지식공학적 접근방법을 도입하여 개발하고자 함이 연구의 목적이다. 연구의 대상은 NC선반가공용 회전형상부품을 대상으로 하며, CAD시스템은 AutoCAD를, 소프트웨어개발에 사용된 프로그래밍언어는 Turbo-C(Version 2.0)를, 전문가시스템셀(Expert System Shell)은 CLIPS를 이용하여 개인용컴퓨터(PC)를 사용하여 개발한다. 본 연구의 내용은 NC선반가공용 회전형상부품을 대상으로 CAD/CAPP 데이터베이스 생성과 부품형상인식, 공정 및 작업의 선정, 가공순서의 결정에 대한 알고리즘을 개발하고, 공학적 규칙 및 전문가의 경험적 지식을 획득하여 지식베이스를 구축하며, 이 지식베이스를 사용한 공정설계 전문가시스템의 개발에 관한 연구의 중간결과이다.

  • PDF