• 제목/요약/키워드: 문맥 인지 모델

검색결과 14건 처리시간 0.031초

최대 엔트로피 모델을 이용한 한국어 명사구 추출 (Korean Noun Phrase Identification Using Maximum Entropy Method)

  • 강인호;전수영;김길창
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.127-132
    • /
    • 2000
  • 본 논문에서는 격조사의 구문적인 특성을 이용하여, 수식어까지 포함한 명사구 추출 방법을 연구한다. 명사구 판정을 위해 연속적인 형태소열을 문맥정보로 사용하던 기존의 방법과 달리, 명사구의 처음과 끝 그리고 명사구 주변의 형태소를 이용하여 명사구의 수식 부분과 중심 명사를 문맥정보로 사용한다. 다양한 형태의 문맥 정보들은 최대 엔트로피 원리(Maximum Entropy Principle)에 의해 하나의 확률 분포로 결합된다. 본 논문에서 제안하는 명사구 추출 방법은 먼저 구문 트리 태깅된 코퍼스에서 품사열로 표현되는 명사구 문법 규칙을 얻어낸다. 이렇게 얻어낸 명사구 규칙을 이용하여 격조사와 인접한 명사구 후보들을 추출한다. 추출된 각 명사구 후보는 학습 코퍼스에서 얻어낸 확률 분포에 기반하여 명사구로 해석될 확률값을 부여받는다. 이 중 제일 확률값이 높은 것을 선택하는 형태로 각 격조사와 관계있는 명사구를 추출한다. 본 연구에서 제시하는 모델로 시험을 한 결과 평균 4.5개의 구를 포함하는 명사구를 추출할 수 있었다.

  • PDF

LR 테크닉을 이용한 형태소 분석 (Morphological Processing with LR Techniques)

  • 이강혁
    • 인지과학
    • /
    • 제4권2호
    • /
    • pp.115-143
    • /
    • 1994
  • 본 논문은 LR 파싱기법을 이용한 확장된 두단계(two-level)형태소분석 모델을 제시한다.LA기법을 이용한 두단계 모델은 효율적 형태소분석 뿐만 아니라 Koskenniemi(1983)의 모델보다 형태론적 현상에 대한 보다 높은 기술성(descriptive adequacy)을 획득한다.이를 위해 두단계 모델은 자질기반의 문맥자유문법(feature-based CF grammar)에 근거한 독립적인 형태/통사모듈에 의해 확장된다.문맥자유문법에 근거한 단어문법(word grammar)을 채택함으로써 확장 모델은 하위사전의 중복현상을 피하면서 비연속적 의존관계(discontinuous dependencies) 를 가지는 복합어 등을 처리할 수 있다.또한 파싱테이블에 명시된 LR 예측은 형태소분석기로 하여금 사전탐색시간을 줄일 수 있도록 도와준다.

국소 문맥을 이용한 형태적 중의성 해소 (Morphological disambiguation using Local Context)

  • 이충희;윤준태;송만석
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.48-55
    • /
    • 2000
  • 본 논문은 국소문맥을 사용하여 만들어진 Decision List를 통해 단어의 형태적 중의성을 제거하는 방법을 기술한다. 최초 종자 연어(Seed Collocation)로 1차 Decision List를 만들어 실험 말뭉치에 적용하고 태깅된 결과를 자가 학습하는 반복과정에 의해 Decision List의 수행능력을 향상시킨다. 이 방법은 단어의 형태적 중의성 제거에 일정 거리의 연어가 가장 큰 영향을 끼친다는 직관에 바탕을 두며 사람의 추가적인 교정을 필요로 하지 않는 비교사 방식(대량의 원시 말뭉치에 기반한)에 의해 수행한다. 학습을 통해 얻어진 Decision List는 연세대 형태소 분석기인 MORANY의 형태소 분석 결과에 적용되어 태깅시 성능을 향상시킨다. 실험 말뭉치에 있는 중의성을 가진 12개의 단어들에 본 알고리즘을 적용하여 긍정적인 결과(90.61%)를 얻었다. 은닉 마르코프 모델의 바이그램(bigram) 모델과 비교하기 위하여 '들었다' 동사만을 가지고 실험하였는데 바이그램 모델의 태깅결과(72.61%)보다 뛰어난 결과(94.25%)를 얻어서 본 모델이 형태적 중의성 해소에 유용함을 확인하였다.

  • PDF

유비쿼터스 헬스케어를 위한 문맥 인지 모델 기반 운동 최적화 알고리즘 (Exercise Optimization Algorithm based on Context Aware Model for Ubiquitous Healthcare)

  • 임정은;최오훈;나홍석;백두권
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권6호
    • /
    • pp.378-387
    • /
    • 2007
  • 운동 효과를 극대화하기 위하여 개인의 신체 상태를 측정한 후, 운동 처방을 통하여 적합한 운동 프로그램을 생성해 주는 운동 관리 시스템이 도입되어 활용되고 있다. 하지만, 2주$\sim$3개월 주기로 신체 상태를 파악하여 생성되는 운동 프로그램은 다양하게 변화하는 개개인의 운동 습관이나 운동 주기를 실시간으로 반영하지 못하기 때문에, 운동 기간이 길어질수록 사용자의 현재상태에 적절치 않은 운동을 유도할 수 있다. 본 논문에서는 사용자의 상황을 고려한 운동 프로그램을 제공하기 위한 문맥 인지 운동 모델(Context Aware Exercise Model : CAEM)을 제안하며, 이를 지능형 운동 가이드(Intelligent Fitness Guide : IFG) 시스템으로 구현한다. IFG 시스템은 사용자의 상황에 따라 필요한 측정치를 선택적으로 입력 받고, 운동 종류 및 운동 횟수, 운동 강도의 변경 시 운동 최적화 알고리즘 및 운동 지식베이스를 통해 운동 프로그램을 생성한다. IFG는 사용자 상황에 알맞은 운동 프로그램을 실시간으로 제공함으로써, 사용자 상황에 알맞은 효율적인 운동 관리를 할 수 있다.

Context-Based Prompt Selection Methodology to Enhance Performance in Prompt-Based Learning

  • Lib Kim;Namgyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.9-21
    • /
    • 2024
  • 최근 딥러닝 분야가 빠르게 발전하는 가운데, 다양한 영역에서 거대 언어 모델을 활용하기 위한 많은 연구들이 진행되고 있다. 하지만 언어 모델의 개발 및 활용을 위해서는 방대한 데이터와 고성능 자원이 필요하다는 현실적인 어려움이 존재한다. 이에 따라 프롬프트를 활용하여 언어 모델을 효율적으로 학습할 수 있는 문맥 내 학습이 등장하였지만, 학습에 효과적인 프롬프트가 무엇인지에 대한 명확한 기준은 구체적으로 제시되지 않았다. 이에 본 연구에서는 문맥 내 학습 방법 중 하나인 PET 기법을 활용하여 기존 데이터의 문맥과 유사한 PVP를 선정하고, 이를 통해 생성한 프롬프트를 학습하여 모델의 성능을 향상시킬 수 있는 프롬프트 기반 학습 성능 향상 방법론을 제안한다. 제안 방법론의 성능 평가를 위해 온라인 비즈니스 리뷰 플랫폼인 Yelp에서 수집된 레스토랑 리뷰 데이터 30,100개로 실험을 수행한 결과, 제안 방법론이 기존의 PET 방법론에 비해 정확도와 안정성, 그리고 학습 효율성의 모든 측면에서 우수한 성능을 보임을 확인하였다.

KoBERT와 KR-BERT의 은닉층별 통사 및 의미 처리 성능 평가 (How are they layerwisely 'surprised', KoBERT and KR-BERT?)

  • 최선주;박명관;김유희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.340-345
    • /
    • 2021
  • 최근 많은 연구들이 BERT를 활용하여, 주어진 문맥에서 언어학/문법적으로 적절하지 않은 단어를 인지하고 찾아내는 성과를 보고하였다. 하지만 일반적으로 딥러닝 관점에서 NLL기법(Negative log-likelihood)은 주어진 문맥에서 언어 변칙에 대한 정확한 성격을 규명하기에는 어려움이 있다고 지적되고 있다. 이러한 한계를 해결하기 위하여, Li et al.(2021)은 트랜스포머 언어모델의 은닉층별 밀도 추정(density estimation)을 통한 가우시안 확률 분포를 활용하는 가우시안 혼합 모델(Gaussian Mixture Model)을 적용하였다. 그들은 트랜스포머 언어모델이 언어 변칙 예문들의 종류에 따라 상이한 메커니즘을 사용하여 처리한다는 점을 보고하였다. 이 선행 연구를 받아들여 본 연구에서는 한국어 기반 언어모델인 KoBERT나 KR-BERT도 과연 한국어의 상이한 유형의 언어 변칙 예문들을 다른 방식으로 처리할 수 있는지를 규명하고자 한다. 이를 위해, 본 연구에서는 한국어 형태통사적 그리고 의미적 변칙 예문들을 구성하였고, 이 예문들을 바탕으로 한국어 기반 모델들의 성능을 놀라움-갭(surprisal gap) 점수를 계산하여 평가하였다. 본 논문에서는 한국어 기반 모델들도 의미적 변칙 예문을 처리할 때보다 형태통사적 변칙 예문을 처리할 때 상대적으로 보다 더 높은 놀라움-갭 점수를 보여주고 있음을 발견하였다. 즉, 상이한 종류의 언어 변칙 예문들을 처리하기 위하여 다른 메커니즘을 활용하고 있음을 보였다.

  • PDF

ChatGPT를 활용한 수자원시스템분야 문제해결사례 소개 및 고찰 (Research cases and considerations in the field of hydrosystems using ChatGPT)

  • 유도근;이찬욱
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.98-98
    • /
    • 2023
  • ChatGPT(Chat과 Generative Pre-trained Transformer의 합성어)는 사용자와 주고받는 대화의 과정을 통해 질문에 답하도록 설계된 대형언어모델로, 지도학습과 강화학습을 모두 사용하여 세밀하게 조정된 인공지능 챗봇이다. ChatGPT는 주고받은 대화와 대화의 문맥을 기억할 수 있으며, 보고서나 실제로 작동하는 파이썬 코드를 비롯한 인간과 유사하게 상세하고 논리적인 글을 만들어 낼 수 있다고 알려져있다. 본 연구에서는 수자원시스템분야의 문제해결에 있어 ChatGPT의 적용가능성을 사례기반으로 확인하고, ChatGPT의 올바른 활용을 위해 필요한 사항에 대해 고찰하였다. 수자원시스템분야의 대표적인 연구주제인 상수관망시스템의 누수인지와 수리해석을 통한 문제해결에 ChatGPT를 활용하였다. 즉, 딥러닝 기반의 데이터분석을 활용한 누수인지와 오픈소스기반의 수리해석 모델을 활용한 관망시스템 적정 분석을 목표로 ChatGPT와 대화를 진행하고, ChatGPT에 의해 제안된 코드를 구동하여 결과를 분석하였다. ChatGPT가 제시한 코드의 구동결과를 사전에 연구자가 직접 구현한 코드구동 결과와 비교분석하였다. 분석결과 ChatGPT가 제시한 코드가 보다 더 간결할 수 있으며, 상대적으로 경쟁력 있는 결과를 도출하는 것을 확인하였다. 다만, 상대적으로 간결한 코드와 우수한 구동결과를 획득하기 위해서는 해당 도메인의 전문적 지식을 바탕으로 적절한 다수의 질문을 해야 하며, ChatGPT에 의해 작성된 코드의 의미를 명확히 해석하거나 비판적 분석을 하기 위해서는 전문가지식이 반드시 필요함을 알 수 있었다.

  • PDF

벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집 (Word Sense Similarity Clustering Based on Vector Space Model and HAL)

  • 김동성
    • 인지과학
    • /
    • 제23권3호
    • /
    • pp.295-322
    • /
    • 2012
  • 본 연구에서는 벡터 공간 모델과 HAL (Hyperspace Analog to Language)을 적용해서 단어 의미 유사성을 군집한다. 일정한 크기의 문맥을 통해서 단어 간의 상관성을 측정하는 HAL을 도입하고(Lund and Burgess 1996), 상관성 측정에서 고빈도와 저빈도에 다르게 측정되는 왜곡을 줄이기 위해서 벡터 공간 모델을 적용해서 단어 쌍의 코사인 유사도를 측정하였다(Salton et al. 1975, Widdows 2004). HAL과 벡터 공간 모델로 만들어지는 공간은 다차원이므로, 차원을 축소하기 위해서 PCA (Principal Component Analysis)와 SVD (Singular Value Decomposition)를 적용하였다. 유사성 군집을 위해서 비감독 방식과 감독 방식을 적용하였는데, 비감독 방식에는 클러스터링을 감독 방식에는 SVM (Support Vector Machine), 나이브 베이즈 구분자(Naive Bayes Classifier), 최대 엔트로피(Maximum Entropy) 방식을 적용하였다. 이 연구는 언어학적 측면에서 Harris (1954), Firth (1957)의 분포 가설(Distributional Hypothesis)을 활용한 의미 유사도를 측정하였으며, 심리언어학적 측면에서 의미 기억을 설명하기 위한 모델로 벡터 공간 모델과 HAL을 결합하였으며, 전산적 언어 처리 관점에서 기계학습 방식 중 감독 기반과 비감독 기반을 적용하였다.

  • PDF

온톨로지를 이용한 tesseract 기반의 OCR 모델 인식률 향상에 관한 연구 (A Study on the Improvement of Tesseract-based OCR Model Recognition Rate using Ontology)

  • 황치곤;윤대열;윤창표
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.438-440
    • /
    • 2021
  • 기계학습의 발전에 따라 다양한 분야에 인공지능 기법이 적용되고 있다. 이 분야 중 이미지에 있는 문자를 텍스트로 변환하는 OCR 기법이 있다. HP에서 개발된 tesseract는 그 기법의 하나다. 그러나 이미지의 문자를 인식하는 인식률이 아직은 낮다. 이를 위해 본 연구에서는 온톨로지를 이용하여 문맥을 인지시키는 후처리 과정을 통해서 이미지의 문자 변환율에 향상을 기하고자 한다.

  • PDF

텐서공간모델 기반 시멘틱 검색 기법 (A Tensor Space Model based Semantic Search Technique)

  • 홍기주;김한준;장재영;전종훈
    • 한국전자거래학회지
    • /
    • 제21권4호
    • /
    • pp.1-14
    • /
    • 2016
  • 시멘틱 검색은 검색 사용자의 인지적 노력을 최소화하면서 사용자 질의의 문맥을 이해하여 의미에 맞는 문서를 정확히 찾아주는 기술이다. 아직 시멘틱 검색 기술은 온톨로지 또는 시멘틱 메타데이터 구축의 난제를 갖고 있으며 상용화 사례도 매우 미흡한 실정이다. 본 논문은 기존 시멘틱 검색 엔진의 한계를 극복하기 위하여 이전 연구에서 고안한 위키피디아 기반의 시멘틱 텐서공간모델을 활용하여 새로운 시멘틱 검색 기법을 제안한다. 제안하는 시멘틱 기법은 문서 집합에 출현하는 '단어'가 텐서공간모델에서 '문서-개념'의 2차 텐서(행렬), '개념'은 '문서-단어'의 2차 텐서로 표현된다는 성질을 이용하여 시멘틱 검색을 위해 요구되는 온톨로지 구축의 필요성을 없앤다. 그럼에도 불구하고, OHSUMED, SCOPUS 데이터셋을 이용한 성능평가를 통해 제안 기법이 벡터공간모델에서의 기존 검색 기법보다 우수함을 보인다.