• 제목/요약/키워드: 어휘사전

검색결과 376건 처리시간 0.026초

텍스트 및 전자사전 관리시스템의 설계 (The Design of Text and Dictionary Management System)

  • 이재성;최병진;이운재;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.408-414
    • /
    • 1996
  • 자연언어처리 프로그램에서 어휘지식을 제공하는 전자사전은 그 중요성에 비해 작성 및 관리에 불편함이 많다. 본 논문에서는 전자사전의 작성 및 관리를 편리하게 할 수 있도록, 다양한 형태의 어휘 자료로부터 필요한 정보를 추출, 변형하고, 편집할 수 있는 텍스트 및 사전 관리시스템(TDMS: Text and Dictionary Management System)의 설계에 관하여 소개한다. TDMS에서는 SGML(Standard General Markup Language)의 일부를 사용하여, 표준사전 표기언어(SDML: Standard Dictionary Markup Language)를 정의하고, 이를 이용하여 다양한 형태의 사전 형식을 기술하고 있다. 또, 표준사전 표기언어로 표현된 사전이나 텍스트는 각종 응용프로그램에 독립적인 형태로 존재하여, 정보의 표준화와 교환을 용이하게 한다.

  • PDF

어휘 정보를 이용한 문장완성의 구현 (Implementation of Sentence Construction using Lexical Information)

  • 황인정;이은실;민홍기
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.10-13
    • /
    • 2003
  • 본 연구는 어휘 정보를 이용하여 구어체 문장구성을 하였다. 구어체 문장구성의 목적은 언어생활이 불편한 사람들을 위한 통신보조기기에 사용하기 위해서이다. 통신보조기기는 사용자가 원하는 문장을 만들어 음성으로 출력해주는 시스템이다. 그러므로 문장을 구성하기 위해서 어휘 정보를 통신보조기기의 개념에 맞도록 변형하여 도입하였다. 어휘는 도메인별로 발췌하고 분류하였으며, 각 어휘에 대해 시소러스와 하위범주화사전을 만들었다. 어휘정보에 관한 상세한 정보는 문장구성과 재사용 그리고 문맥상 어색한 문장검출을 위해 중요한 자료가 된다.

  • PDF

국어사전과 불교 언어: '불교' 영역의 전문용어 기술을 중심으로 (The Korean Dictionary and the Buddhist Language: Description of Popularity of Buddhism Terminologies)

  • 김한샘
    • 비교문화연구
    • /
    • 제45권
    • /
    • pp.195-218
    • /
    • 2016
  • 이 논문은 사전의 백과사전적 요소로서의 전문용어 기술을 불교 언어에 집중하여 살펴보았다. 불교 언어에 대한 선행 연구를 살펴보니 크게 언어 자체에 대한 철학적인 접근, 특정 승려의 언어관 탐색, 불교 언어에 대한 언어학적 고찰 등으로 나누어 볼 수 있다. 불교 언어에 대한 언어학적 고찰은 특정 불경을 분석한 연구와 불교 영역 전반에서 쓰이는 어휘에 대한 연구로 나뉘는데 기존 국어사전에서의 불교 어휘를 살펴보니 인명, 지명, 책명, 역사, 불교' 등의 전문 영역 분류에 걸쳐서 분포하였다. 전문용어의 일반어화가 진행된 경우 전문용어로서의 의미와 일반어로서의 의미를 각각 다의어로 기술하되 어느 것을 먼저 배열하느냐로 개별 어휘의 일반어화의 진행 정도를 확인할 수 있는데 불교 어휘의 경우 불교용어로만 쓰이는 단의어가 가장 많았고 일반어로서의 용법이 우선인 것, 불교용어로서의 용법이 우선인 것의 순으로 나타났으며 일반어로 기술되어 있으나 불교 용어에서 비롯된 어휘도 있었다. 한 사전 안에서 언어 단위에 따라 전문 영역 표지가 달라지는 경우, 사전별로 불교 전문용어 여부에 대한 판단이 다른 경우, 기존의 학술적인 연구 결과와 사전의 기술 내용이 상충되는 경우 등 섬세한 검증을 필요로 하는 사례는 향후 종교 전문가와 언어 전문가, 사전 전문가의 협업을 통해 해결해 나가야 할 것이다.

세종 전자사전과 한국어 어휘의미망을 이용한 용언의 어의 중의성 해소 (Word Sense Disambiguation of Predicate using Sejong Electronic Dictionary and KorLex)

  • 강상욱;김민호;권혁철;전성규;오주현
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.500-505
    • /
    • 2015
  • 21세기 세종계획을 통하여 개발된 세종 전자사전은 한국어 어휘의 내재정보에 대한 체계적인 분석 정보를 담고 있다. 이는 일반적으로 사용하는 텍스트 사전이 가지는 전산적 표상 문제를 해결하는데 많은 도움을 주고 있다. 자연언어처리 분야에서 끊이지 않는 문제인 어의 중의성 해소(Word Sense Disambiguation) 문제 또한 세종 전자사전의 상세 정보를 이용하여 해결할 수 있지만, 실제 제시된 문형과 논항의 선택제약 명사로는 어의 중의성 해소 문제를 해결하는 데 한계를 보인다. 본 연구에서는 세종 전자사전의 용언 하위범주화 정보를 이용한 어의 중의성 해소의 한계점을 보이고, 한국어 어휘의미망(Korean Lexico-semantic network)을 이용하여 논항의 선택제약 정보를 일반화한다.

반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템 (A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary)

  • 명재석;이동주;이상구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.68-75
    • /
    • 2007
  • 웹 2.0 시대에 사용자가 작성한 리뷰는 다양한 활용성을 갖는 가치있는 데이터이다. 특히 온라인 쇼핑몰에서의 상품평은 사용자의 구매 결정에 직접적인 영향을 미치는 중요한 정보이다. 본 논문에서는 실제 쇼핑몰 사이트에 있는 상품평을 분석하여 각 상품의 특징과 이에 대한 사용자의 의견을 요약하는 상품평 분석 시스템을 설계하고 구현하였다. 각 상품평을 분석하는 과정에서는 자연언어처리 기법과 의미 사전을 사용한다. 의미 사전에는 상품의 특징을 표현하는 어휘와 각 어휘들의 극성(Polarity) 정보들을 반자동으로 정의할 수 있도록 구현하였다. 이에 더하여 문맥에 따라 다른 의미를 갖는 어휘에 대한 처리 방법에 대해서도 논의한다. 실험은 2개 상품 분류의 63개 실제 리뷰를 대상으로 수행하였으며 결과로 평균 88.94%의 정확률, 47.92%의 재현율을 나타냈다.

  • PDF

한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능 (Morphological Analysis and Spelling Check Function of Korean Morphological Analyzer HAM)

  • 강승식;이하규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-252
    • /
    • 1996
  • 한국어 형태소 분석기의 효율성에 영향을 미치는 요인은 분석 알고리즘의 효율성보다도 어휘 사전 등 형태소 분석과 관련된 여러 가지 요인들이 미치는 영향이 훨씬 더 크다. 따라서 단어의 유형 분류 기법이나 불규칙 용언의 분석 방법을 비롯하여 어휘 사전의 구조 및 크기, 알고리즘의 선택과 구현 등 형태소 분석과 관련된 모든 요소들을 형태소 분석에 적합하도록 구성하여야 한다. 본 논문에서는 어휘형태소 사전과 문법형태소 사전의 크기, 한글 문서에 나타나는 단어의 특성 등 형태소 분석기의 효율 및 성능에 영향을 미치는 요소들을 고찰하였다. 그 결과로 알고리즘의 효율보다는 사전 탐색 시간이 형태소 분석에 미치는 영향이 매우 크다는 것을 알 수 있었다. 이와 같이 형태소 분석기의 성능에 영향을 미치는 요인들을 고려하여 구현된 범용 형태소 분석기 HAM에 대하여 형태소 분석 기능과 철자 검사 기능을 실험하였다. 형태소 분석 성공률에 대한 실험 결과 99.46%의 분석률을 보이고 있으며, 맞춤법 검사 기능으로는 상용화된 철자 검사기와 비슷한 성능을 보이고 있다. HAM의 처리 속도는 pentium 120MHz linux 2.0 환경에서 1 초에 약 1,000 단어를 분석한다.

  • PDF

직물디자인의 시각적 요소와 관련된 감성 어휘 모형 (A lexical structure of adjectives for the sensibility of visual design elements in Textile)

  • 박수진;조경자;장준익;김길님
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 1997년도 한국감성과학회 연차학술대회논문집
    • /
    • pp.63-68
    • /
    • 1997
  • 본 연구에서는 직물 디자인의 시각적 요소와 관련된 감성 모형을 제안하고, 아울러 감성 모형을 구성하는 과정에서 사용될 수 있ㅅ는 대안적인 방안을 제시하고자 한다. 이를 위해 설문 조사와 관련 잡지, 신문, 사전 등을 통한 광범위한 어휘 수집이 이뤄졌으며 수집된 어휘는 1,000여 개였다. 수집된 어휘에 대해 이해도 및 적절성 평가를 실시하여 직물 제품과 관련된 감성을 표현하기에 부적절하거나 이해하기 어려운 어휘들을 제거하여 360개의 감성 어휘로 정리하였다. 사용 빈도가 높은 어휘 108개를 이용하여 자유 연상과제를 실시하였으며 그결과 어휘들 간 관계에 대한 연결망을 그려낼 수 있었다. 어휘망에서 중심적인 대표어 역할을 하는 18개 어휘를 추출하여 1차로 유사성평정을 실시하였으며 다차원 척도법으로 분석한 결과 어휘들 간 관계를 표현하기 위해 필요한 차원은 네 개였다. 1차로 구성된 모형의 타당성을 확인하기 위해 추가로 각각 20개씩의 어휘를 새로이 추출하여 2회에 걸쳐 유사성 평정을 실시한 결과, 직물 디자인의 시각적 요소와 관련된 감성을 모형화하기 위해서는 세 개차원이면 충분하다고 생각된다.

  • PDF

어휘독립 환경에서의 가변어휘 음성인식에 관한 연구 (A Study on the Variable Vocabulary Speech Recognition in the Vocabulary-Independent Environments)

  • 황병한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.369-372
    • /
    • 1998
  • 본 논문은 어휘독립(Vocabulary-Independent) 환경에서 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경할 수 있는 가변어휘(Variable Vocabulary) 음성인식에 관한 연구를 다룬다. 가변어휘 인식은 처음에 대용량 음성 데이터베이스(DB)로 음소모델을 훈련하고 인식대상 어휘가 결정되면 발음사전에 의거하여 음소모델을 연결함으로써 별도의 훈련과정 없이 인식대상 어휘를 변경 및 추가할 수 있다. 문맥 종속형(Context-Dependent) 음소 모델인 triphone을 사용하여 인식실험을 하였고, 인식성능의 비교를 위해 어휘종속 모델을 별도로 구성하여 인식실험을 하였다. Unseen triphone 문제와 훈련 DB의 부족으로 인한 모델 파라메터의 신뢰성 저하를 방지하기 위해 state-tying 방법 중 음성학적 지식에 기반을 둔 tree-based clustering(TBC) 기법[1]을 도입하였다. Mel Frequency Cepstrum Coefficient(MFCC)와 대수에너지에 기반을 둔 3 가지 음성특징 벡터를 사용하여 인식 실험을 병행하였고, 연속 확률분포를 가지는 Hidden Markov Model(HMM) 기반의 고립단어 인식시스템을 구현하였다. 인식 실험에는 22 개 부서명 DB[3]를 사용하였다. 실험결과 어휘독립 환경에서 최고 98.4%의 인식률이 얻어졌으며, 어휘종속 환경에서의 인식률 99.7%에 근접한 성능을 보였다.

  • PDF

계산주의적 모델을 이용한 한국어 어휘습득 모텔 설계 및 구현 (Design and Implementation of Korean Lexical Acquistion Model using Computational Model)

  • 유원희;박기남;류기곤;임희석
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2007년도 춘계학술발표논문집
    • /
    • pp.230-232
    • /
    • 2007
  • 본 논문은 인간의 언어정보처리과정 중 초기 어휘획득(lexical acquisition) 과정을 한국어에 적용시켜 Full-List 모형과 Decomposition 모형의 하이브리드한 형태의 계산주의적 (computational) 어휘정보처리 모델을 구현하고 실험하였다. 실험결과 학습을 통한 언어적 입력의 인간의 어휘획득 과정을 모사(simulate) 할 수 있었고, 특정 문법범주 습득 순서에 대한 이론적 근간을 제시할 수 있었다. 또한 본 연구의 모델에서 자동으로 생성된 Full-List 사전과 Decomposition 사전을 통해 인간의 대뇌 심성표상(mental representation) 형태를 유추할 수 있는 증거를 보였다.

  • PDF

Semantic parsing 기반 지식 베이스 질의응답 시스템의 어휘-의미 패턴 질의 템플릿을 통한 보완 (Assisting semantic parsing-based QA system with lexico-semantic pattern query template)

  • 심효섭;박선영;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-258
    • /
    • 2014
  • 본 논문에서는 semantic parsing과 사전 정의된 어휘-의미 패턴 질의 템플릿 방법론을 결합하여 자연어 질의로부터 RDF 지식베이스에 질의하기 위한 SPARQL 쿼리를 생성하는 방법을 제안한다. semantic parsing 접근법은 문장의 표현과 분리된 형식적 의미표현만을 포착해내므로, paraphrase 혹은 의미 변화와 무관한 어순의 변화에 강인하지만, 일부 자연어 질의문장에는 단순한 의미 및 구조를 갖는 문장도 적합한 형식적 의미표현을 생성하지 못하는 단점이 있다. 따라서 이 연구에서는 이러한 단순한 문장에 있어서는 사전 정의된 질의 템플릿을 사용하여 적합한 쿼리를 생성하되, 적합한 템플릿을 선택하는데 있어 해당 질의문장의 어휘-의미적 유형을 포착하고 해당 정보를 이용하는 방법을 이용하였으며 이를 통해 주 방법론의 약점을 보완하는 제한적인 효과를 얻을 수 있었다.

  • PDF