• 제목/요약/키워드: 어절 분석

검색결과 280건 처리시간 0.021초

NDSL 검색 질의어와 기술용어간의 관계에 대한 분석적 연구 (A Relation Analysis between NDSL User Queries and Technical Terms)

  • 강남규;조민희;권오석
    • 정보관리연구
    • /
    • 제39권3호
    • /
    • pp.163-177
    • /
    • 2008
  • 본 논문에서는 NDSL을 검색하기 위해 이용자가 입력하는 검색 질의어를 대상으로 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어와의 관계를 분석하고자 한다. 관계 분석을 위해 사용된 키워드는 17개월 동안의 NDSL 검색 질의어에서 추출한 약 83만3,000개, 기술용어는 NDSL, INSPEC, FSTA 3개 영문 학술지 데이터베이스 약 4,100만건에서 추출한 약 97만5,000개이다. 그리고 분석에 사용된 키워드와 기술용어는 2어절 이상의 영어 단어이며, 이들 간의 관계 분석은 키워드와 기술용어간의 일치성, 연관성, 기술용어에 대한 빈도 분석 등이다.

연구 논문의 의미 구조 기반 메타데이터 항목의 자동 식별 처리를 위한 문장 구조 분석 (Analyzing the Sentence Structure for Automatic Identification of Metadata Elements based on the Logical Semantic Structure of Research Articles)

  • 송민선
    • 정보관리학회지
    • /
    • 제35권3호
    • /
    • pp.101-121
    • /
    • 2018
  • 본 연구는 연구논문의 논리적 의미 구조 메타데이터 항목에 해당하는 데이터에 담겨 있는 문장의 구성에 따라 시스템에서 적절한 항목으로 자동 식별 처리될 수 있도록 하는, 문장의미론(Sentence Semantics)적 분석 방법을 제안하고자 하는 목적으로 수행되었으며, 의미 구조 메타데이터 항목 중 'Research Objectives'와 'Research Outcomes'에 해당하는 연구 논문 문장의 구조를 어절 수, 접속어 종류, 다수 출현한 단어들의 문장 내 역할, 문장에서 다수 출현한 어미 형태 등을 기준으로 분석해 정리하였다. 연구 결과, 문장들의 어절 수는 'Research Objectives'는 평균 38개, 'Research Outcomes'는 평균 212개로 나타났으며, 접속어의 경우 'Research Objectives'는 인과-순접-대등-환언/요약 관계를 나타내는 접속어 순으로, 'Research Outcomes'는 인과-대등-순접-환언/요약 관계를 나타내는 접속어 순으로 많이 출현한 것으로 파악되었다. 출현빈도가 높은 분석 대상 단어들은 각각 문장 내에서 주어, 목적어, 서술어 역할 등으로 사용되고 있었으며, '역할'이나 '요인', '관계'는 목적이나 결과 부분 모두에서 비슷한 역할을 담당하고 있었지만 '연구'는 같은 단어라도 연구의 목적 부분과 결과 부분에서 사용되는 역할에 차이를 보였다. 마지막으로 문장 내 동사의 어미는 'Research Objectives'에서 '~고자'와 '~였다', 'Research Outcomes'에서 '~었다', '~있다', '~였다'가 많이 출현하였다. 본 연구는 연구자의 학술적 이해형성을 지원하기 위해 연구논문이 담고 있는 공통된 논리적 의미를 반영한 메타데이터 요소의 자동 식별과 입력 방안을 제시하는 데 활용할 수 있는 기초 연구로서 의의가 있다.

음성언어 번역 시스템을 위한 새로운 형태소 분석 (A New Morphological Analysis for the Spoken Language Translation System)

  • 양승원;김재훈
    • 한국음향학회지
    • /
    • 제18권4호
    • /
    • pp.17-22
    • /
    • 1999
  • 음성 처리부와 기계번역부를 통합하는 음성언어 번역 시스템에서는 각 모듈들이 다루는 자료나 처리단위 등이 서로 달라 통합이 어렵다. 따라서, 전체 시스템의 효율을 제고하면서 각 모듈에서 공통으로 사용할 수 있는 새로운 입출력 단위가 필요하다. 본 논문에서는 음성언어 번역 시스템에서 음성 처리 모듈들과 언어번역 모듈과의 인터페이스 단위로서 의사 형태소를 제안하고, 입력되는 문장을 의사 형태소 단위로 분석하는 형태소 분석기를 구현하였다. 의사형태소를 이용한 음성인식/합성은 어절이나 형태소단위의 음성인식/합성에서 보다 개선된 결과를 얻을 수 있게 해주며, 전체적인 음성언어 번역시스템의 성능도 높일 수 있다. 본 논문에서 구현한 의사 형태소 분석기의 분석율은 약98.9%로 일반 형태소 분석기와 동일한 수준의 성능을 보였다.

  • PDF

예측 기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기 (A Predictive Morphological Analyzer, A Part-of-Speech Tagger Based on Joint Independence Model, and A Fast Noun Extractor)

  • 이상주;박봉래;김진동;류원호;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.145-150
    • /
    • 1999
  • 본 논문에서는 한국어 자연어 정보처리 기술 표준화를 위한 형태소 분석기 및 품사 태거 평가 대회(MATEC99)에 참여한 고려대학교의 형태소 분석기, 품사 태거, 그리고 명사 추출기를 설명하고 평가 결과를 기술한다. 형태소 분석기는 입력된 어절을 우에서 좌로 분석하며 각 상태에 대한 예측 정보를 활용하여 불필요한 분석 후보에 대한 탐색을 수행하지 않도록 한다. 품사 태거로는 띄어쓰기를 고려한 형태소 품사 2-그램 확률과 띄어쓰기를 고려한 형태소 어휘-품사 3-그램 어휘 확률을 이용하는 결합 독립 모형을 사용한다. 고속 명사 추출기는 고속의 FST 사전과 한국어 특성을 반영한 휴리스틱을 이용한다.

  • PDF

ELMo와 멀티헤드 어텐션을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using ELMo and Multi-head Attention)

  • 박성식;오신혁;김홍진;김시형;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.8-12
    • /
    • 2018
  • 구문 분석이란 문장을 단어, 어절, 구 등의 구성 성분으로 분해하고 각각의 구조적 정보를 분석하여 문장의 구조를 알아내는 작업을 말한다. 최근 의존 구문 분석은 심층 신경망을 이용하는 방법이 활발히 연구되고 있다. 특히 포인터 네트워크를 사용하는 방법은 다른 심층 신경망보다 높은 성능을 보이고 있다. 그러나 포인터 네트워크의 사용만으로 의존 관계와 의존 관계명을 예측하는 것은 한계가 존재한다. 본 논문에서는 최근 사용하는 단어 표상 방법 별로 비교 실험을 진행하고 의존 구문 분석에서 GloVe의 성능이 가장 좋음을 보인다. 또한 언어 모델을 통한 단어 표상 방법인 ELMo와 멀티헤드 어텐션을 사용하여 포인터 네트워크만을 사용 했을 때보다 높은 성능(UAS 92.85%, LAS 90.65%)을 보였다.

  • PDF

Deep Bi-affine Network와 스택 포인터 네트워크를 이용한 한국어 의존 구문 분석 시스템 (Korean Dependency Parsing Using Deep Bi-affine Network and Stack Pointer Network)

  • 안휘진;박찬민;서민영;이재하;손정연;김주애;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.689-691
    • /
    • 2018
  • 의존 구문 분석은 자연어 이해 영역의 대표적인 과제 중 하나이다. 본 논문에서는 한국어 의존 구분 분석의 성능 향상을 위해 Deep Bi-affine Network 와 스택 포인터 네트워크의 앙상블 모델을 제안한다. Bi-affine 모델은 그래프 기반 방식, 스택 포인터 네트워크의 경우 그래프 기반과 전이 기반의 장점을 모두 사용하는 모델로 서로 다른 모델의 앙상블을 통해 성능 향상을 기대할 수 있다. 두 모델 모두 한국어 어절의 특성을 고려한 자질을 사용하였으며 세종 의존 구문 분석 데이터에 대해 UAS 90.60 / LAS 88.26(Deep Bi-affine Network), UAS 92.17 / LAS 90.08(스택 포인터 네트워크) 성능을 얻었다. 두 모델에 대한 앙상블 기법 적용시 추가적인 성능 향상을 얻을 수 있었다.

  • PDF

패션앱 후기글 평가분석에 기반한 의류 검색추천 챗봇 개발을 위한 학습데이터 EVAD 구축 (Construction of Evaluation-Annotated Datasets for EA-based Clothing Recommendation Chatbots)

  • 최수원;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.467-472
    • /
    • 2021
  • 본 연구는 패션앱 후기글에 나타나는 구매자의 의견에 대한 '평가분석(Evaluation Analysis: EA)'을 수행하여, 이를 기반으로 상품의 검색 및 추천을 수행하는 의류 검색추천 챗봇을 개발하는 LICO 프로젝트의 언어데이터 구축의 일환으로 수행되었다. '평가분석 트리플(EAT)'과 '평가기반요청 쿼드러플(EARQ)'의 구성요소들에 대한 주석작업은, 도메인 특화된 단일형 핵심어휘와 다단어(MWE) 핵심패턴들을 FST 방식으로 구조화하는 DECO-LGG 언어자원에 기반하여 반자동 언어데이터 증강(SSP) 방식을 통해 진행되었다. 이 과정을 통해 20여만 건의 후기글 문서(230만 어절)로 구성된 EVAD 평가주석데이터셋이 생성되었다. 여성의류 도메인의 평가분석을 위한 '평가속성(ASPECT)' 성분으로 14가지 유형이 분류되었고, 각 '평가속성'에 연동된 '평가내용(VALUE)' 쌍으로 전체 35가지의 {ASPECT-VALUE} 카테고리가 분류되었다. 본 연구에서 구축된 EVAD 평가주석 데이터의 성능을 평가한 결과, F1-Score 0.91의 성능 평가를 획득하였으며, 이를 통해 향후 다른 도메인으로의 확장된 적용 가능성이 유효함을 확인하였다.

  • PDF

음절 복원 규칙과 형태소 분석을 이용한 음성인식 후처리 (Post-Processing of Voice Recognition Using Phonologic Rules and Morphologic analysis)

  • 서상현;김재홍;김해진;김미진;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.495-499
    • /
    • 1997
  • 컴퓨터의 사용이 보편화됨에 따라 컴퓨터와 사용자 사이의 쉽고 자연스러운 의사 소통을 위한 자연어 인터페이스에 대한 연구가 활발히 진행되고 있다. 이 중에서 특히, 음성인식 분야는 음성명령, 받아쓰기 시스템 등 일반적인 컴퓨터 사용자의 요구를 충족시켜 줄 수 있는 분야로 주목을 받고 있다. 그러나 음성인식은 인식 자체만으로는 인식률에 한계가 있으며, 인식 결과를 향상시키기 위해서는 후처리 단계가 필요하다. 본 논문에서는 음성 인식의 성능을 향상시키기 위해 음성 인식의 결과로 들어온 연속된 한국어 음성을 올바른 음절로 복원시켜 주는 시스템을 구현하였다. 이 시스템에서는 어절단위의 연속된 한국어 음성을 입력으로 받아 한국어 발음 규칙을 역으로 적용하여 원래의 음절로 복원시키고, 형태소 분석기를 이용하여 복원된 음절이 올바른지를 확인하고 수정한다. 초등학교 교과서에 나오는 문장을 대상으로 본 시스템의 성능을 실험한 결과, 90.42%의 복원율을 나타내었다. 현재 정확하게 복원이 되지 않는 것 중에는 동음이의어가 차지하는 비중이 크며, 이 문제는 구문분석이나 의미분석을 이용하여 어느 정도 개선할 수 있을 것으로 보인다.

  • PDF

래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅 (Lattice-based Discriminative Approach for Korean Morphological Analysis)

  • 나승훈;김창현;김영길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권7호
    • /
    • pp.523-532
    • /
    • 2014
  • 본 논문에서는 래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅을 수행하는 방법을 제안한다. 제안하는 방법은 입력문이 주어질 때 어휘 사전(lexicon)을 참조하여, 형태소를 노드로 취하고 인접형태소간의 에지를 갖도록 래티스를 구성하며, 구성된 래티스상 가장 점수가 높은 경로상에 있는 형태소들을 분석 결과로 제시하는 방법이다. 실험 결과, ETRI 품사 부착 코퍼스에서 기존의 1차 linear-chain CRF에 기반한 방법보다 높은 어절 정확률 그리고 문장 정확률을 얻었다.

베이지안 추론망 기반 색인어의 심층 분석 방법 (Deep Analysis on Index Terms Using Baysian Inference Network)

  • 송사광;이승우;정한민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF