• 제목/요약/키워드: 의존구문분석

검색결과 148건 처리시간 0.025초

다양한 임베딩 모델들의 하이퍼 파라미터 변화에 따른 성능 분석 (Performance analysis of Various Embedding Models Based on Hyper Parameters)

  • 이상아;박재성;강상우;이정엄;김선아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.510-513
    • /
    • 2018
  • 본 논문은 다양한 워드 임베딩 모델(word embedding model)들과 하이퍼 파라미터(hyper parameter)들을 조합하였을 때 특정 영역에 어떠한 성능을 보여주는지에 대한 연구이다. 3 가지의 워드 임베딩 모델인 Word2Vec, FastText, Glove의 차원(dimension)과 윈도우 사이즈(window size), 최소 횟수(min count)를 각기 달리하여 총 36개의 임베딩 벡터(embedding vector)를 만들었다. 각 임베딩 벡터를 Fast and Accurate Dependency Parser 모델에 적용하여 각 모들의 성능을 측정하였다. 모든 모델에서 차원이 높을수록 성능이 개선되었으며, FastText가 대부분의 경우에서 높은 성능을 내는 것을 알 수 있었다.

  • PDF

시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축 (Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns)

  • 양승현;김영섬;우요섭;윤덕호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권3호
    • /
    • pp.364-372
    • /
    • 2000
  • 하위범주화는 보어의 어휘 개념이 명시된 술어와 보어간 의존 관계를 정의하는 언어 정보로서 구문 및 의미 분석 등에 폭넓게 활용될 수 있는 기반 언어 자원이라는 데에 그 중요성이 있다. 본 논문에서는 표층문에서 통상 격표지로 표현되는 구문적 의존 관계뿐만 아니라, 보어가 갖는 의미역 정보가 부착되어 있으며 시소러스 개념 분류 체계와 연동 가능한 한국어 술어의 하위범주화 사전의 구축에 대해 설명하고 있다. 본 논문에서는 하위범주화 사전의 의미역 표현을 위해 총 25개의 의미역을 설정하고 있다. 이 의미역은 표층 격표지와 직접 연관되어 있기 때문에 통사적인 분석으로부터 직접 의미역 정보를 추출해서 의미 구조의 해석에 이용하는 것이 가능하다. 또한 명사 보어가 갖는 개념의 표현을 위해 상ㆍ하위어 관계를 갖는 12만 어휘 규모의 시소러스를 이용하고 있으며, 술어의 의존 관계 표현을 위해 동사, 형용사에 대해 각각 47, 17 개의 하위범주화 패턴을 이용하고 있다. 실용적 규모의 시소러스를 이용함으로써 문장에 나타난 명사의 시소러스 개념을 그대로 하위범주화 사전에 적용시켜 의미 정합 여부를 판단할 수 있는 실질적인 선택제약 체계를 구성할 수 있었고, 표층 격표지에 기초한 표준화된 술어 패턴을 이용함으로써 의미역의 결정 등에서 야기될 수 있는 비일관성을 방지하고 구축에 드는 비용을 절감할 수 있었다. 이상과 같은 방법으로 말뭉치에서 추출한 고빈도 술어 13,000 여개에 대해 하위범주화 사전을 구축하였으며, 적용 범위 평가 실험에 의하면 이 하위범주화 사전은 말뭉치에서 발견된 술어의 72.7%에 대해 하위범주화 정보를 제공할 수 있음을 확인하였다.

  • PDF

EM 알고리즘을 이용한 전문용어 온톨로지 클래스간 관계 정의를 위한 동사 클러스터링 (Verb Clustering for Defining Relations between Ontology Classes of Technical Terms Using EM Algorithm)

  • 김미훈;남상협;이용훈;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.233-240
    • /
    • 2007
  • 온톨로지 구축에서 클래스간 관계 설정은 중요한 부분이다. 본 논문에서는 클래스간 상 하위 관계 외의 관계 설정을 위한 클래스간 관계 자동 정의를 목적으로 의존구문분석의 (주어, 용언) (목적어, 용언) 쌍들을 추출하고, 이렇게 추출된 데이터를 이용하여 용언들을 클러스터링 하는 방법을 제안한다. 도메인 전문 코퍼스 데이터 희귀성 문제를 해결하고자, 웹검색을 결합한 방식을 선택하여 도메인 온톨로지 구축 클래스간 관계 자동 설정에 대한 방법론을 제시한다.

  • PDF

도달성 도표의 상태감소를 위한 프로세스 대수 구문 방법: 이음 선택과 여 선택 (A Process Algebra Construct Method for Reduction of States in Reachability Graph: Conjunctive and Complement Choices)

  • 최영복;이문근
    • 정보과학회 논문지
    • /
    • 제43권5호
    • /
    • pp.541-552
    • /
    • 2016
  • 본 논문은 분산 이동 실시간 시스템의 분석과 명세에서 프로세스와 시스템의 복잡도를 획기적으로 감소하기 위한 방법으로 새로운 이음 선택(Conjunctive Choice) 및 여 선택(Complement Choice) 연산을 제안한다. 여 선택 연산은 두 프로세스의 선택(Choice) 연산이 연동하여 동일한 선택을 도출함을 표현한다. 이음 선택 연산은 프로세스 내의 일련의 선택 연산들 간의 의존성을 표현한다. 이음 선택 연산은 프로세스 복잡도를 선택 연산의 의존성의 수 만큼 기하급수적으로 감소시킨다. 마찬가지로 여 선택 연산은 시스템 복잡도를 선택 연산의 의존성의 수 만큼 기하급수적으로 감소시킨다. 그리하여 복잡도가 획기적으로 감소하게 되어 시스템의 명세와 분석이 용이하게 된다. 이 선택 연산은 ${\delta}$-Calculus 프로세스 대수에서 구현하였다. 또한 예제를 ADOxx 플랫폼에서 개발한 SAVE 도구를 사용하여 보여줌으로써 효과와 효율성을 제시한다.

다국어 범용 의존관계 주석체계(Universal Dependencies) 적용 연구 - 한국어와 일본어의 비교를 중심으로 (A Case Study on Universal Dependency Tagsets)

  • 한지윤;이진;이찬영;김한샘
    • 비교문화연구
    • /
    • 제53권
    • /
    • pp.163-192
    • /
    • 2018
  • 이 논문은 형태통사적 특성이 유사한 한국어와 일본어의 다국어 범용 의존관계 주석체계(Universal Dependencies, 이하 UD) 적용 사례를 살펴보고 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰하는 것을 목적으로 한다. 한국어와 일본어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 적용하는 데에 많은 어려움이 있다. 이에 본고에서는 UD를 구성하는 범용 품사 주석(Universal POS, 이하 UPOS)과 범용 의존관계 주석(Universal Dependency Relations, 이하 DEPREL)의 적용과 그에 따른 논의들을 검토하였다. UPOS의 경우 AUX(조동사 표지), ADJ(형용사 표지), VERB(동사 표지)처럼 서술어와 관련된 주석 표지의 처리와 조사, 어미와 같은 기능어의 처리 방안을 살펴보았으며 접속사 및 이와 관련된 단위를 어떻게 처리하고 있는지 검토하였다. DEPREL과 관련해서는, 구문 표지를 주석하는 기본 단위의 문제에서 출발하여 통사적 문제를 어떻게 반영하고 있는지 살펴보았다. 지배소 설정 방식과 병렬 구조의 주석 방식, case(격 관계 표지)와 aux(조동사 관계 표지) 주석 방식을 검토하였다. 다양한 관계 주석 표지 중에서 특히 case와 aux에 집중하여 논의한 것은 한국어와의 주석 표지 적용 양상을 비교했을 때 분포 상 가장 두드러지는 차이를 나타내기 때문이다. case는 한국어와 일본어 모두 조사와 관련이 있고, aux는 한국어에서는 보조용언, 일본어에서는 조동사와 관련이 있는 표지이다. 구체적인 주석 양상을 살펴본 결과 일본어의 aux는 서법 조동사뿐만 아니라 동사에 문법적 의미를 더하는 요소, 한국어의 어미에 해당하는 형태에도 aux를 할당하기 때문에 주석이 차지하는 비율이 크게 차이가 나는 것으로 밝혀졌다. iobj(간접목적어 관계 표지)와 관련해서는 일본어에서 간접목적어를 인정하는 데에 반해 한국어에서는 간접목적어를 인정하지 않는 경우가 더 많았다. 일본어의 UD 주석에서 형태 분석 기본 단위인 '단단위'를 기본 구문 주석 단위로 하되 '장단위'와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 의존관계 주석의 정보로 활용하는 방안에 대해서 고려할 필요가 있다.

구문적 언어지식 획득 과정의 문제점 분석 및 지원도구 설계 (Problem Analysis on Syntactic Linguistic Knowledge Acquisition and Design of a Supporting Tool)

  • 이현아;박재득;장명길;박수준;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.489-496
    • /
    • 1996
  • 자연어 처리에서 언어에 대한 지식은 전자사전과 문법규칙으로 구성되어 서로 상보적 관계에 있고, 각 어휘에 대한 품사 및 기타 자질-값에 의해 매개된다. 이러한 언어지식을 전통적인 방법에서는 국어자료의 분석에 경험이 많은 언어전문가의 직관에 다분히 의존하여 정의하였고, 말뭉치를 이용한 자동 획득 기법에서는 태그세트를 먼저 설정하고, 이 태그를 원시 말뭉치에 부착하여 태깅된 말뭉치로부터 자동으로 통계적 분석을 통하여 획득한다. 그런데 두가지 접근방법이 가지고 있는 공통적인 문제점은 품사나 자질-값의 정의 및 할당기준, 선악의 평가기준, 튜닝에 대한 적극적 대처 등이 마련되어 있지 않다는 점이다. 이 연구에서는 이러한 문제점의 발생원인을 말뭉치 분석 과정에서 살펴보고, 품사 및 자질-값의 설정과 할당기준을 마련하는 방법론 및 이를 적극적으로 지원하는 도구를 설계한다.

  • PDF

의존관계에 기초한 일본어 키워드 추출방법 (The Method of Deriving Japanese Keyword Using Dependence)

  • 이태헌;정규철;박기홍
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.41-46
    • /
    • 2003
  • 본 논문에서 일본어 키워드 추출을 목적으로 요약문서 중에 떨어진 문자열을 합성하고, 그 문장에 나타난 규칙을 가지고 단어 정보(표기, 품사)와 구문 정보를 이용하여 복합명사고로 된 키워드 추출 방법을 제안한다. 저자 자신이 부여한 학술 논문의 키워드 중에서 문서 중에 그대로 존재하지 않는 키워드의 특징을 분석한 결과로 의존 관계에 의한 복합명사 생성 규칙을 구축한다. 또 문장의 내용과 다른 키워드의 추출을 억제하기 위해 생성규칙에 대한 제약과 중복 단어를 고려한 중요도 결정법을 제안한다. 자연ㆍ 음성언어처리에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 63%가 되어 추출 방법의 유효성을 확인 할 수가 있었다.

토큰기반 변환중심 한일 기계번역을 위한 변환사전 (Transfer Dictionary for A Token Based Transfer Driven Korean-Japanese Machine Translation)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제9권3호
    • /
    • pp.64-70
    • /
    • 2004
  • 한국어와 일본어는 동일한 어족에 속하며 비슷한 문장구조를 가지고 있어 변환중심 기계번역 방법이 효율적이다. 본 논문에서는 토큰 단위의 변환중심 한일 기계번역 시스템을 위한 변환 사전을 생성하는 방법에 관하여 기술하였다. 변환 사전이 잘 구성되면 구문분석 단계에서는 대역어를 선정하기에 적합한 정도까지의 의존트리를 생성하는 간이 파싱 만을 함으로써 필요 없는 노력을 경감시킬 수 있다. 게다가 구문해석 시에 최종의 결과 트리를 만들지 않아도 되므로 문어체 문장은 물론 입력 형태가 비정형적인 대화체 문장에서 더욱 큰 효과를 볼 수 있다. 본 논문의 변환 사전은 한국전자통신 연구원이 수집한 음성 데이터베이스로부터 추출한 말뭉치를 사용해 구성하였다. 구현한 시스템은 여행 계획영역에서 수집된 900여 발화 안의 문장을 대상으로 시험하였는데 제한된 환경에서 $92\%$, 아무런 제약이 없는 환경에서는 $81\%$의 성공률을 보였다.

  • PDF

문형 사전을 위한 문형 빈도 조사 (Studying the frequencies of sentence pattern for a entence patterns dictionary)

  • 김유미
    • 인지과학
    • /
    • 제16권2호
    • /
    • pp.123-140
    • /
    • 2005
  • 이 논문은 한국어 교육에서 문형 전자 사전을 바탕으로 하는 자동문형 검사기를 설계하기 위해 문형의 출현 빈도와 사용 빈도 조사를 목적으로 하였다. 먼저 한국어 교육에서의 문형의 개념을 정의하고 그 유형을 구문 문형과 표현 문형으로 나누어 분류하였다. 서술어 중심의 구문 문형과 의존명사, 어미, 조사가 중심인 표현 문형이 학습자 코퍼스에서 어떻게 나타나는지 분석하였다. 학습자 코퍼스는 학습자들이 꼭 배워야 하는 것으로 표준 코퍼스와 학습자들의 생산물인 오류 코퍼스로 나누어 구축하였다. 한국어 교재로 구성된 표준 코퍼스에서의 문형 출현 빈도와 학습자들이 직접 작성한 글을 모은 오류 코퍼스에서 어떻게 문형이 사용되고 있는지 사용 빈도를 조사하였다. 학습자들의 문형 사용 빈도순은 문형 전자 사전에 기술되고, 이것은 문형 검색 속도를 최적화할 것이다.

  • PDF

The Ability of L2 LSTM Language Models to Learn the Filler-Gap Dependency

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.27-40
    • /
    • 2020
  • 본 논문은 장단기기억신경망(LSTM)이 영어를 배우면서 학습한 암묵적 통사 관계인 필러-갭 의존 관계를 조사하여 영어 문장 학습량과 한국인 영어 학습자(L2ers)의 문장 처리 패턴 간의 상관관계를 규명한다. 이를 위해, 먼저 장단기기억신경망 언어모델(LSTM LM)을 구축하였다. 이 모델은 L2ers가 영어 학습 과정에서 잠재적으로 배울 수 있는 L2 코퍼스의 영어 문장들로 심층학습을 하였다. 다음으로, 이 언어 모델을 이용하여 필러-갭 의존 관계 구조를 위반한 영어 문장을 대상으로 의문사 상호작용 효과(wh-licensing interaction effect) 즉, 정보 이론의 정보량인 놀라움(surprisal)의 정도를 계산하여 문장 처리 양상을 조사하였다. 또한 L2ers 언어모델과 상응하는 원어민 언어모델을 비교 분석함으로써, 두 언어모델이 문장 처리에서 필러-갭 의존 관계에 내재된 추상적 구문 구조를 추적할 수 있음을 보여주었을 뿐만 아니라, 또한 선형 혼합효과 회귀모델을 사용하여 본 논문의 중심 연구 주제인 의존 관계 처리에 있어서 원어민 언어모델과 L2ers 언어모델간 통계적으로 유의미한 차이가 존재함을 규명하였다.