• 제목/요약/키워드: 구문 관계 정보

검색결과 245건 처리시간 0.022초

기계 번역을 위한 한국어 문장 패턴에 관한 연구 (A Study on the Sentence Pattern of the Korean Language for Machine Translation)

  • 송재관;홍성웅;박찬곤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.308-312
    • /
    • 1996
  • 본 연구에서 말뭉치를 이용하여 기계 번역을 위한 한국어 문장 패턴을 추출하였다. 문장 패턴은 해당 언어의 기본 문법 구조를 가지고 있기 때문에 언어 습득을 위해서 유용하다. 기계 번역을 위해서는 기본 문법 구조뿐만 아니라 각 단어간의 의미 관계를 나타낼 수 있어야 한다. 본 연구는 품사 태깅 및 명사에 의미 소성을 태깅하여 한국어의 문장 패턴을 추출하였다. 추출된 문장 패턴은 구문분석시 애매성을 해소할 수 있으며, 동음다의어의 해석이 가능하며, 의미의 부정합 판정이 가능하다.

  • PDF

양화사와 초점의 영향권 관계 (Scope relations between quantifier and focus)

  • 조유미
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.54-61
    • /
    • 2007
  • 양화문 안의 강 양화사와 약 양화사가 전제적/비전제적 해석과 관련된 영향권 다툼의 과정에서도 약 양화사가 주어이든 목적어이든지 표면 형태에서 VP로부터 멀리 떨어져 있는 경우에는 전제적 해석만을 받게 되어 양화문에 중의성이 발생하지 않는다. 그런데 타동사의 목적어나 비대격 주어 등의 약 양화사가 초점에 민감한 경우에 비전제적 해석이 가능하게 되어 중의적인 문장이 될 수 있다고 본다. 표면구조상 VP 밖에 위치한 약 양화사라도 초점화 되면, 초점투사를 통하여 논리 형태에서 형성된 초점의 영향권(초점 구문) 안에 들어있게 되며, 이때의 초점이 가지는 영향권은 핵 영향권과 일치한다. 즉, 초점은 안에 있는 약 양화사가 핵 영향권 안에서 비전제적으로 해석되도록 하는 동력으로 작용한다고 볼 수 있다.

  • PDF

분류사와 명사 의미 부류

  • 최민우;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.395-401
    • /
    • 2000
  • 국어에서는 어떠한 대상 의 수량을 표현할 때 수사와 함께 분류사(classifier)를 사용한다. 따라서 분류사는 그 특성상 수량 표현 구문을 형성하는 대상 명사와 의미적으로 밀접한 관련을 지니게 되는데, 단순히 명사를 셈하는 것 뿐 아니라 명사의 의미적 특성을 명세(specify)해 준다고 할 수 있다. 본 연구에서는 이러한 명사와 분류사의 연관성에 초점을 맞추어 분류사의 사용에 따른 명사의 범주화 및 계층 구조를 보이고, 컴퓨터 말뭉치 자료를 이용하여 그 관계를 좀더 명확히 밝히는 것을 목적으로 한다. 이러한 연구는 언어를 전산적으로 처리하는데 필수적인 전산어휘부(computational lexicon)의 구축에 필요한 기초 작업이 될 수 있다.

  • PDF

키워드 추출용 구묶음 데이터 구축 및 개선 방법 연구 (Study on Making Chunking Dataset for Keyword Extraction and its Improvement Methods)

  • 이민호;최맹식;김정아;이충희;김보희;오효정;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.512-517
    • /
    • 2020
  • 구묶음은 문장을 겹치지 않는 문장 구성 성분으로 나누는 과정으로, 구묶음 방법에 따라 구문분석, 관계 추출 등 다양한 하위 태스크에 사용할 수 있다. 본 논문에서는 문장의 키워드를 추출하기 위한 구묶음 방식을 제안하고, 키워드 단위 구묶음 데이터를 구축하기 위한 가이드라인을 제작하였다. 해당 가이드라인을 적용하여 구축한 데이터와 BERT 기반의 모델을 이용하여 학습 및 평가를 통해 구축된 데이터의 품질을 측정하여 78점의 F1점수를 얻었다. 이후 패턴 통일, 형태소 표시 여부 등 다양한 개선 방법의 적용 및 재실험을 통해 가이드라인의 개선 방향을 제시한다.

  • PDF

딥러닝 기반의 에세이 자동 평가 방법 제안 (Proposal of Automated Essay Scoring Method based on Deep-Learning)

  • 김유진;박찬준;이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.384-390
    • /
    • 2021
  • 본 논문은 영어 에세이 자동 평가를 위한 딥러닝 기반의 새로운 평가 방법론을 제안한다. 어휘, 형태소, 구문, 의미 단계로 이루어진 평가 과정을 통해 자동화된 에세이 평가가 가능하다. 제안하는 방법의 객관성과 신뢰성을 검증하기 위하여 사람이 평가한 점수와 각 단계별 점수 사이의 상관관계 분석을 진행하였으며, 그 결과 제안하는 평가 방법이 유의미함을 알 수 있었다.

  • PDF

클래스 부품의 재사용을 위한 객체의 추출과 이해 (Extraction and Comprehension of Objects for Class Components Reuse)

  • 한정수;송영재
    • 한국정보처리학회논문지
    • /
    • 제6권4호
    • /
    • pp.941-951
    • /
    • 1999
  • 정보저장소에 저장된 클래스 부품들은 검색, 추출과정을 통한 부품의 다양한 시각적 정보가 부족하고 정확한 정보의 표현 기능이 요구되고 있다. 따라서 본 연구는 클래스 부품을 정보저장소에 저장하기 위해 객체의 구문분석 방법과 추출 Viewer 기능을 연구하였다. 분석과정에서는 클래스명, 멤버함수, 속성 등을 추출하고 클래스 자체정보와 클래스 사이의 상속관계, View를 위한 다이어그램 정보 등을 추출하였다. 또한 추출한 분석정보를 시각적으로 표현할 수 있는 추출 Viewer 기능을 구현하여 클래스 부품의 재사용과 생성, 삽입, 삭제 기능을 보였다. Viewer 기능은 객체의 상속관계와 클래스에 대한 구성정보를 보여주며, 단순한 부품의 재사용에 그치지 않고 클래스를 생성할 수 있는 기능을 추가하여 클래스 부품의 효율적 관리와 재사용성을 높이도록 하였다. 따라서 본 연구는 클래스 부품 정보, 상속관계, 계층도의 정보와 프로세스 등으로 분류하였고 추출 Viewer 기능을 통한 객체의 이해력을 높이고, 객체 생성을 위한 프로토타입을 지원한다.

  • PDF

색인언어의 어의적 관계 및 구문적 관계 (Semantic and syntactic relationships of indexing languages)

  • 윤구호
    • 한국도서관정보학회지
    • /
    • 제22권
    • /
    • pp.1-26
    • /
    • 1995
  • Indexes, especially subject indexes, are major tools for information retrieval. To enhance the retrieval effectiveness of subject indexes, the semantic and syntactic relationships of indexing languages are very important elements. This paper examines the afore-mentioned relationships, based on purely the syntax and semantics of Korean language. The outlines of this study are as follows: 1. The characteristics and usages of controlled vocabularies, particularly subject headings lists and thesaury, are reviewed. 2. The semantic relationships, such as equivalence, hierarchical and associative relationships, are defined, and their categories are investigated in detail. Accordingly, the usages of 'See' and 'See also' references are suggested circumstantially. 3. The syntactic relationships are also examined. Particularly, for the syntactic relationships of multiword indexing terms, two kinds of subject entry formats are compared. Since it is more rational for subject headings organized by the principle of context-dependency, the two-fine entry format is recommended for subject indexes. 4. Computerized production techniques of 'See' and 'See also' reference for the semantic relationships of indexing terms are presented. 5. Computerized production techniques of subject indexes representing the syntactic relationships of indexing terms are also presented.

  • PDF

X-바 이론을 변형한 자질기반의 한국어 구구조 문법 (Feature-based Korean Phrase Structure Grammar adjusting X-bar Theory)

  • 박소영;황영숙;정후중;곽용재;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.222-229
    • /
    • 1998
  • 본 논문에서는 X-바 이론을 한국어에 적용하여 서로 다른 범주들간의 구조적 일반성을 파악하고, 한국어에 가능한 규칙만을 허용하여 불가능한 규칙을 배제시킬 수 있는 틀을 제시하고자 한다. 한국어가 비중심어간 어순이 자유롭고 기능어가 발달했다는 점을 고려하여, 중심어와 보충어 관계 중심의 기존 X-바 이론을 통사적 파생과 의미적 파생, 수식 및 하위범주의 관계를 중심으로 변형한다. 또한, 한국어의 빈번한 생략현상과 부분 자유 어순에 효과적으로 대응할 수 있도록 이진결합 중심의 CNF(Chomsky Normal Form)를 따른다. 제안하는 자질기반의 한국어 구구조 문법은 직관적이고 간단하면서도 대부분의 문장을 처리할 수 있을 만큼 표현력이 뛰어나다는 장점이 있다. 신문기사에서 454문장을 추출하여 실험한 결과, 약 97%의 문장에 대해 올바른 구문 분석 결과를 생성할 수 있음을 보였다.

  • PDF

확률파싱오토마타 모델 (A Model of Probabilistic Parsing Automata)

  • 이경옥
    • 정보과학회 논문지
    • /
    • 제44권3호
    • /
    • pp.239-245
    • /
    • 2017
  • 확률문법은 자연어처리에서 사용되며, 확률문법에 대한 구문분석의 결과인 파스는 문법의 확률을 그대로 보존해야 한다. 대표적인 구문분석방법인 LL 파싱과 LR 파싱의 확률파싱 가능성을 살펴볼 때 LL 파싱은 문법의 확률정보를 그대로 유지하는 반면에 LR 파싱은 그렇지 않다. 확률문법과 확률파싱오토마톤과의 관계에 관한 기존 연구로 확률보존조건을 충족하는 오토마톤의 특성에 관한 연구는 진행된 바 있다. 그렇지만, 현재로서는 확률보존조건을 충족하는 오토마톤 생성모델에 관해서는 알려진 바가 없다. 본 논문에서는 단일상태파싱오토마타에 기반한 확률파싱오토마타 모델을 제안한다. 제안 모델로부터 생성되는 오토마톤은 확률보존조건을 보장하기에 별도의 확률파싱 가능 여부를 테스팅하는 단계가 불필요하고, 별도의 확률 함수를 정의하지 않아도 된다. 또한 매개인자를 적절하게 선택하여 효율적인 오토마톤의 생성이 가능하다.

지식 임베딩 심층학습을 이용한 단어 의미 중의성 해소 (Word Sense Disambiguation Using Knowledge Embedding)

  • 오동석;양기수;김규경;황태선;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.272-275
    • /
    • 2019
  • 단어 중의성 해소 방법은 지식 정보를 활용하여 문제를 해결하는 지식 기반 방법과 각종 기계학습 모델을 이용하여 문제를 해결하는 지도학습 방법이 있다. 지도학습 방법은 높은 성능을 보이지만 대량의 정제된 학습 데이터가 필요하다. 반대로 지식 기반 방법은 대량의 정제된 학습데이터는 필요없지만 높은 성능을 기대할수 없다. 최근에는 이러한 문제를 보완하기 위해 지식내에 있는 정보와 정제된 학습데이터를 기계학습 모델에 학습하여 단어 중의성 해소 방법을 해결하고 있다. 가장 많이 활용하고 있는 지식 정보는 상위어(Hypernym)와 하위어(Hyponym), 동의어(Synonym)가 가지는 의미설명(Gloss)정보이다. 이 정보의 표상을 기존의 문장의 표상과 같이 활용하여 중의성 단어가 가지는 의미를 파악한다. 하지만 정확한 문장의 표상을 얻기 위해서는 단어의 표상을 잘 만들어줘야 하는데 기존의 방법론들은 모두 문장내의 문맥정보만을 파악하여 표현하였기 때문에 정확한 의미를 반영하는데 한계가 있었다. 본 논문에서는 의미정보와 문맥정보를 담은 단어의 표상정보를 만들기 위해 구문정보, 의미관계 그래프정보를 GCN(Graph Convolutional Network)를 활용하여 임베딩을 표현하였고, 기존의 모델에 반영하여 문맥정보만을 활용한 단어 표상보다 높은 성능을 보였다.

  • PDF