• 제목/요약/키워드: clausal

검색결과 25건 처리시간 0.023초

Robust Syntactic Annotation of Corpora and Memory-Based Parsing

  • Hinrichs, Erhard W.
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.1-1
    • /
    • 2002
  • This talk provides an overview of current work in my research group on the syntactic annotation of the T bingen corpus of spoken German and of the German Reference Corpus (Deutsches Referenzkorpus: DEREKO) of written texts. Morpho-syntactic and syntactic annotation as well as annotation of function-argument structure for these corpora is performed automatically by a hybrid architecture that combines robust symbolic parsing with finite-state methods ("chunk parsing" in the sense Abney) with memory-based parsing (in the sense of Daelemans). The resulting robust annotations can be used by theoretical linguists, who lire interested in large-scale, empirical data, and by computational linguists, who are in need of training material for a wide range of language technology applications. To aid retrieval of annotated trees from the treebank, a query tool VIQTORYA with a graphical user interface and a logic-based query language has been developed. VIQTORYA allows users to query the treebanks for linguistic structures at the word level, at the level of individual phrases, and at the clausal level.

  • PDF

문형과 단문 분할을 이용한 한국어 구문 모호성 해결 (Resolution of Korean Syntactic Ambiguity using Sentence Pattems Information and Clausal Segmentation)

  • 이현영;황이규;이용석
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.116-123
    • /
    • 2000
  • 한국어 구문 분석은 체언구 부착이나 부사구 부착의 문제를 가진다. 이런 부착의 문제는 많은 구문 모호성을 만들어 내어 올바른 의미를 가지는 파스 트리의 선택을 어렵게 한다. 한국어에서 이런 부착의 문제는 대부분 한국어 문장이 내포문을 포함하는 복문의 형태로 구성되어 있기 때문이다. 단문에서는 부착의 문제가 발생하지 않지만 복문에서는 체언구나 부사구가 어떤 용언에 부착하느냐에 따라 체언구 부착이나 부사구 부착의 문제가 발생한다. 따라서 용언이 가지는 정보를 이용하여 내포문의 범위를 결정해서 하나의 구문범주의 기능을 가지도록 분할한다. 이를 단문 분할이라 하며 문형이 가지는 필수격들을 최대로 부착하여 이루어진다. 단문분할을 하면 복문의 구조가 단문으로 바뀌므로 이런 부착의 문제가 자연스럽게 해결된다. 본 논문에서는 문형과 단문 분할을 이용하여 많은 구문 모호성을 해결할 수 있음을 제안한다.

  • PDF

문형을 제약 조건으로 하는 단문 분할 기반 한국어 구문분석 (Syntax Analysis of Korean Based on Clausal Segmentation using Sentence Patterns Information as a Constraint)

  • 이현영;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.140-147
    • /
    • 2006
  • 한국어 문장은 하나 이상의 용언으로 인해 구문 분석 과정에서 다양한 구문 모호성이 발생한다. 이들 중 대부분은 내포문의 수식 범위로부터 발생되는 구 부착의 문제 때문이다. 이런 구운 모호성은 내포문의 범위를 정해서 하나의 구문 범주의 기능을 가지도록 하면 해결할 수가 있다. 본 논문에서는 내포문의 범위를 정하기 위해서 문형과 한국어의 구문 특성을 이용한다. 먼저, 내포문에 있는 용언의 문형 정보가 가질 수 있는 필수격을 최대로 부착하여 내포문의 범위를 정해서 단문으로 분할한다. 그리고 한국어의 구문 특성을 이용해서 분할된 내포문의 기능을 하나의 구문 범주인 체언구나 부사구로 변환한다. 이렇게 함으로써 복합문의 구성 형태가 단문 구조로 변환되기 때문에 내포문의 범위에 의한 구 부착의 문제가 쉽게 해결된다. 이것을 본 논문에서는 내포문의 단문 분할이라고 한다. 본 논문에서 제안한 방법으로 432 문장을 실험한 결과 문형과 단문 분할을 이용하지 않은 방범보다 구문모호성이 87.73% 감소되었다.

  • PDF

문형과 단문 분할을 이용한 한국어 구문 모호성 해결 (Resolution of Korean Syntactic Ambiguity using Sentence Patterns Information and Clausal Segmentation)

  • 이현영;황이규;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.116-123
    • /
    • 2000
  • 한국어 구문 분석은 체언구 부착이나 부사구 부착의 문제를 가진다. 이런 부착의 문제는 많은 구문 모호성을 만들어 내어 올바른 의미를 가지는 파스 트리의 선택을 어렵게 한다. 한국어에서 이런 부착의 문제는 대부분 한국어 문장이 내포문을 포함하는 복문의 형태로 구성되어 있기 때문이다. 단문에서는 부착의 문제가 발생하지 않지만 복문에서는 체언구나 부사구가 어떤 용언에 부착하느냐에 따라 체언구 부착이나 부사구 부착의 문제가 발생한다. 따라서 용언이 가지는 정보를 이용하여 내포문의 범위를 결정해서 하나의 구문범주의 기능을 가지도록 분할한다. 이를 단문 분할이라 하며 문형이 가지는 필수격들을 최대로 부착하여 이루어진다. 단문분할을 하면 복문의 구조가 단문으로 바뀌므로 이런 부착의 문제가 자연스럽게 해결된다. 본 논문에서는 문형과 단문 분할을 이용하여 많은 구문 모호성을 해결할 수 있음을 제안한다.

  • PDF

개체명 공기 정보를 이용한 이벤트 문장의 단문 구조 분석 (Clausal Segmentation for Event Sentences Using Named Entity Co-occurrence Information)

  • 임수종;김태현;황이규;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.593-596
    • /
    • 2002
  • 정보추출이란 자연어로 작성된 문서 집합에서 원하는 정보를 선택하여 구조화된 표현으로 생성하는 것을 말한다. 문장 단위로 정보 추출 작업을 수행할 때 추출되는 정보를 보유한 문장을 이벤트 문장이라고 정의하고 이러한 이벤트 문장의 구조를 분석하여 최종적으로 유용한 정보를 추출하기 위해서는 이벤트 문장의 구조를 파악하기 위해 이벤트 문장을 단문으로 분할하여 구조를 분석한다. 본 연구에서는 단문 구조 분석을 위해 일반적인 한국어 문장의 특성과 용언의 조사 정보를 이용하고 이러한 정보로 분석할 수 없는 문장에 대해서는 공기 정보를 사용한다. 사용되는 공기 정보는 개체명이 많이 사용되는 이벤트 문장의 특성을 이용하기 위하여 개체명으로 확장된 명사(개체명)-조사-용언의 공기 정보를 구축하여 사용한다. 개체명 확장된 공기 정보는 일반 공기 정보에 비해 이벤트 문장에서 F-Measure 기준으로 약 2%의 성능향상을 보인다.

  • PDF

Interface between Morphology and Syntax: A Constraint-Based and Lexicalist Approach

  • Kim, Jong-Bok
    • 한국언어정보학회지:언어와정보
    • /
    • 제2권1호
    • /
    • pp.177-213
    • /
    • 1998
  • conflicting criterial used in identifying words have called the lexical integrity principle into question. That is, cases where the morphological word does not coincide with the syntactic word have notivated the syntactic view of word derivation, as pointed out by Bresnan and Mchombo(1995). Further, the implicit desire to make the clausal structure of Korean parallel to those posited for English(Chomsky 1991) and French(Pollock 1989) has also led most of the current literature on Korean morphology to claim that Korean verbal inflections head their own functional projections such as AgrP, TP, and MP im syntax. In this paper, I will first argue against such a syntactic view. After reviewing some basic properties of Korean verbal inflections, I will show that the evidence from mismatch phenomena supports the lexical integrity principle over the head-movement theories of word derivation. Then, I will propose a theory of lexical grammar which maintains the lexical integrity principle while retaining the effects of functional projections and syntactic movement.

  • PDF

"선영문법(鮮英文法)"에 나타난 음성학 연구 방법에 대한 고찰 (The Study of Phonetic Research Methodology in Korean English Grammar)

  • 김형엽
    • 인문언어
    • /
    • 제7집
    • /
    • pp.291-309
    • /
    • 2005
  • It hasn't been long time since English language was introduced in Korea. At the end of the 18th century the importance of the way of using English properly started to be recognized as Chosun (former country in Korean peninsula) began to conclude a treaty with foreign countries. A lot of Koreans could learn the western culture by the acquired knowledge of English. One of the main factors opening the secluded nation to the world was the member of missionary from outside of Korea. As the number of missionaries increased those who already came to Korea found the necessity of wiring a sort of guidebook of Korean language for the newly dispatched missionaries. The book $\ulcorner$Korean English Grammar$\lrcorner$(written by Horace Grant Underwood in 1890), was the first one that linguistically compared the part of speech and the clausal structures of Korean and English. The revised one of the same book was written by the son, Horace Horton Underwood, in 1914. The revised one newly included the phonetic aspect of Korean language. In this paper the phonetic part of the book will be considered carefully in order to find how recent phonetic methodology has been applied to account for the Korean phonetic features.

  • PDF

의미 정보를 이용한 이단계 단문 분할 알고리즘 (Two-Level Clausal Segmentation Algorithm using Sense Information)

  • 박현재;이수선;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.237-241
    • /
    • 1999
  • 단문 분할은 한 문장에 중심어인 용언이 복수개인 경우 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 효율적인 결과를 얻을 수 있으나 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해 구문 정보의 단문 분할이 아닌 의미 정보를 활용하여 복잡한 문장을 효율적으로 단문으로 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 문장의 구조적 애매성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문 분할이 필요하다. 본 논문에서는 의미 영역에서 단문 분할의 할 경우 기존의 방법들의 애매성을 해소할 수 있다는 점을 보인다. 이를 위해, 먼저 하위범주화 사전과 시소러스의 의미 정보를 이용하여 용언과 보어 성분간의 의존구조를 1차적으로 작성하고 이후 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문 분할 알고리즘을 제안한다. 제안된 이단계 단문 분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 20,000문장을 반 자동적인 방법으로 술어와 보어 성분간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행한다.

  • PDF

영어 non-DP 주어의 구조적 위치 (On English Non-DP Subjects and their Structural Position)

  • 홍성심
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권2호
    • /
    • pp.1-14
    • /
    • 2002
  • This paper discusses so called the non-DP subject constructions in English. In general, a subject is a DP that bears Nominative case and that occupies 〔Spec, IP〕. However, in some examples under investigation, it looks as if non-DP categories such as Prepositional Phrases(PP), Adjectival Phrases(AP), Adverbial Phrases (AdvP), Small Clauses (PreP or SC), and VP occupy the canonical subject position, 〔Spec, IP〕. Under the framework of Chomsky's (1993, 1995) along with his previous works (Chomsky 1981, 1986), the Case Checking mechanism undoubtedly assumes that only DPs can have Case Therefore, the Case Checking/Agree mechanism is stated such that the strong uninterpretable feature, in this case Case feature (D or NP) feature must be checked off in a certain manner. Therefore, any phrasal categories other than DPs are not included in the considerations. Nonetheless, there are many instances of non-DP categories in English that occupy the seemingly canonical subject position, 〔spec, IP〕. In this paper, it is proposed that the actual position of these non-DP subjects in English is not in Spec of IP. Rather, they occupy 〔Spec, TopP〕 under CP in the sense of Lasnik & Stowell (1991), Rizzi (1997), and Haegeman & Gueron (1999). In its effect, therefore, this paper extends the idea of Stowell (1981) who argues that the clausal subjects in English is not in 〔Spec, IP〕, but in 〔Spec, TopP〕. We further argue that Stowell's version of Case Resistance Principle must be extended in order to accomodate many more occurrences of so called non-DP subjects.

  • PDF

Using Small Corpora of Critiques to Set Pedagogical Goals in First Year ESP Business English

  • Wang, Yu-Chi;Davis, Richard Hill
    • 아시아태평양코퍼스연구
    • /
    • 제2권2호
    • /
    • pp.17-29
    • /
    • 2021
  • The current study explores small corpora of critiques written by Chinese and non-Chinese university students and how strategies used by these writers compare with high-rated L1 students. Data collection includes three small corpora of student writing; 20 student critiques in 2017, 23 student critiques from 2018, and 23 critiques from the online Michigan MICUSP collection at the University of Michigan. The researchers employ Text Inspector and Lexical Complexity to identify university students' vocabulary knowledge and awareness of syntactic complexity. In addition, WMatrix4® is used to identify and support the comparison of lexical and semantic differences among the three corpora. The findings indicate that gaps between Chinese and non-Chinese writers in the same university classes exist in students' knowledge of grammatical features and interactional metadiscourse. In addition, critiques by Chinese writers are more likely to produce shorter clauses and sentences. In addition, the mean value of complex nominal and coordinate phrases is smaller for Chinese students than for non-Chinese and MICUSP writers. Finally, in terms of lexical bundles, Chinese student writers prefer clausal bundles instead of phrasal bundles, which, according to previous studies, are more often found in texts of skilled writers. The current study's findings suggest incorporating implicit and explicit instruction through the implementation of corpora in language classrooms to advance skills and strategies of all, but particularly of Chinese writers of English.