• Title/Summary/Keyword: 대용어

Search Result 149, Processing Time 0.024 seconds

Splitting Algorithms and Recovery Rules for Zero Anaphora Resolution in Korean Complex Sentences (한국어 복합문에서의 제로 대용어 처리를 위한 분해 알고리즘과 복원규칙)

  • Kim, Mi-Jin;Park, Mi-Sung;Koo, Sang-Ok;Kang, Bo-Yeong;Lee, Sang-Jo
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.10
    • /
    • pp.736-746
    • /
    • 2002
  • Zero anaphora occurs frequently in Korean complex sentences, and it makes the interpretation of sentences difficult. This paper proposes splitting algorithms and zero anaphora recovery rules for the purpose of handling zero anaphora, and also presents a resolution methodology. The paper covers quotations, conjunctive sentences and embedded sentences out of the complex sentences shown in the newspaper articles, with an exclusion of embedded sentences of auxiliary verb. We manage the quotations using the equivalent noun phrase deletion rule according to subject person constraint, the nominalized embedded sentences using the equivalent noun phrase deletion rule, the adnominal embedded sentences using the relative noun phrase deletion rule and the conjunctive sentences using the conjunction reduction rule in reverse. The classified table of the endings which relate to a formation of the complex sentences is used for splitting the complex sentences, and the syntactic rules, applied when being omitted, are used in reverse for recovering zero anaphora. The presented rule showed the result of 83.53% in perfect resolution and 11.52% in partial resolution.

대명사의 종류에 따른 참조해결과정

  • Lee, Jae-Ho;Lee, Man-Yeong
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.104-111
    • /
    • 1990
  • 대명사의 종류에 따른 대명사의 어휘적 특성이 대용어 참조해결에 미치는 효과를 살펴보기 위해서 두개의 실험을 수행하였다. 실험 1에서는 대명사 문장의 읽기시간과 선행어에 대한 어휘판단과제를 통해서 복수가 단수에 비해 읽기시간은 빠르지만, 어휘판단시간은 단수가 빠른 경향을 보였다. 그리고 단수는 애매성에 따라 반응시간의 차이를 보였다. 실험 2에서는 단수가 복수에 비해 어휘판단이 빠름을 반복하였다. 그리고 단수는 여전히 성별단서의 애매성에 대한 차이를 보였다. 이러한 결과는 대용어의 참조해결에 미치는 여러 요인 중에서 대명사의 어휘적 특성이 한 요인임을 증명하였다. 결론적으로 대명사의 종류에 따라 참조해결과정이 다르게 일어 날 가능성과 표상되는 글 모형도 달라질 수 있는 가능성을 제시하였다.

  • PDF

Optimizing ELECTRA-based model for Zero Anaphora Resolution (생략복원을 위한 ELECTRA 기반 모델 최적화 연구)

  • Park, Jinsol;Choi, Maengsik;Matteson, Andrew;Lee, Chunghee
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.329-334
    • /
    • 2021
  • 한국어에서는 문장 내의 주어나 목적어가 자주 생략된다. 자연어 처리에서 이러한 문장을 그대로 사용하는 것은 정보 부족으로 인한 문제 난이도 상승으로 귀결된다. 생략복원은 텍스트에서 생략된 부분을 이전 문구에서 찾아서 복원해 주는 기술이며, 본 논문은 생략된 주어를 복원하는 방법에 대한 연구이다. 본 논문에서는 기존에 생략복원에 사용되지 않았던 다양한 입력 형태를 시도한다. 또한, 출력 레이어로는 finetuning layer(Linear, Bi-LSTM, MultiHeadAttention)와 생략복원 태스크 형태(BIO tagging, span prediction)의 다양한 조합을 실험한다. 국립국어원 무형 대용어 복원 말뭉치를 기반으로 생략복원이 불필요한 네거티브 샘플을 추가하여 ELECTRA 기반의 딥러닝 생략복원 모델을 학습시키고, 생략복원에 최적화된 조합을 검토한다.

  • PDF

Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM (Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원)

  • Hwang, Min-Kook;Kim, Youngtae;Ra, Dongyul;Lim, Soojong;Kim, Hyunki
    • Journal of Intelligence and Information Systems
    • /
    • v.21 no.2
    • /
    • pp.131-150
    • /
    • 2015
  • Omission of noun phrases for obligatory cases is a common phenomenon in sentences of Korean and Japanese, which is not observed in English. When an argument of a predicate can be filled with a noun phrase co-referential with the title, the argument is more easily omitted in Encyclopedia texts. The omitted noun phrase is called a zero anaphor or zero pronoun. Encyclopedias like Wikipedia are major source for information extraction by intelligent application systems such as information retrieval and question answering systems. However, omission of noun phrases makes the quality of information extraction poor. This paper deals with the problem of developing a system that can restore omitted noun phrases in encyclopedia documents. The problem that our system deals with is almost similar to zero anaphora resolution which is one of the important problems in natural language processing. A noun phrase existing in the text that can be used for restoration is called an antecedent. An antecedent must be co-referential with the zero anaphor. While the candidates for the antecedent are only noun phrases in the same text in case of zero anaphora resolution, the title is also a candidate in our problem. In our system, the first stage is in charge of detecting the zero anaphor. In the second stage, antecedent search is carried out by considering the candidates. If antecedent search fails, an attempt made, in the third stage, to use the title as the antecedent. The main characteristic of our system is to make use of a structural SVM for finding the antecedent. The noun phrases in the text that appear before the position of zero anaphor comprise the search space. The main technique used in the methods proposed in previous research works is to perform binary classification for all the noun phrases in the search space. The noun phrase classified to be an antecedent with highest confidence is selected as the antecedent. However, we propose in this paper that antecedent search is viewed as the problem of assigning the antecedent indicator labels to a sequence of noun phrases. In other words, sequence labeling is employed in antecedent search in the text. We are the first to suggest this idea. To perform sequence labeling, we suggest to use a structural SVM which receives a sequence of noun phrases as input and returns the sequence of labels as output. An output label takes one of two values: one indicating that the corresponding noun phrase is the antecedent and the other indicating that it is not. The structural SVM we used is based on the modified Pegasos algorithm which exploits a subgradient descent methodology used for optimization problems. To train and test our system we selected a set of Wikipedia texts and constructed the annotated corpus in which gold-standard answers are provided such as zero anaphors and their possible antecedents. Training examples are prepared using the annotated corpus and used to train the SVMs and test the system. For zero anaphor detection, sentences are parsed by a syntactic analyzer and subject or object cases omitted are identified. Thus performance of our system is dependent on that of the syntactic analyzer, which is a limitation of our system. When an antecedent is not found in the text, our system tries to use the title to restore the zero anaphor. This is based on binary classification using the regular SVM. The experiment showed that our system's performance is F1 = 68.58%. This means that state-of-the-art system can be developed with our technique. It is expected that future work that enables the system to utilize semantic information can lead to a significant performance improvement.

A Study on Special Matching Term File (특정어 파일에 대한 연구)

  • 김경주
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.25-28
    • /
    • 1994
  • 자동색인 시스템의 색인이 선정 능력을 향상시키기 위한 특정어파일 구축을 제안한다. 특정어파일을 도입함으로써 색인어 선정시 좀더 포괄적인(또는 세부적인) 주제어선정을 돕고 또한 전조합색인의 문제점으로 야기되기 쉬운 검색누수현상을 막을 수 있다. 특정어파일은 시소러스 기반 자동시스템의 성능을 강화하거나 시소러스파일의 대용으로 이용할 수 있을 것이다.

  • PDF

Discourse Deixis and Anaphora in Slavic Languages (슬라브어 담화 직시와 대용)

  • Chung, Jung Won
    • Cross-Cultural Studies
    • /
    • v.45
    • /
    • pp.381-431
    • /
    • 2016
  • This paper deals with Slavic discourse deixis comparing Russian, Polish, Czech and Bulgarian demonstrative and personal pronouns. In general, the Slavic proximal pronouns have precedence over the distal ones. Proximal pronouns, such as Russian eto, Polish to, and Bulgarian tova, are employed more frequently and widely than their distal counterparts to, tamto and onova. The distance-neutral pronoun to in Modern Czech was also a proximal pronoun in the past. These Slavic proximal and former-proximal pronouns function as a discourse deixis marker, whereas, in most other languages, the discourse deixis is mainly a function of distal or non-proximal demonstrative pronouns. However, the Russian, Polish, Czech, and Bulgarian discourse deixis differs in distal demonstrative and personal pronouns. In general, the Polish and Czech discourse deixis does not employ the distal demonstrative pronoun tamto or the personal pronoun ono. The Russian distal demonstrative pronoun to is actively used as a discourse deixis marker, and the personal pronoun ono can also be used to refer to the preceding discourse, though it is not frequent. In Bulgarian the distal demonstrative pronoun onova is rarely used to refer to a discourse, but the personal pronoun to frequently indicates a discourse that is repeatedly referred to in a text. The discourse deixis, which is a peripheral deixis and can be both deixis and anaphora, reveals different characteristics in different Slavic languages. In Russian, where all of the proximal, distal, and personal pronouns function as a discourse deixis marker, the deixis itself plays a crucial role in distinguishing these three pronouns from each other, revealing the speaker's psychological, emotional, temporal, and cognitive proximity to or distance from a given discourse. In Bulgarian, the most analytic Slavic language, the personal pronoun is used more as a discourse deixis marker to reveal the highest givenness of a discourse, and it seems that Bulgarian discourse deixis is more anaphoric than the other Slavic discourse deixis is.

Efficient Summarization Using Zero Anaphora Resolution (한국어 영 대용어 처리를 통한 문서요약의 성능 향상)

  • 구상옥;전명희;김미진;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.555-557
    • /
    • 2003
  • 본 논문에서는 보다 간결한 요약문을 생성하기 위하여. 문장 전체를 추출하는 것이 아니라 문장의 일부분을 요약으로 추출한다. 그런데 한국어의 경우 문장 구조상 반복되는 문장성분을 생략하는 영 대용 문제가 빈번하게 발생하기 때문에, 문장의 일부분 추출시. 생략된 성분을 복원하지 않으면 요약문의 의미가 불완전하고 모호해 질 수 있다. 본 논문에서는 문서 안에서 중요한 부분을 추출한 뒤, 생략된 성분을 복원하여 요약문의 가독성을 놓이는 방법을 제안한다. Luhn의 방법을 이용하여 문서내의 중요 클러스터를 추출하였고, 기존의 문장분할 및 영 대용어 복원 알고리즘을 사용하여 생략된 성분을 복원하였다. 본 논문에서 제안된 요약 방법은 신문기사와 같이 문장의 수는 많지 않고, 문장의 길이가 비교적 긴 문서를 짧은 문장으로 요약하는 데 효율적이다.

  • PDF

Efficient Storing and SPARQL Search Scheme for Large Scale RDF Data (대용량 RDF 데이터의 효율적인 저장방법과 SPARQL 기반 검색방안 연구)

  • Oh, Sangyoon;Park, Ji-Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.195-197
    • /
    • 2016
  • 시멘틱웹을 구축하는 표준언어인 RDF (Resource Description Framework)는 언어의 그래프 기반 특성으로 인해 일반적인 방식들로는 효과적인 저장과 추출이 어렵다. 더욱이 대용량 RDF 데이터의 저장과 추출에는 성능문제가 더욱 커지므로 많은 연구들이 이루어지고 있다. 본 논문에서는 SPARQL을 지원하면서 RDF 파일들을 효과적으로 저장하고 검색할 수 있는 저장방식에 대해 연구한 결과를 제시한다. RDF 데이터를 전처리를 통해 RDF의 트리플(주어:subject, 술어:property, 목적어:Object)에서 중복되는 주어(S)나 목적어(O)를 묶고, 사용자가 SPARQL 형식으로 검색했을 때 이용자가 주어부분을 변수로 두었는지 아니면 서술어 부분을 변수로 두어 찾는지에 따라 검색어와 유사한 단어 클러스터를 찾아준다. 동일 단어에 대해 여러 번 검색되던 부분을 한 번 검색으로 처리할 수 있기 때문에 효율이 높아진다.

  • PDF

Centering for Korean Anaphora and Ellipsis Resolution (한국어 대용과 생략 해결을 위한 센터링 이론의 적용)

  • Cha, Keon-Hoe;Song, Do-Gyu;Park, Jay-Duke
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.347-352
    • /
    • 1997
  • 대용(anaphora)과 생략(.ellipsis)지을 포함한 지시 해결(reference resolution)은 자연어 처리에 있어서 꼭 해결하고 넘어가야 할 문제이며 지시어가 가리키는 피지시어를 올바르게 찾아내는가의 여부가 자연어처리 시스템의 성패를 가름하는 중요한 요소가 된다해도 과언이 아니다. 본 논문에서는 한국어 대용과 생략을 해결하기 위한 기제로서 센터링 이론이 적합한가를 검토하고 나아가 언어에 따라서 다르게 제안된 Cf 목록의 순서를 한국어의 언어특성에 맞게 결정하는 기법을 제안한다. 센터링 이론에서 각 개별언어 간의 차이가 가장 두드러지게 나타나는 부분은 Cf 목록을 구성하는 요소들의 순서이다. 여기에서는 한국어와 언어적인 특성이 유사한 일본어를 대상으로 제안된 순서를 한국어에도 그대로 적용될 수 있는지 검토하고 문제점을 지적함과 동시에 개선 방안을 아울러 살펴보고자 한다.

  • PDF

An algorithm for identification of zero pronouns in Korean (한국어 영형 대명사의 식별 알고리듬)

  • Yi, Chun-Suk;No, Yong-Kyoon
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.353-357
    • /
    • 1998
  • 이 논문은 대용어의 한 유형으로 인정되는 영형 대명사를 식별하기 위한 것이다. 이를 위해서는 한국어 통사 규칙들과 사전 항목들이 필요하다. 사전 항목들은 각각 자질과 값을 갖고, 통사 규칙 내부에는 이런 자질과 값들이 명세된다. 이 통사 규칙들을 토대로 하여, 발화체에 통사 구조들을 부여한다. 영형 대명사는 자질과 값을 명세한 통사 규칙을 씀으로써 식별이 가능하다. 영형 대명사는 주어와 보충어로 나뉘는데, 영형 주어는 동사가 머리인 S의 subj 자질 값이 cov(covert)일 때 식별된다. 영형 보충어는 다시 명사구와 동사구의 covc (covert complement) 자질 값이 0이 아닐 때 식별된다. 이러한 자질과 값으로 영형 대명사를 식별하는 하나의 알고리듬을 제안한다.

  • PDF