• 제목/요약/키워드: sentence problems

검색결과 113건 처리시간 0.025초

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축 (Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.125-132
    • /
    • 2022
  • 문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.

아동의 한국어 문장이해과정에 나타난 사건관련전위 연구 (A Study of Event-Related Brain Potentials in Children's Korean Sentence Comprehension)

  • 최인화;이순형
    • 대한가정학회지
    • /
    • 제49권2호
    • /
    • pp.37-49
    • /
    • 2011
  • The present study investigated the semantic and syntactic processes in Korean children's sentence comprehension by measuring event-related brain potentials(ERPs). The subjects were 18 right-handed, healthy native Korean children(1st graders), who were free from any hearing problems. While the children listened to the auditory sentence stimuli, ERPs were recorded with the electrodes mounted in a 'Quik-Cap' on the subject's head. The ERP data were recorded and analyzed using the NeuroScan 4.3 and EEGLABv6.03b programs. For statistical analyses, descriptive statistics, three-way repeated measures ANOVA, and t-tests were performed using a SPSS 15.0 PC program. The results indicated that semantic violations elicited a negativity (N400) ranging from 300 to 500 msec. For syntactic violations, children displayed a positivity (P600) ranging from 900 to 1,100 msec. The discovery of N400 and P600 in semantic and syntactic processes respectively, confirmed the suggestion that Indo-European and Korean languages share a common mechanism for sentence comprehension.

Focus, Contrastive Topic and Theories of Focus

  • Wee, Hae-Kyung
    • 한국언어정보학회지:언어와정보
    • /
    • 제5권1호
    • /
    • pp.87-105
    • /
    • 2001
  • This paper categorizes currently available theories of focus into two major types a 'discourse structure approach'(DSA) and a 'sentence structure approach'(SSA) The former DSA is intended to refer to a type of approach that analyzes focus only in terms of the discourse structure in which a focused sentence occurs. The alternative semantics approach which is the most widely available theory of focus belongs to this The latter SSA is meant to refer to a type of theory that analyzes focus in terms of sentence-internal structure, This study supports the SSA be revealing some empirical problems of the DSA that arise is analyzing two different kinds of focus, the A-accented focus and the B-accented focus (contrastive topic), and provides a brief sketch of a comprehensive analysis of focus and contrastive topic.

  • PDF

내포문의 단문 분할을 이용한 한국어 구문 분석 (Korean Syntactic Analysis by Using Clausal Segmentation of Embedded Clause)

  • 이현영;이용석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권1호
    • /
    • pp.50-58
    • /
    • 2008
  • 한국어 문장은 대부분 주절과 내포문을 가지는 복문으로 구성되어 있다. 따라서 복문에 나타나는 하나 이상의 용언으로 인해 구문 분석 과정에서 다양한 구문 애매성이 발생한다. 이들 중 대부분은 내포문의 수식 범위로부터 발생되는 구 부착의 문제 때문이다. 이런 구문 애매성은 내포문의 범위를 정해서 하나의 구문 범주의 기능을 가지도록 하면 해결할 수가 있다. 본 논문에서는 내포문의 범위를 정하기 위해서 문형과 한국어의 구문 특성을 이용한다. 먼저, 내포문에 있는 용언의 문형 정보가 가질 수 있는 필수격을 최대로 부착하여 내포문의 범위를 정하고 이를 이용해서 복문을 내포문과 주절로 분할한다. 그리고 한국어의 구문 특성을 이용해서 분할된 내포문의 기능을 하나의 구문 범주인 체언구나 부사구로 변환한다. 이렇게 함으로써 복합문의 구성 형태가 단문 구조로 변환되기 때문에 내포문의 범위에 의한 구 부착의 문제가 쉽게 해결된다. 이것을 본 논문에서는 내포문의 단문 분할이라고 한다. 본 논문에서 제안한 방법으로 1000 문장을 실험한 결과 문형과 단문 분할을 이용하지 않은 방법보다 구문 애매성이 88.32% 감소되었다.

순열 조합 이해 과제에서의 안구 운동 추적 연구 (Eye Movements in Understanding Combinatorial Problems)

  • 최인용;조한혁
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제26권4호
    • /
    • pp.635-662
    • /
    • 2016
  • 조합(combinatorics)은 확률적 사고의 기초가 되며 정보, 과학 등 타교과와 연계성이 높은 중요한 영역이지만, 학교 수학에서 학생들이 가장 어려워하는 단원 중 하나이다. 본 연구는 순열 조합 문제의 구조를 나타낼 수 있는 표현식을 도입하여, 문제를 표현식으로 변환하는 대학원생의 안구 운동을 분석함으로써 순열 조합 문장제의 이해 과정과 의미 구조에 따른 난이도 차이를 조사하였다. 연구 결과, 연구참여자들의 순열 조합 문장제 이해 전략은 문제에 대한 수학적 모델을 내적으로 직접 표상하는 전략과 보기에 주어진 표현식과 문제를 비교하여 답을 찾는 전략으로 분류할 수 있었다. 전문가 집단인 연구참여자들은 대상들의 구별성, 중복가능성, 의미 구조에 관한 단어나 수치 정보 등 문제의 핵심정보를 빠르게 파악하고 주의를 기울였다. 의미 구조의 변환이 필요한 문제를 풀 때 학생들은 문제의 핵심정보를 더 많이 보고, 보기의 표현식을 더 오래 응시하며, 문제와 보기 사이의 비교를 더 많이 하는 등 복잡한 인지 처리와 연관된 안구운동 지표가 나타났다. 안구 운동 데이터는 문제 이해 과정에서 연구참여자의 수학적 인지를 분석하는데 유의미한 정보를 제공하였다.

대학생의 영어 리듬과 억양구조 인식에 대한 연구 (A Study on the Perception of English Rhythm and Intonation Structure by Korea University Students)

  • 박주현
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1997년도 7월 학술대회지
    • /
    • pp.92-114
    • /
    • 1997
  • This study is aimed to grasp the actual problems of the perception of English rhythm and intonation structure by Korean University students who have studied English in the secondary schools for the past six years, and to establish the systems of English rhythm and intonation structure for the Korean students of English. For this study, the listening test is provided, and 100 students are chosen as the subjects of the study. The noticeable findings are summarized as follows: (1) Koreans perceive the words stress comparatively well in nonsense words, unfamiliar place names, and familiar word. (2) Koreans do not perceive the isochrony of English rhythm well enough. The perception of the sentence stress is very unstable, especially in the sentence involved in polysyllabic words, compound words, and 'emphatic stress' pr 'contrastive stress'(or in the different rhythmic patterns). (3) Koreans do not perceive the nucleus well enough. The perception of the nucleus is more stable in content words than in function words, at the end of a sentence than in the middle of a sentence, and in monosyllabic words than in the polysyllabic words. (4) Koreans do not perceive the boundary(or pause) of intonation group well enough. The perception of the pause is unstable in the long or complex sentence. (5) Koreans discriminate the meaning of English word stress comparatively well, especially in disyllabic words. But the discrimination is somewhat unstable in polysyllabic words and between 'adjective' and 'verb' (6) Koreans' discrimination of the intonation meaning is below the level. Koreans do not perceive the differences of intonation meaning according to the pitch accent or the focus. In conclusion, the writer will propose the procedures for the teaching of rhythm and intonation in the following order: word stress drill longrightarrowstressed and reduced syllables drilllongrightarrowrhythm group drilllongrightarrowthe varying rhythm drilllongrightarrowsentence stress drilllongrightarrownucleus drill longrightarrowintonation group drilllongrightarrowlong utterance drill of more than two intonation group.

  • PDF

서술어 온톨로지를 이용한 자연어 문장으로부터의 온톨로지 자동 생성 (Automatic Ontology Generation from Natural Language Sentences Using Predicate Ontology)

  • 민영근;이복주
    • 한국멀티미디어학회논문지
    • /
    • 제13권9호
    • /
    • pp.1263-1271
    • /
    • 2010
  • 시맨틱 웹 구현의 중요한 수단인 온톨로지는 검색, 추론, 지식표현 등 다양한 분야에서 사용되고 있다. 그러나 잘 구성된 온톨로지를 개발하는 것은 시간적, 물질적으로 많은 자원이 소모된다. 이러한 문제를 극복하기 위해 온톨로지를 자동으로 구축하는 시도가 있었다. 본 연구에서는 자연어 문장으로부터 직접 온톨로지를 자동적으로 생성하기 위해 형태소와 문장의 구조를 분석하고 자연어 문장의 서술어를 찾아 해당 온톨로지 서술어로 변환되게 하기 위하여 '서술어 온톨로지(predicate ontology)'를 두어서 분석된 자연어 문장의 서술어가 적절한 온톨로지 서술어로 변환될 수 있도록 한다. 인간 온톨로지 구축가와 제안한 방법을 비교한 실험 결과 정확도에서 나은 결과를 보였다.

숫자 기호화를 통한 신경기계번역 성능 향상 (Symbolizing Numbers to Improve Neural Machine Translation)

  • 강청웅;노영헌;김지수;최희열
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권6호
    • /
    • pp.1161-1167
    • /
    • 2018
  • 기계 학습의 발전은 인간만이 할 수 있었던 섬세한 작업들을 기계가 할 수 있도록 이끌었고, 이에 따라 많은 기업체들은 기계 학습 기반의 번역기를 출시하였다. 현재 상용화된 번역기들은 우수한 성능을 보이지만 숫자 번역에서 문제가 발생하는 것을 발견했다. 번역기들은번역할문장에 큰숫자가 있을경우종종숫자를잘못번역하며, 같은문장에서숫자만바꿔번역할 때문장의구조를 완전히바꾸어 번역하기도 한다. 이러한 문제점은오번역의 가능성을 높이기 때문에해결해야 될 사안으로여겨진다. 본 논문에서는 Bidirectional RNN (Recurrent Neural Network), LSTM (Long Short Term Memory networks), Attention mechanism을 적용한 Neural Machine Translation 모델을 사용하여 데이터 클렌징, 사전 크기 변경을 통한 모델 최적화를 진행 하였고, 최적화된 모델에 숫자 기호화 알고리즘을 적용하여 상기 문제점을 해결하는 번역 시스템을 구현하였다. 본논문은 데이터 클렌징 방법과 사전 크기 변경, 그리고 숫자 기호화 알고리즘에 대해 서술하였으며, BLEU score (Bilingual Evaluation Understudy score) 를 이용하여 각 모델의 성능을 비교하였다.

채팅 시스템 구현을 위한 3단계 문장 검색 방법 (A three-step sentence searching method for implementing a chatting system)

  • 전원표;송영길;김학수
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제37권2호
    • /
    • pp.205-212
    • /
    • 2013
  • 기존 채팅 시스템은 일반적으로 사용자 입력 문장과 데이터베이스 내 목표 문장들 사이의 어휘 일치도에 기반을 둔 방법을 사용한다. 그러나 이러한 방법은 어휘 불일치 문제를 자주 일으킨다. 이러한 문제를 해결하기 위해 순차적으로 적용되는 3단계 문장 검색 방법을 제안한다. 첫 번째 단계는 어휘 수준에서 사용자 입력 문장과 목표 문장들 사이의 공통 키워드 열을 비교하는 것이다. 두 번째 단계는 의미 수준에서 사용자 입력 문장과 데이터베이스 내 문장들 사이의 문장 유형과 의미 표지를 비교하는 것이다. 마지막 단계는 미리 정의된 어휘-구문 패턴을 사용자 입력 문장과 매칭하는 것이다. 실험에서 제안된 방법은 단순 키워드 매칭 방법 보다 더 나은 응답 정확도와 사용자 만족도를 보였다.

유명론적 번역에 대하여 (On Nominalist Paraphrase)

  • 주요한
    • 논리연구
    • /
    • 제14권1호
    • /
    • pp.77-102
    • /
    • 2011
  • 이 논문은 콰인의 존재론적 개입 기준이 유명론자에게 야기하는 문제에 관한 것이다. "존재한다는 것은 변항의 값이 된다는 것이다"는 것이 콰인의 분명한 존재론적 개입 기준이다. 이 기준에 의하면, 우리가 어떤 문장을 참이라고 여길 경우, 그 문장이 참이 되기 위해서 존재해야 하는 것들의 존재에 우리가 개입하게 된다. 그런데 이 기준은 유명론자에게 문제를 야기한다. "겸손은 미덕이다"라는 것을 참이라고 받아들이고 싶은 유명론자는, 겸손이라는 속성의 존재를 받아들여야 한다는 것이다. 그러나 유명론자는 "겸손은 미덕이다"라는 말이 의미하는 것은 받아들이고 싶지만, 겸손과 같은 속성의 존재를 받아들이고 싶어하지 않는다. 결국 유명론자는, 상식을 부정하든지, 속성의 존재를 받아들이든지 선택해야 하는 딜레마에 처해있는 것이다. 이러한 난국을 빠져나갈 수 있는 방법은, 속성에 대한 존재론적 개입을 피하면서도 원래 문장과 같은 뜻을 가지는 패러프레이즈를 제시하는 것이다. 그러나, 올바른 패러프레이즈를 제시하는 것은 항상 어려운 일이었다. 이와 같은 문장들에 대해서 패러프레이즈를 제시하려는 노력이 있었지만, 여러 어려움 때문에 모두 실패하고 말았다. 이 논문에서는, 기존의 문제점들을 모두 극복하는 성공적인 패러프레이즈가 제시될 것이다. 하지만 그전에 콰인의 기준에 관한 몇몇 주제들이 더 명확히 정리될 필요가 있다. 패러프레이즈가 아예 필요하지 않다는 루이스의 비판 역시 또한 다뤄질 것이다.

  • PDF