• Title/Summary/Keyword: 문장 구성

Search Result 641, Processing Time 0.039 seconds

KommonGen: A Dataset for Korean Generative Commonsense Reasoning Evaluation (KommonGen: 한국어 생성 모델의 상식 추론 평가 데이터셋)

  • Seo, Jaehyung;Park, Chanjun;Moon, Hyeonseok;Eo, Sugyeong;Kang, Myunghoon;Lee, Seounghoon;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.55-60
    • /
    • 2021
  • 최근 한국어에 대한 자연어 처리 연구는 딥러닝 기반의 자연어 이해 모델을 중심으로 각 모델의 성능에 대한 비교 분석과 평가가 활발하게 이루어지고 있다. 그러나 한국어 생성 모델에 대해서도 자연어 이해 영역의 하위 과제(e.g. 감정 분류, 문장 유사도 측정 등)에 대한 수행 능력만을 정량적으로 평가하여, 생성 모델의 한국어 문장 구성 능력이나 상식 추론 과정을 충분히 평가하지 못하고 있다. 또한 대부분의 생성 모델은 여전히 간단하고 일반적인 상식에 부합하는 자연스러운 문장을 생성하는 것에도 큰 어려움을 겪고 있기에 이를 해결하기 위한 개선 연구가 필요한 상황이다. 따라서 본 논문은 이러한 문제를 해결하기 위해 한국어 생성 모델이 일반 상식 추론 능력을 바탕으로 문장을 생성하도록 KommonGen 데이터셋을 제안한다. 그리고 KommonGen을 통해 한국어 생성 모델의 성능을 정량적으로 비교 분석할 수 있도록 평가 기준을 구성하고, 한국어 기반 자연어 생성 모델의 개선 방향을 제시하고자 한다.

  • PDF

An Analysis of the Word Problem in Elementary Mathematics Textbook from a Practical Contextual Perspective (초등 수학 교과서의 문장제에 대한 실제적 맥락 관점에서의 분석)

  • Kang, Yunji
    • Education of Primary School Mathematics
    • /
    • v.25 no.4
    • /
    • pp.297-312
    • /
    • 2022
  • Word problems can lead learners to more meaningfully learn mathematics by providing learners with various problem-solving experiences and guiding them to apply mathematical knowledge to the context. This study attempted to provide implications for the textbook writing and teaching and learning process by examining the word problem of elementary mathematics textbooks from the perspective of practical context. The word problem of elementary mathematics textbooks was examined, and elementary mathematics textbooks in the United States and Finland were referenced to find specific alternatives. As a result, when setting an unnatural context or subject to the word problem in elementary mathematics textbooks, artificial numbers were inserted or verbal expressions and illustrations were presented unclearly. In this case, it may be difficult for learners to recognize the context of the word problem as separate from real life or to solve the problem by understanding the content required by the word problem. In the future, it is necessary to organize various types of word problems in practical contexts, such as setting up situations in consideration of learners in textbooks, actively using illustrations and diagrams, and organizing verbal expressions and illustrations more clearly.

Multi Sentence Summarization Method using Similarity Clustering of Word Embedding (워드 임베딩의 유사도 클러스터링을 통한 다중 문장 요약 생성 기법)

  • Lee, Pil-Won;Song, Jin-su;Shin, Yong-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.290-292
    • /
    • 2021
  • 최근 인코더-디코더 구조의 자연어 처리모델이 활발하게 연구가 이루어지고 있다. 인코더-디코더기반의 언어모델은 특히 본문의 내용을 새로운 문장으로 요약하는 추상(Abstractive) 요약 분야에서 널리 사용된다. 그러나 기존의 언어모델은 단일 문서 및 문장을 전제로 설계되었기 때문에 기존의 언어모델에 다중 문장을 요약을 적용하기 어렵고 주제가 다양한 여러 문장을 요약하면 요약의 성능이 떨어지는 문제가 있다. 따라서 본 논문에서는 다중 문장으로 대표적이고 상품 리뷰를 워드 임베딩의 유사도를 기준으로 클러스터를 구성하여 관련성이 높은 문장 별로 인공 신경망 기반 언어모델을 통해 요약을 수행한다. 제안하는 모델의 성능을 평가하기 위해 전체 문장과 요약 문장의 유사도를 측정하여 요약문이 원문의 정보를 얼마나 포함하는지 실험한다. 실험 결과 기존의 RNN 기반의 요약 모델보다 뛰어난 성능의 요약을 수행했다.

A Discourse-Pragmatic Study of Preposing and Inversion in English. (전치문과 도치문의 담화화용론적인 비교)

  • 박원경
    • Korean Journal of English Language and Linguistics
    • /
    • v.3 no.1
    • /
    • pp.37-54
    • /
    • 2003
  • The purpose of this paper is to investigate the phenomena of preposing and inversion in English from the discourse-pragmatic perspectives. We claim that different types of preposing can be unified to a single process of topicalization. We also show that diverse discourse functions of inversion can be subsumed under the ‘linking’ function with the prior discourse. It is followed a comparative discussion between preposing and inversion to find what similarities the two constructions share and what differences there exist between the two. It is concluded that the choice of a syntactic forms ultimately depends on the speaker's evaluation of the information status of the knowledge store of the hearer.

  • PDF

한국에 문장분석의 생성 어휘론적 접근

  • 최병진
    • Language and Information
    • /
    • v.4 no.1
    • /
    • pp.92-100
    • /
    • 2000
  • 본 논문에서는 컴퓨터를 이용하여 문장을 분석하기 위해 통합기반법이 구현된 PATR라는 문법형식을 살펴보고, 국어문장분석을 지원해 주는 사전을 계승메니카니즘이 가능한 형태로 구축하여 사전의 효율적인 구성을 제시하고, 사전과 구문분석기사이의 인터페이스가 어떻게 가능할 수 있는 지를 보여주고자 한다.

  • PDF

한국어 문장분석의 생성 어휘론적 접근

  • Choe, Byeong-Jin
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2000.06a
    • /
    • pp.92-100
    • /
    • 2000
  • 본 논문에서는 컴퓨터를 이용하여 문장을 분석하기 위해 통합기반문법이 구현된 PATR라는 문법형식을 살펴보고, 국어문장분석을 지원해 주는 사전을 계승메카니즘이 가능한 형태로 구축하여 사전의 효율적인 구성을 제시하고, 사전과 구문분석기사이의 인터페이스가 어떻게 가능할 수 있는 지를 보여주고자 한다.

  • PDF

Restoring Functional Word and Noun-Verb Syntactic Relations for Korean Compound Noun Analysis (단위 명사간 보-술 관계를 이용한 한국어 복합 명사의 문장 복원)

  • Yang, Seong-Il;Kim, Young-Kil;Seo, Young-Ae;Park, Eun-Jin;Ra, Dong-Yul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.694-695
    • /
    • 2007
  • 한국어 문장의 구성은 명사, 동사와 같은 내용어와 조사, 어미와 같은 기능어로 크게 나눌 수있다. 문장의 핵심적인 의미 전달은 내용어에 의해 이루어지며, 한국어 명사구의 경우 잦은 기능어의 생략으로 명사 나열에 의한 복합 명사가 발생된다. 이렇게 발생되는 복합 명사를 구성하는 단위 명사들은 일부 문장 성분을 생략시켜 발생된 것으로, 생략 성분의 복원에 의해 본래의 문장 형태를 추정할 수 있다. 한국어 복합 명사의 경우, 생략되는 문장 성분은 대부분 접사, 조사와 같은 기능어로 국한되며, 기능어의 복원은 단위 명사 간의 격 관계와 의미 관계를 분석하여 이루어질 수 있다. 본 논문에서는 단위 명사간의 보-술 관계를 이용하여 복합 명사를 구성하는 단위 명사 간의 의존 관계를 추정하고, 추정된 의존 관계에 의해 생략된 격조사와 용언화 접사를 복원하는 방법을 제안한다. 구조 분석에서 사용되는 의미 격틀에 의해 결정되는 격 관계는 격조사와 용언화 접사의 복원을 결정하며, 올바른 본래의 문장 표현 복원을 위해 관형격 조사와 관형격 어미를 비롯한 특별한 형태의 복원은 통계 정보와 휴리스틱 규칙으로 결정한다.

Improvement of ISAAC (An Integrated User Interface for Sentence Analysis) (문장분석용 통합 사용자 인터페이스 ISAAC의 개선)

  • Kim, Gon;Kim, Min-Chan;Bae, Jae-Hak;Yoo, Hae-Young;Lee, Jong-Hyeok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.325-328
    • /
    • 2003
  • 문장분석은 문장의 의미를 파악하기 위한 작업이다. 문장분석에는 문장 구성성분에 종합적인 정보를 필요로 한다. 문장분석을 위해서는 다양한 언어학적 도구와 자원이 필요하다. 가용 도구와 자원은 대부분 독립적으로 개발 축적된 것들이다. 이러한 도구와 자원을 이용하여 문장분석 정보들을 단계적으로 관리하고 처리하기에는 어려움이 있다. 이를 위해 본 논문에서는 문장분석용 통합 사용자 인터페이스 ISAAC를 개선하여 구문분석의 성공률과 그 정보의 상호보완성을 높이고자 하였다.

  • PDF

A English Composition Level Assessment System Using Machine Learning Techniques (기계학습기법을 이용한 영어작문 문장 수준평가 시스템)

  • Eom, Jin-Hee;Kwak, Dong-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1290-1293
    • /
    • 2013
  • 본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.

Document Summarization Based on Sentence Clustering Using Graph Division (그래프 분할을 이용한 문장 클러스터링 기반 문서요약)

  • Lee Il-Joo;Kim Min-Koo
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2 s.105
    • /
    • pp.149-154
    • /
    • 2006
  • The main purpose of document summarization is to reduce the complexity of documents that are consisted of sub-themes. Also it is to create summarization which includes the sub-themes. This paper proposes a summarization system which could extract any salient sentences in accordance with sub-themes by using graph division. A document can be represented in graphs by using chosen representative terms through term relativity analysis based on co-occurrence information. This graph, then, is subdivided to represent sub-themes through connected information. The divided graphs are types of sentence clustering which shows a close relationship. When salient sentences are extracted from the divided graphs, summarization consisted of core elements of sentences from the sub-themes can be produced. As a result, the summarization quality will be improved.