• Title/Summary/Keyword: 문장형태 정보

Search Result 270, Processing Time 0.029 seconds

An Automatic Evaluation Metric for Korean Paraphrase via Semantic Frame (시맨틱 프레임을 이용한 한국어 패러프레이즈 자동 평가 방법)

  • Park, Hancheol;Gweon, Gahgene;Choi, Ho-jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.761-764
    • /
    • 2014
  • 본 연구는 지능형 QA시스템과 관련한 연구에서, 자동 패러프레이즈 생성 시스템을 평가하는 새로운 방법을 제시한다. 기존의 패러프레이즈 생성 시스템의 자동 평가 방법은 참조할 수 있는 패러프레이즈 정보의 양이 크게 제한되어 있었으며, 원 문장의 콘텍스트(context)와 이에 의존하는 통사적 구조(syntactic structure) 및 의미적 구조의 유사성을 고려하지 않고, 단순 구/단어 수준의 의미 유사성을 기반으로 생성된 패러프레이즈를 평가하였다. 이러한 문제를 해결하기 위해 본 연구는 시맨틱 프레임(semantic frame)을 이용한 패러프레이즈 문장 평가 방법을 제시한다. 본 연구에서 제시하는 방법론은 문장의 콘텍스트를 표현하는 프레임과 이러한 프레임이 발생시키는 통사적, 의미적 구조의 유사성을 바탕으로 원 문장과 패러프레이즈 문장의 '의미 유사성', '어휘 형태 비 유사성'을 평가하는 방식이다.

A Consideration of the Shape Similarity between Hangeul Typeface Design and Latin Alphabet Typeface Design - focused on YoonDesign Fonts (한글디자인과 라틴 알파벳디자인의 형태유사성 고찰 1 - 윤디자인 폰트를 중심으로 -)

  • Park, Jae-Hong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.123-124
    • /
    • 2021
  • 본 논문은 기존 폰트 디자인을 고찰하여 한글과 라틴 알파벳 디자인의 형태 유사성을 향상시키기 위한 기초 자료를 제공한다. 고찰을 위해 윤디자인 대표 폰트 20종을 선정하였다. 형태적 관점에서 글자 디자인적 유사성을 찾기 위해 낱자, 낱글자, 낱말, 문장을 기준으로 고찰하였다. 윤디자인 대표 폰트 20종의 한글과 라틴 알파벳 글자 디자인의 결과는 다음과 같다. 첫째, 낱자(자소) 디자인은 동일한 형태이지만, 크기와 비례가 변화할 수 있다. 둘째, 낱글자(음절) 디자인은 낱글자 전체의 디자인을 위해 부분적으로 다른 형태를 디자인할 수 있다. 셋째, 낱말(단어) 디자인은 낱말의 우월효과를 고려하여야 한다. 넷째, 문장의 디자인은 글줄의 흐름을 고려하여 글자의 크기, 비례와 기준선을 디자인하여야 한다.

  • PDF

Syntactic informations in the Sejong Electronic Dictionary of Korean Nouns (세종명사전자사전의 통사정보)

  • Hong, Chai-Song;Ko, Kil-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.348-355
    • /
    • 2001
  • 세종전자사전은 한국어 어휘의 정보를 총체적으로 표상하는 전산어휘자료체이다. 세종전자사전은 궁극적으로 다양한 유형과 기능의 한국어 자동처리에의 활용을 목표로 한다. 세종체언전자사전은 최종적으로 5만여 항목을 대상으로 구축될 것이다. 세종명사전자사전은 전산적 효율성을 고려하여 명사 어휘의 정보를 8개의 하위정보구획과 50여개의 세부정보항목으로 구분하여 표상한다. 특히, 명사의 어휘 통사적인 결합에 관한 정보는 한국어 명사구와 문장의 자동생성에 직접 활용될 수 있는 정보이다. 명사는 수식어 요소 또는 조사와 결합하여 명사구를 형성하고, 동사 및 형용사와 결합하여 문장의 생성에 참여한다. 개별 명사들은 이 과정에서 다양한 제약적인 양상들을 보여주고 있으며, 세종명사전자사전은 이 정보들을 명시적으로 표상한다. 또한 명사는 기능동사와 결합하는 술어명사와 그렇지 않은 비술어명사로 구분이 된다. 술어 명사가 기능동사와 결합하여 문장을 형성할 때, 명사와 그 논항들은 다양한 통사적 기능을 담당한다. 또한 술어명사는 논항과 결합하여 명사구를 형성한다. 그러나, 술어명사의 명사구 형성과 기능동사의 결합은 불규칙적이고, 명사와 기능동사의 의미적 특성에 따라 다양한 제약이 발견된다. 이 정보들의 정밀한 표상은 개별 술어명사로부터 생성될 수 있는 가능한 명사구와 문장의 형태를 구체적으로 밝혀주게 된다. 세종명사전자사전의 어휘 통사적인 결합에 관한 정보들은 명사구 또는 문장의 자동생성의 정확성과 효율성을 높여줄 것이다.

  • PDF

Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning (Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석)

  • Kaibalina, Nazira;Park, Seong-Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.437-440
    • /
    • 2021
  • 지난 10년 동안 기계학습을 통해 자연어 처리 분야에서 많은 발전이 있었다. Machine translation, question answering과 같은 문제는 사용 가능한 데이터가 많은 언어에서 높은 정확도 성능 결과를 보여준다. 그러나 low-resource 언어에선 동일한 수준의 성능에 도달할 수 없다. 카자흐어는 형태학적 분석을 위해 구축된 대용량 데이터셋이 없으므로 low-resource 환경이다. 카자흐어는 단일 어근으로 수백 개의 단어 형태를 생성할 수 있는 교착어이다. 그래서 카자흐어 문장의 형태학적 분석은 카자흐어 문장의 의미를 이해하는 기본적인 단계이다. 기존에 존재하는 카자흐어 데이터셋은 구체적인 형태학적 분석의 부재로 모델이 충분한 학습이 이루어지지 못하기 때문에 본 논문에서 새로운 데이터셋을 제안한다. 본 논문은 low-resource 환경에서 높은 정확도를 달성할 수 있는 신경망 모델 기반의 카자흐어 형태학 분석기를 제안한다.

Preprocessing technique for natural language processing considering the form of characters used in malicious comments (악성 댓글에 사용된 문자의 형태를 고려한 한국어 자연어처리를 위한 전처리 기법)

  • Kim, Hae-Soo;Kim, Mi-hui
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.543-545
    • /
    • 2022
  • 최근 악플에 대한 논란이 끊이지 않고 있어 이것을 해결하기위한 방법으로 자연어 처리를 이용하고 있다. 특히 소셜 미디어, 온라인 커뮤니티에서 많이 발생하고 있고 해당 매체에서는 한글을 그대로 사용하지 않고 그들의 은어를 섞어서 사용하며 그중에서 한글이 아닌 문자를 섞어서 만들어낸 문장도 있다. 이러한 문장은 기존의 모델에 학습된 데이터의 형태와 다르며 한글이 아닌 문장이 많을수록 모델의 예측이 부정확해진다는 단점이 있어 본 논문에서는 인공지능을 이용한 이미지 분류와 띄어쓰기, 오타 교정을 이용한 전처리 기법을 제안한다.

Document Summarization Based on Sentence Clustering Using Graph Division (그래프 분할을 이용한 문장 클러스터링 기반 문서요약)

  • Lee Il-Joo;Kim Min-Koo
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2 s.105
    • /
    • pp.149-154
    • /
    • 2006
  • The main purpose of document summarization is to reduce the complexity of documents that are consisted of sub-themes. Also it is to create summarization which includes the sub-themes. This paper proposes a summarization system which could extract any salient sentences in accordance with sub-themes by using graph division. A document can be represented in graphs by using chosen representative terms through term relativity analysis based on co-occurrence information. This graph, then, is subdivided to represent sub-themes through connected information. The divided graphs are types of sentence clustering which shows a close relationship. When salient sentences are extracted from the divided graphs, summarization consisted of core elements of sentences from the sub-themes can be produced. As a result, the summarization quality will be improved.

Automatic Quiz Generation System for Hangul Dictation Exercises (한글 받아쓰기 문제 자동 출제 시스템)

  • Kim Hwa-Young;Kang Seung-Shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.833-836
    • /
    • 2006
  • 국어 교과는 말하기 듣기, 읽기, 쓰기 영역으로 구성되어 있으며, 높은 수준의 창의적 사고력을 길러준다. 국어 교과에서 받아쓰기는 우리나라 초등학교 교육 현장에서 가장 기본적으로 활용되고 있으며 현행 국어과의 교육과정에서 중요하게 다루어지고 있다. 그러나 매 회의 받아쓰기 문제지의 문항을 타당성과 신뢰도를 고려하여 조정하여 지도하기는 어려움이 있다. 본 논문에서는 이러한 단점을 보완하기 위해 초등학교 교육 현장에서 사용되는 여러 가지 형태의 받아쓰기와 교과서를 분석하여 문장의 받아쓰기 등급을 정하였다. 문장의 받아쓰기 등급을 가지고 입력한 난이도에 따라 정해진 문장 받아 쓰기 등급이 같으면 받아쓰기 문제로 선택이 되고 문장 받아쓰기 등급과 다르면 다른 문장을 탐색하게 하였다. 최종적으로 선택된 문제는 여러 등급의 문제로 구성함으로써 문제의 타당성과 신뢰도를 높이고, 창의적인 국어사용 능력을 향상시키도록 하였다.

  • PDF

Mobile Control System using Semantic Analysis of User's Intent (화자 의도 분석을 통한 모바일 기기 제어 시스템)

  • Park, Hee-Guen;Jang, Jung-Hoon;Ahn, Young-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.282-284
    • /
    • 2012
  • 음성 인식 기술의 발전과 더불어 다양한 분야에서 음성 인식 시스템이 활용되고 있다. 본 논문에서는 사용자 음성으로부터 입력된 문장의 의도를 파악하여 모바일 기기를 제어할 수 있는 시스템에 대해서 기술한다. 사용자의 의도를 파악하기 위해, 동일한 의미를 가진 문장 형태들을 LSP(Lexico Semantic/Syntactic Pattern)로 구성하였고, 이를 이용하여 입력된 문장의 의도를 파악할 수 있는 문장-의미 분석 시스템을 구현하였다. 사용자의 음성 인식은 구글 안드로이드 음성 인식 모듈을 이용하였으며, 음성 인식 모듈과 문장-의미 분석 시스템을 통해 얻어진 화자의 의도는 모바일 기기의 동작과 연결된다. 본 논문은 자연적인 음성 명령을 통해 자연스러운 모바일 제어가 가능하다는 것을 보여준다.

Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System (정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장)

  • Yoon Sung-Hee
    • Proceedings of the KAIS Fall Conference
    • /
    • 2004.06a
    • /
    • pp.139-142
    • /
    • 2004
  • 자연어 질의 문장을 입력하는 방법은 정보 검색 시스템 사용자에게 아주 이상적인 인터페이스이다. 검색을 위해 색인어를 입력하거나 불리언 질의식을 사용하는 것에 비해 훨씬 친밀하지만, 동일한 의도의 검색 요구에 대해서도 개인의 성향에 따라서 다양한 형태나 구조의 자연어 질의문장으로 입력될 수 있는 본질적인 특성이 있다. 본 논문은 자연어 질의문장을 입력으로 하는 검색 시스템을 위해 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중 검색 기법을 제안한다. 질의 문장에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고 이형 표기 용어와 축약 표기 용어들을 확장하여 다중 검색함으로써 재현율과 정확도를 높일 수 있다.

  • PDF

Information Extraction Using Context and Position (문맥과 위치정보를 사용한 정보추출)

  • Min Kyungkoo;Sun Choong-Nyoung;Seo Jungyun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.490-492
    • /
    • 2005
  • 인터넷의 발달로 전자문서가 증가함에 따라 정보추출기술의 중요성도 함께 증가하게 되었다. 정보추출 (IE)은 다양한 형태의 문서로부터 필요한 내용만을 추출하여 정형화된 형태로 저장하는 문서 처리기술이다. SIES (Sogang Information Extraction System)는 기계학습 방법과 고정밀의 수동작성 된 규칙기반의 방법론을 함께 사용하는 정보 추출시스템으로 문법에 맞지 않는 문장 등의 입력에 대해 견고한 문장분석을 위해 Lexico-Semantic Pattern (LSP)과 개체명사전(Named Entity Dictionary)를 사용하였으며, SIES의 기계학습의 성능향상을 위친 기존에 널리 사용되는 문맥점보 외에 후보단어들의 위치정보를 고려한 특성자질과 스코어링 방법을 사용하였다.

  • PDF