• 제목/요약/키워드: 품사 체계

검색결과 19건 처리시간 0.02초

한국어 처리를 위한 품사 체계 연구 (A Study on a Part of Speech for Korean Natural Language Processing)

  • 안미정;김재한;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.581-592
    • /
    • 1993
  • 지금까지의 한국어 자연언어 처리에 기반이 되는 사전 품사 체계에 대한 연구는 형태소 분석, 구문 구조 분석, 그리고 의미 분석 등의 다양한 분야에서 이루어져 왔다. 한국어 자연언어 처리 각 분야는 자체의 고유한 독립성을 가지는데, 이러한 특성은 사전 품사 체계의 다양화를 초래하였으며, 연계성있는 자연언어 처리를 위한 통합 환경 조성을 저해시켜 왔다. 본 논문에서는 한국어 자연언어 처리 전반에 걸친 통합 환경 조성을 위한 범용적인 사전 품사체계의 필요성에 따라 한국어 자연언어 분석의 각 분야에 적합한 사전 품사체계에 대하여 살펴 본 후, 한국어 자연 언어 처리 전반에 사용될 범용적이고 통합적인 기본 사전 품사체계 구축을 위한 방안을 제시한다.

  • PDF

한국어 품사 분류에 대한 제안 (Study on the parts-of-speech in Korean)

  • 서민정
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.76-81
    • /
    • 2002
  • 인터넷의 발달 등으로 많은 정보들이 문서화되기도 하고 그런 정보들이 공유되고 있는 지금, 언어학이나 전산학의 요구를 함께 충족시킬 수 있는 문법 모델 개발의 필요성이 극대화되고 있다. 이 글은 한국어 품사 분류에 대해서 국어학과 전산학에서의 처리 방법과 결과를 검토하고 정리하여 우리말의 특성을 잘 설명하면서도 국어를 전산 처리하는데도 도움을 줄 수 있는 품사분류를 제안하는데 그 목적이 있다. 한국어의 특성을 고려하여 음운, 형태, 통 어, 의미 정보를 함께 처리할 수 있는 어휘부 중심의 문법인 HPSG의 모형을 도입하여 한국어 품사 분류를 정보 전달에 기반을 두어 자질 체계와 통합 연산을 핵심으로 기술하려고 한다. 문법기술은 주로 자질 구조를 속성과 값의 행렬인 AVM(attribute-value matrices)으로 제시할 것이다.

  • PDF

어휘 정보의 자동 추출과 이를 이용한 한국어 품사 태깅 (Korean Part-of-Speech Tagging using Automatically Acquired Lexical Information)

  • 강인호;김도완;이신목;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.117-122
    • /
    • 1999
  • 본 연구는 형태소 분석에 필요한 언어 지식과 품사 태깅에 필요한 확률 정보를 별도의 언어 지식 추가 없이 학습 말뭉치를 통해서 얻어내는 방법을 제안한다. 먼저 품사 부착된 학습 말뭉치로부터 형태소 사전과 결합 정보를 추출한다. 그리고 자주 발생하는 어절 및 해석상 모호성이 많은 어절에 대해서는 학습 말뭉치에서 발견된 형태소 분석 결과를 저장하여 형태소 분석에 소요되는 시간과 형태소 분석의 정확률을 높인다. 또한 미등록어의 많은 부분을 차지하는 인명, 지명, 조직명에 대해서는 정보 추출 분야에서 사용하는 고유 명사 분류법으로 해결한다. 품사 태깅을 위해서는 품사열 정보와 품사열 정보로는 해결할 수 없는 경우를 위한 어휘 정보를 학습 말뭉치에서 추출한다. 품사열 정보와 어휘 정보는 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용되어 품사 태깅 시스템을 위한 확률 분포를 구성한다. 본 연구에서 제안하는 방법은 학습 말뭉치를 기반으로 한다는 특성에 의해 다양한 영역에 사용하기 쉽다. 또한 어휘 정보로 품사 문맥 정보를 보완하기 때문에 품사 분류 체계와 형태소 해석 규칙에 영향을 적게 받는다는 장점을 가진다. MATEC '99 데이터 실험 결과 형태소 단위로 94%의 재현률과 93%의 정확률을 얻을 수 있었다.

  • PDF

한국어의 형태론적 모호성 유형 및 해결 방안 (Classification and Disambiguation of Morphological Ambiguity of the Korean Language)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.83-87
    • /
    • 1997
  • 한국어는 실질형태소와 형식형태소가 결합되는 교착어라는 특성 때문에 품사 모호성을 비롯한 여러 가지 유형의 형태론적 모호성이 발생한다. 형태론적 모호성 해결의 관점에서 형태론적 모호성을 한국어의 특성에 따라 어근 유형 모호성, 형태소 분리 모호성, 형태소 길이 모호성, 불규칙 용언의 원형 복원 모호성, '아/에/이' 탈락 모호성 등으로 분류한다. 이 때 임의의 두 분석 결과에서 발생하는 모호성이 특정 유형에만 속하도록 모호성 유형들을 서로 독립적으로 정의한다. 또한 품사 모호성을 계층적 품사 분류 체계에 따라 $1{\sim}3$차적 품사 모호성으로 구분하고 국어사전에서 발견되는 품사 모호성을 분석한다. 이를 기반으로 형태론적 모호성의 유형을 단어 내에서 해결 가능한 것과 그렇지 않은 것으로 구분하여, 단어 내에서 해결 가능한 모호성을 해결하는 방법을 제안한다.

  • PDF

형태 분석에서의 품사 중의성 문제 (The Part-of-Speech Ambiguity Problems in Morphological Analysis)

  • 이영제;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.264-269
    • /
    • 2004
  • 이 연구는 한국어의 형태 분석(Morphological Analysis) 과정에서 도출되는 품사 중의성 문제를 해결할 수 있는 방안을 제시해 보고자 하는데 목적이 있다. 강승식(2002)에서는 품사 중의성 문제를 품사 체계의 대 중 소분류에 따라 크게 세 가지로 나누고, 이를 1 2 3차 품사 중의성으로 구분하였다. 본고에서는 이에 해당하는 예를 각각 명사-부사 통용어, 보조용언 구성, 고유명사 등을 중심으로 살펴보고, 이들의 중의성 문제 해결에 필요한 방법들을 형태적, 통사적 조건들을 중심으로 설정하고자 한다. 결과적으로 통용어 문제 해결을 위해서는 통 용어를 표시할 수 있는 중간표지를 부여하는 방법을 주장할 것이다. 그리고 본용언과 중의성을 보이는 보조용언구성에서는 본용언간의 결합 관계도 함께 고려한 규칙을 제안하는 바이며, 고유명사의 중의성 문제는 고유명사의 범위를 '특정한 개체성'을 지니는 것으로 제한함으로서 실제 형태 분석에서의 모호성을 해결할 수 있는 방법을 주장할 것이다.

  • PDF

개화기 일본인 간행 한국어 문법서에 대한 일고찰: 『한어통(韓語通)』의 품사 설정과 문법 항목 기술을 중심으로 (A Study on Korean Textbooks by Japanese in the Korean Enlightenment Period)

  • 윤영민
    • 비교문화연구
    • /
    • 제42권
    • /
    • pp.371-392
    • /
    • 2016
  • 본 연구는 "한어통(韓語通)"을 대상으로 한국어의 품사 설정 양상과 체계 및 문법 항목의 기술상에 나타난 특징을 살펴본 것이다. 본서는 1904년 "교정교린수지(校訂交隣須知)"를 간행한 마에마 교사쿠(前間恭作, 이하 마에마)가 1909년에 펴낸 한국어 문법서로 한국어 품사를 총 11개로 나누었다. 이와 같이 '서법(mood)'과 '태(voice)'의 개념과 설명을 부가하여 '오쓰키문법(大槻文法)'의 영향이 적지 않게 반영되었다고 평가받는 대표적인 문법서라고 할 수 있는 가운데 '존재사(存在詞)'의 개념을 언급함으로써 '야마다문법(山田文法)'의 관점을 차용한 양상도 보인다. 그러나 마에마는 1880년의 호세코 시게카쓰(寶迫繁勝) 및 마에마와 같은 해인 1905년의 다카히시 도오루(高橋亨), 야쿠시지 지로(藥師寺知?) 등과는 달리 한국어와 일본어가 다르다는 전제하에 한국어의 문법 현상을 규명하려는 입장을 견지하고 있다. 이번 연구는 근현대 한일문법학사에 나타난 양국어의 교섭을 구명하기 위한 하나의 시도로 본서의 품사 구분 경향과 문법 항목의 기술상에 보이는 내용적 분석을 병행하여보고자 한다. 이를 통해 개화기말, 20세기 초라고 하는 시기에 한국어 문법의 체계화가 일본인의 관점에서 어떻게 이루어지고 있는지 그 일면을 파악하는데 일조하고자 한다.

언어정보 DB 구축을 위한 문법적 주석 상의 몇 문제 - 기존 국어사전의 어휘 정보 수용과 관련된 문제를 중심으로 (Problems in Syntactic Annotation for Building a LDB in Korean)

  • 신선경;한영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.73-81
    • /
    • 1992
  • 한 언어에 대한 포괄적인 언어정보 데이타베이스의 구축에 있어서는 수집된 텍스트에 대한 상세한 문법정보의 주석이 일차적 작업 대상이 된다. 이는 통사적 정보가 단순히 구문 분석상의 문제들을 해결하기 위한 정보를 제공해주는 것일 뿐 아니라 형태소 해석 및 문장 의미의 파악등 자연언어 이해시스템 전반의 성능을 향상시키는 데에 중요한 물을 차지하기 때문이다. 각개 단어의 문법적 기능에 대한 주석은 사전적 정의에 따른다면 "품사"로 표현할 수 있을 것이다. 그런데 품사는 각개 단어가 지니는 고유한 어휘의미적 정보이기보다는 구문구조에 의존적인 양상을 보인다. 이는 사전에 따라서 각개 단어에 대한 품사 정보가 달리 나타나는 점에서도 간취할 수 있는데, 한편으로 한국어 언어정보 데이타베이스 구축을 위한 문법적 주석에 있어서는 기존 사전의 품사정보에만 의존할 수는 없다는 문제점이 제기된다. 따라서 각 어휘들의 구문정보(흑은 품사정보)를 어떻게 기술할 것인가가 해결되어야 하는 것이다. 본 연구에서는 일차적으로 각 어휘들의 문장 안에서의 기능을 바탕으로 한 주석체계를 설정하고 그에 따라서 약 12만개의 문장에 대한 일차적 형식화를 수작업으로 처리하였다. 이는 향후 자동적으로 문법적 주석이 가능하도록 해주는 시스템의 개발을 지원하기 위한 언어정보의 수집에 목적을 둔 것인데, 이를 통해서 기존 국어사전에서의 언어정보상의 미비점을 수정 보완할 몇 가지 근거를 마련할 수 있었다.

  • PDF

사용자에 의한 문형 확장 방식을 이용한 다국어 채팅 시스템의 설계 및 구현 (The Design and Implementation of Multilingual Chatting System Using Exapansion of Sentence Patterns By User)

  • 박홍원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-220
    • /
    • 1999
  • 본 연구에서는 정해진 주제내에서 높은 번역율과 빠른 처리 시간을 동시에 수용할 수 있는 효과적인 다국어 채팅 시스템을 구현하기 위해 사용자가 어절 단위로 단어를 입력하거나 선택하여 이미 구축되어 있는 문형에 접근하도록 유도하는 사용자 문형확장 방식을 제안하였다. 사용자 문형확장 방식을 사용하여 다국어 채팅 시스템을 구현할 경우 사용자 입력과 동시에 구문분석, 변환, 생성등 일련의 번역과정을 최소한의 처리시간으로 처리할 수 있으므로 매우 용이하게 실시간 번역 시스템을 구현할 수 있다는 장점이 있다. 사용자 문형확장 방식과 더불어 이와 함께 사용될 수 있는 통합 문형코드와 통합 품사체계도 제안하였다. 이는 번역의 대상이 되는 한국어, 영어, 일본어 각각에 대해 문형코드와 품사코드를 따로 설정하지 않고 통일된 하나의 코드체계를 적용함으로써 기계번역에서의 변환과정을 최소화하기 위해 고안하였다.

  • PDF

한자(漢字)의 언어적 특성과 『논어(論語)』 읽기 (The linguistic characteristics of Chinese character and Reading for the Analects of Confucius)

  • 김상래
    • 한국철학논집
    • /
    • 제30호
    • /
    • pp.191-225
    • /
    • 2010
  • 이 논문은 한자(漢字)의 다의성(多義性)과 품사(品詞)의 비결정성(非決定性)에 초점을 맞추어 "논어(論語)" 해독을 시도하였다. 먼저, 이 글은 한자가 인간과 세계에 대한 문제를 표현하는 사유의 언어(다른 말로 철학언어)로서 제 기능을 할 수 있는가? 는 물음에 대한 본격적인 논의를 전개하였다. 16세기 마테오 리치는 보편적인 '표의문자체(ideographic script)'의 가능성을 한자에서 발견하려고 노력함으로써 이 물음에 긍정적인 답변을 제시하였다. 반면, 헤겔과 하이데거 등은 한자는 첫째, 전치사와 관사가 없는 언어체계이며, 둘째, 이중의미, 반대의미를 표시하는 단어가 없으며, 셋째, 어형변화 없이 어순에 의해서만 의미를 표현, 전달하기 때문에 복잡한 인간의 사유와 엄밀한 논리를 표현하는 철학 언어로서 부적합하다고 주장한다. 그러나 카시러와 울만, 소쉬르, 그리고 데리다 등의 언어관을 경유하면서, 우리는 헤겔과는 다른 입장에서 한자의 사유언어로서의 기능을 발견할 가능성을 확인한다. 서양의 언어체계와 달리 한자는 언제나 개별적으로 존재하는 단어들의 의미 보다 문맥에서의 언어 기능이 보다 중요하다. 한자는 고유의 품사를 감추고, 다른 문자들과의 관계망 속에서 어떤 사건과 사물의 의미를 표현하면서 자신의 본색을 드러낸다. 한자는 이른바 '불가결정성(indecidability)'의 언어인 것이다. 이러한 한자의 다의성과 품사의 부재는 바로 '불가결정성'에 기인한다. 이렇게 본다면, 비록 전치사, 관사, 어형변화, 품사 등을 결여하는 있는 문자체계일지라도 '다의(多義)'의 특성을 지닌 한자는 인간의 복잡한 사유를 나름의 방식으로 표현하는 철학언어로서 충분한 기능을 할 수 있는 것이다. 이를 토대로 "논어(論語)"읽기의 다양성을 담보할 수 있을 것이다.

심리학적 언어분석 프로그램 개발을 위한 융합연구: 기존 프로그램의 비교와 관련 문헌의 동향 분석 (A Convergence Study for Development of Psychological Language Analysis Program: Comparison of Existing Programs and Trend Analysis of Related Literature)

  • 김영준;최원일;김태훈
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.1-18
    • /
    • 2021
  • 내용어 기반 빈도 분석은 의도적 기만이나 반어적 표현에 분명한 한계가 있지만, 많이 사용되는 한국어 분석 프로그램인 KLIWC는 기능어 분석을, KrKwic는 동시출현빈도를 시각화하는 방법으로 발전했다. 하지만 개발된 지 십수 년이 지나 여러 문제점으로 개선이 필요한 상황이다. 그래서 KLIWC와 KrKwic를 분석하여 새 심리학적 언어분석 프로그램을 개발하고자 하였다. 첫째로 두 프로그램의 특징을 분석하였다. 특히, 기능어 분석기능 제고를 위해서 KLIWC와 한국어 형태소 분석기의 형태소 분류를 비교하였고, 심리적 분석의 강화를 위해 심리사전의 구조와 체계를 분석하였다. 분석 결과 한나눔 품사 분석기가 가장 세분화되었지만, 인칭대명사에서는 KLIWC가, 어미와 어말어미에서는 KKMA의 품사 분류가 더 세분화되어 있어, 기능어 분석 강화를 위해 여러 품사 분석기의 통합적 사용을 제안하였다. 둘째로 이 프로그램들로 텍스트를 분석한 연구들의 연구동향을 분석하였다. 분석 결과 두 프로그램이 복합학 분야 등 다양한 학술분야에서 사용되고 있었다. 특히 논문과 보고서의 분석에는 KrKwic가 많이 사용되었고, 글쓴이의 생각, 정서, 성격 비교 연구에는 KLIWC가 많이 사용되었다. 이 결과를 바탕으로 새로운 심리학적 언어분석 프로그램의 필요성과 개발 방향에 대해 제언하였다.