• 제목/요약/키워드: 구묶음

검색결과 35건 처리시간 0.033초

규칙과 어휘정보를 이용한 한국어 문장의 구묶음(Chunking) (Text Chunking by Rule and Lexical Information)

  • 김미영;강신재;이종혁
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.103-109
    • /
    • 2000
  • 본 논문은 효율적인 한국어 구문분석을 위해 먼저 구묶음 분석(Chunking) 과정을 적용할 것을 제안한다. 한국어는 어순이 자유롭지만 명사구와 동사구에서는 규칙적인 어순을 발견할 수 있으므로, 규칙을 이용한 구묶음(Chunking) 과정의 적용이 가능하다. 하지만, 규칙만으로는 명사구와 동사구의 묶음에 한계가 있으므로 실험 말뭉치에서 어휘 정보를 찾아내어 구묶음 과정(Chunking)에 적용한다. 기존의 구문분석 방법은 구구조문법과 의존문법에 기반한 것이 대부분인데, 이러한 구문분석은 다양한 결과들이 분석되는 동안 많은 시간이 소요되며 이 중 잘못된 분석 결과를 가려서 삭제하기(pruning)도 어렵다. 따라서 본 논문에서 제시한 구묶음(Chunking) 과정을 적용함으로써, 잘못된 구문분석 결과를 미연에 방지하고 의존문법을 적용한 구문분석에 있어서 의존관계의 설정 범위(scope)도 제한할 수 있다.

  • PDF

규칙과 어휘정보를 이용한 한국어 문장의 구묶음(Chunking) (Text Chunking by Rule and Lexical Information)

  • 김미영;강신재;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-109
    • /
    • 2000
  • 본 논문은 효율적인 한국어 구문분석을 위해 먼저 구묶음 분석(Chunking) 과정을 적용할 것을 제안한다. 한국어는 어순이 자유롭지만 명사구와 동사구에서는 규칙적인 어순을 발견할 수 있으므로, 규칙을 이용한 구묶음(Chunking) 과정의 적용이 가능하다 하지만, 규칙만으로는 명사구와 동사구의 묶음에 한계가 있으므로 실험 말뭉치에서 어휘 정보를 찾아내어 구묶음 과정(Chunking)에 적용한다. 기존의 구문분석 방법은 구구조문법과 의존문법에 기반한 것이 대부분인데, 이러한 구문분석은 다양한 결과들이 분석되는 동안 많은 시간이 소요되며 이 중 잘못된 분석 결과를 가려서 삭제하기(pruning)도 어렵다. 따라서 본 논문에서 제시한 구묶음(Chunking) 과정을 적용함으로써, 잘못된 구문분석 결과를 미연에 방지하고 의존문법을 적용한 구문분석에 있어서 의존관계의 설정 범위(scope)도 제한할 수 있다.

  • PDF

한국어 구문분석을 위한 구묶음 기반 의존명사 처리 (Processing Dependent Nouns Based on Chunking for Korean Syntactic Analysis)

  • 박의규;나동열
    • 인지과학
    • /
    • 제17권2호
    • /
    • pp.119-138
    • /
    • 2006
  • 구묶음 작업은 문장의 분석을 보다 용이하게 해주는 것으로 알려져 있다. 본 논문에서는 한국어 문장의 구조 분석에 유용한 구묶음의 한 기법을 소개한다. 의존명사는 한국어 문장을 매우 복잡하고 길게 만드는 특성이 있다. 의존명사와 그 주변의 관계되는 단어에 대한 구묶음 작업을 통하여 문장의 복잡도를 낮출 수 있으며 이는 다음 분석 단계인 구문분석 작업을 보다. 용이하게 만든다. 본 논문에서는 이러한 목적을 달성하기 위한 의존명사와 관련된 구묶음 처리에 대해서 자세히 알아보았다. 우리는 의존명사의 종류에 따라 매우 다양한 형태의 구묶음 방식을 제안하였다. 실험을 통하여 본 논문에서 제안한 의존명사 관련 구묶음 처리 기법이 구문분석 시스템의 성능을 크게 향상시키는 것을 확인하였다.

  • PDF

키워드 추출용 구묶음 데이터 구축 및 개선 방법 연구 (Study on Making Chunking Dataset for Keyword Extraction and its Improvement Methods)

  • 이민호;최맹식;김정아;이충희;김보희;오효정;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.512-517
    • /
    • 2020
  • 구묶음은 문장을 겹치지 않는 문장 구성 성분으로 나누는 과정으로, 구묶음 방법에 따라 구문분석, 관계 추출 등 다양한 하위 태스크에 사용할 수 있다. 본 논문에서는 문장의 키워드를 추출하기 위한 구묶음 방식을 제안하고, 키워드 단위 구묶음 데이터를 구축하기 위한 가이드라인을 제작하였다. 해당 가이드라인을 적용하여 구축한 데이터와 BERT 기반의 모델을 이용하여 학습 및 평가를 통해 구축된 데이터의 품질을 측정하여 78점의 F1점수를 얻었다. 이후 패턴 통일, 형태소 표시 여부 등 다양한 개선 방법의 적용 및 재실험을 통해 가이드라인의 개선 방향을 제시한다.

  • PDF

중한번역에서 구 묶음을 이용한 파싱 효율 개선 (Improving Parsing Efficiency Using Chunking in Chinese-Korean Machine Translation)

  • 양재형;심광섭
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권8호
    • /
    • pp.1083-1091
    • /
    • 2004
  • 본 논문은 기계번역 시스템에서 파싱의 전처리 단계로 도입되는 구 묶음 시스템을 제안한다. 구 묶음 모듈은 구 묶음의 결과로 얻어지는 의존관계 제약을 통하여 분석 시스템의 성능향상에 기여할 수 있다. 중국어를 위한 구 묶음 시스템을 변형 기반 학습 기법에 근거하여 구현하며, 의존관계를 효과적으로 파서에 넘겨줄 수 있는 인터페이스를 고안한다. 구현된 모듈을 중한 기계번역 시스템에 통합하고, 중국 관련 웹사이트로부터 수집한 말뭉치를 이용한 실험을 통해 구 묶음의 도입이 기계번역에서 분석시스템의 성능 향상에 기여할 수 있음을 보인다.

뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축 (Chunking Annotation Corpus Construction for Keyword Extraction in News Domain)

  • 김태영;김정아;김보희;오효정
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.595-597
    • /
    • 2020
  • 빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.

  • PDF

명사 의미 부류를 이용한 연속된 명사열의 구묶음 (Chunking of Contiguous Nouns using Noun Semantic Classes)

  • 안광모;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제10권3호
    • /
    • pp.10-20
    • /
    • 2010
  • 본 논문에서는 조사가 없는 연속된 명사열 중 하나의 명사처럼 쓰일 수 있는 명사열을 복합명사구라 정의하고, 의미 정보를 이용한 복합명사구의 구묶음 방법을 제시한다. 복합명사구의 구묶음에는 구문분석 말뭉치에서 추출한 명사쌍과 이들의 의미부류정보를 이용한다. 이러한 명사쌍과 의미부류정보는 신뢰도를 위해 세종말뭉치의 구문분석 말뭉치와 상세사전을 기반으로 구축하였다. 이들 정보를 이용한 복합명사구 구묶음 모듈은 길이(명사의 수)가 2 이상인 복합명사구에 대해서도 구묶음을 수행할 수 있다. 복합명사구 구묶음을 위해 '왼쪽명사-오른쪽명사' 쌍 38,940개, '왼쪽명사-오른쪽명사의미부류' 쌍 65,629개, '왼쪽명사의미부류-오른쪽명사' 쌍 46,094개, '왼쪽명사의미부류-오른쪽명사의미부류' 쌍 45,243개의 정보를 구축하여 이용하였다. 실험을 위하여 신문기사의 내용으로 이루어진 세종형태소분석 말뭉치로부터 길이가 3 이상인 조사와 결합하지 않은 연속된 명사열을 포함하는 1,000 문장을 임의로 선별하였으며, 실험결과는 86.89%의 정밀도와 80.48%의 재현율, 그리고 83.56%의 f-measure를 보였다.

다단계 기계학습 기법을 이용한 구묶음 성능향상 (Performance Improvement of Chunking Using Cascaded Machine Learning Methods)

  • 전길호;서형원;최명길;남유림;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-109
    • /
    • 2011
  • 기계학습은 학습말뭉치로부터 문제를 해결하기 위한 규칙을 학습하여 모델을 생성한다. 생성된 모델의 성능을 높이기 위해서는 문제에 적합한 자질들을 많이 이용해야 하지만 많은 자질들을 사용하면 모델의 생성시간은 느려지는 것이 사실이다. 이 문제를 해결하기 위해 본 논문에서는 다단계 기법을 적용한 기계학습으로 구묶음 시스템을 제작하여 학습모델의 생성시간을 단축하고 성능을 높이는 기법을 제안한다. 많은 종류의 자질들을 두 단계로 분리하여 학습하는 기법으로 1단계에서 구의 경계를 인식하고 2단계에서 구의태그를 결정한다. 1단계의 학습자질은 어휘 정보, 품사 정보, 띄어쓰기 정보, 중심어 정보를 사용하였으며, 2단계 학습자질은 어휘 정보와 품사 정보 외에 1단계 결과에서 추출한 구의 시작 품사 정보와 끝 품사 정보, 구 정보, 구 품사 정보를 자질로 사용하였다. 평가를 위해서 본 논문에서는 ETRI 구문구조 말뭉치를 사용하였다.

  • PDF

의존명사를 포함하는 보조용언의 구묶음 (Chunking of Auxiliary Verbs including Dependant Nouns)

  • 김태웅;조희영;서형원;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.279-284
    • /
    • 2006
  • 한국어 부분 구문분석의 단위인 말덩이(chunk)는 하나의 의미적 중심어를 가지며, 그 구문구조가 선형인 구를 말하며, 말덩이를 분석하는 과정을 구묶음(chunking)이라고 한다. 한국어 말덩이에는 여러 종류가 있으며 보조용언도 말덩이의 한 종류이다. 이 논문은 (한국해양대학교, 2005)의 연구를 바탕으로 오류를 자주 발생시킨 의존명사를 포함하는 보조용언에 대한 명확한 기준을 제시하여 구축된 말뭉치의 신뢰성을 더욱 높이고자 한다. 이 논문에서는 모든 의존명사를 포함하는 보조용언을 다루기에는 더 많은 연구가 필요하므로 "것", "바", "때문", "데" 등의 의존명사를 포함하는 보조용언을 구성하는 말덩이를 중심으로 명확한 기준을 언어학적인 방법으로 제시하고 말뭉치 구축 오류를 방지할 수 있는 해결방안을 모색한다.

  • PDF

두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음 (Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two)

  • 안광모;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.176-180
    • /
    • 2009
  • 구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

  • PDF