• 제목/요약/키워드: 구묶음

검색결과 35건 처리시간 0.036초

TagBench: 대용량 말뭉치 구축을 위한 언어 정보 부착 도구 (TagBench: a Tool for Building Large Corpora)

  • 서형원;최명길;남유림;권홍석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.126-131
    • /
    • 2012
  • 본 논문은 자연언어처리에 필요한 여러 언어 정보를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 제안한 부착 도구는 기본적으로 형태소, 구묶음, 기반구의 품사 정보를 부착하고 추가적으로 명사에 대해서는 각 요소의 의미정보를 부착한다. 또한 형태소와 구묶음의 경우에는 사전형 정보를 부착함으로써 사전 구축 등 보다 폭넓게 사용될 수 있도록 하였다. 언어정보 부착에 있어서 가장 어려운 점은 어떻게 여러 작업자들이 일관성을 유지하느냐이다. 이를 위해 본 논문에서는 각 작업자들이 다른 작업자들의 부착 결과를 쉽게 참조하여 보다 손쉽게 수정할 수 있도록 설계되었다. 또한 기존에 잘못 부착된 정보를 발견하면 이를 쉽게 고칠 수 있도록 하였으며 또한 유사한 오류를 검색할 수 있도록 하여 쉽게 수정할 수 있도록 하였다.

  • PDF

구문 분석을 위한 한국어 말덩이 정의 (Defining Chunks for Parsing in Korean)

  • 남궁영;김창현;천민아;박호민;윤호;최민석;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.409-412
    • /
    • 2018
  • 한국어는 문장 구성 요소들 간의 이동 및 생략이 자유롭다는 언어적 특성 때문에 구문 분석을 할 때 중의성이 증가한다. 뿐만 아니라 형태소 분석 단계에서 고도로 세분화된 분석 결과로 인해 한국어 구문 분석에 어려움을 더하고 있다. 이러한 문제점을 완화하기 위한 한 방안으로 형태소 분석과 구문 분석의 중간 단계에서 같은 역할을 수행하는 형태소들을 묶어 하나의 의미를 가진 부분적인 구문 요소(말덩이)를 형성하는 방법이 있다. 본 논문에서는 이러한 말덩이들에 대해 구체적인 정의를 내리고 그 단위 및 표지를 제시하여 향후 부분 구문 분석의 연구 및 수행에 활용될 수 있는 기준을 제시한다.

  • PDF

PPeditor: 한국어 의존구조 말뭉치 구축 도구 (PPeditor: A Corpus Annotation Tool for Korean Dependency Structures)

  • 박은진;김재훈;김강민;김창현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.741-744
    • /
    • 2005
  • 효과적인 언어처리 시스템을 개발하기 위해서는 언어정보가 부착된 대량의 말뭉치가 필요하다. 그러나, 대량의 말뭉치를 구축하기 위해서는 많은 시간과 노력이 필요하다. 이와 같은 시간과 노력을 절약하기 위해서 일반적으로 말뭉치 구축 도구를 사용한다. 본 논문에서는 한국어 의존구조 말뭉치를 구축하기 위한 도구를 설계하고 구현하였다. 본 논문에서 개발된 구축 도구는 여러 가지 특징을 가지고 있다. 1) 특정 응용분야에 관계없이 두루 사용할 수 있다. 2) 분석 단계와 분석 오류를 연계하여 작업의 집중도를 높였다. 3) 가능한 한 오류는 축적되지 않도록 하여 구축된 말뭉치의 질을 크게 개선할 수 있었다. 4) 구축된 정보는 서로 공유할 수 있도록 하여 작업의 일관성을 극대화하였다. 5) 초보자로 사용자가 쉽게 도구를 사용할 수 있도록 인터페이스를 설계하였다. 본 논문에서 개발된 구축 도구를 이용하여 8 명의 연구원이 약 2 개월 (하루에 평균 4 시간)에 걸쳐서 10,000 문장의 의존구조 말뭉치를 구축할 수 있었다. 구축된 말뭉치에는 형태소 정보, 구묶음 정보, 의존구조 정보가 부착되어 있다.

  • PDF

한국어 어휘의미망에 기반한 논항 정보를 이용한 의존문법 구문분석기의 구현 (Implementation of Dependency Parser using Argument Information based on Korean WordNet)

  • 임경업;정영임;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.158-164
    • /
    • 2007
  • 한국어는 한 어절이 한 개 이상의 형태소로 이루어졌으며, 이 때문에 지역 중의성이 발생한다. 대부분의 선행 연구에서는 이러한 지역 중의성을 배제하거나, 태거를 사용하여 지역 중의성을 제거해왔다. 본 연구에서는 문장의 모든 형태소 분석에 대해 구문분석을 시도하며, 중의성을 제거하고자 적용된 의존문법 규칙과 구 묶음, 부사 하위범주화, 논항 정보 사전 이용 등의 다양한 기법을 설명하고, 구문분석 성능을 실험으로 나타낸다. 특히, 말뭉치마다 논항 정보 사전을 따로 구축하는 번거로움을 피하고자 한국어 어휘의미망을 사용한다.

  • PDF

한국어에서 의존 구문분석을 위한 구묶음의 활용 (Exploiting Chunking for Dependency Parsing in Korean)

  • 남궁영;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권7호
    • /
    • pp.291-298
    • /
    • 2022
  • 본 논문은 한국어에 대해서 구묶음을 수행한 후에 의존구조를 분석하는 방법을 제안한다. 의존구조 분석은 단어의 지배어를 결정하는 과정이다. 지배어를 정할 때, 문법적인 지배어를 정할 것인지 의미적인 지배어를 정할 것인지가 고질적인 문제이다. 일반적으로는 문법적인 지배어를 정하고 있다. 예를 들면 문장 "밥을 먹고 싶다"에서 어절 "먹고"의 지배어로 "싶다"를 정한다. 그러나 "싶다"는 보조용언으로 의미적으로 지배어가 될 수 없다. 이와 같은 방법으로 구문을 분석하면 의미분석을 위해서 또 다른 변환이 있어야 한다. 본 논문에서는 이런 문제를 다소 완화하기 위해서 구묶음을 수행한 후에 구문을 분석하는 방법을 제안한다. 구묶음은 문장을 구성성분 단위로 분할하는 과정이며 구성성분은 내용어 말덩이와 기능어 말덩이로 구성된다. 구묶음을 수행하면 구문 분석의 입력이 되는 문장 성분의 수가 줄어들므로 구문 분석 속도가 개선될 수 있으며, 문장에서 중심어를 중심으로 하나의 말덩이로 묶이므로 말덩이에 대해서만 그 의존 관계를 파악할 수 있어 구문 분석의 효율성을 높일 수 있다. 본 논문은 세종의존말뭉치를 사용해서 성능을 분석했으며 UAS와 LAS가 각각 86.48%와 84.56%였으며 입력의 노드 수도 약 22% 정도 줄일 수 있었다.

큰느타리의 품질 등급, 손질 및 포장 방법에 따른 유통 수명 (Effects of quality grade, trimming, and packaging method on shelf life of king oyster mushrooms)

  • 최지원;이지현;오인호;임수연;임지훈;양해조;최현진;신일섭;홍윤표
    • 한국버섯학회지
    • /
    • 제19권3호
    • /
    • pp.234-245
    • /
    • 2021
  • 큰느타리의 수출시 유통 기한 연장을 목적으로 수확시 품질 등급, 대와 자실체 사이를 잘라낸 손질 처리 유무, 그리고 관행 OPP 봉지에 끈묶음한 포장 방법을 개선시켜 트레이용기에 넣은 후 밀봉처리시 효과를 구명하고자 하였다. 수확시 품질 등급은 수확전 재배사의 온도를 9~11℃ 낮추어 적응시킨 버섯을 특품으로, 관행 13~15℃로 적응시킨 버섯을 상품으로 설정하였다. 선별한 특품과 상품 버섯을 이용하여 손질 및 포장방법으로 3처리구를 두었다. 첫째는 절단 손질 후 OPP 봉지에 넣어 끈묶음한 포장(Cut & OPP), 둘째는 손질하지 않고 OPP 봉지에 넣어 끈묶음한 포장(Uncut & OPP), 마지막으로 개선포장방법으로 절단 손질한 후 트레이용기에 넣고 밀봉한 포장(Cut & Tray)이었다. 포장 완료한 버섯 처리구를 0℃ 저장고에 42일간 보관하면서 포장 내부의 기체 조성, 품질 요인의 변화, 신선 품질에 대한 관능평가를 실시하였다. 특품과 상품의 버섯 모두 Cut & Tray, Cut & OPP, 그리고 Uncut & OPP 처리 순으로 전반적으로 신선도가 높게 유지되었다. 특품 버섯의 유통 수명은 Cut & Tray 처리의 경우 30일, Cut & OPP 처리의 경우 28일, Uncut & OPP 처리의 경우 21일이었고, 상품 버섯의 유통 수명은 Cut & Tray 처리시 22일, Cut & OPP 처리시 17일, 그리고 Uncut & OPP 처리시 14 일이었다. 신선 버섯의 품질에 영향을 미치는 요인은 갓과 대의 갈변과 부패 지수였다. 특히, 버섯 대의 아랫부분의 갈변과 그에 연관된 표피색 a*값과 b*값의 변화가 품질 저하의 주요인이었다.

TPR-Tree를 위한 이동 점의 묶음 갱신 (Bulk Updating Moving Points for the TPR-tree)

  • 황두동;이응재;이양구;류근호
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2004년도 국내 LBS 기술개발 및 표준화 동향세미나
    • /
    • pp.113-116
    • /
    • 2004
  • Assisted by high technologies of information and communication in storing and collecting moving object information, many applications have been developing technical methods to exploit databases of moving objects effectively and variously. Among them, today, Current and Anticipated Future Position Indexing methods manage current positions of moving objects in order to anticipate future positions of them or more complex future queries. They, however, strongly demand update performance as fast enough to guarantee certainty of queries as possible. In this paper, we propose a new indexing mettled derived from the TPR-tree that should has update performance considerably improved, we named it BUR-tree. In our method, index structure can be inserted, deleted, and updated with a number (or bulk) of objects simultaneously rather than one object at a time as in conventional methods. This method is intended to be applied to a traffic network in which vast number of objects, such as cars, pedestrians, moves continuously.

  • PDF

전역 및 지역 정보를 이용한 SVM 기반 한국어 문장 구조 및 격 레이블 분석 (Labeled Statistical Korean Dependency Parsing with Global and Local Information)

  • 임수종;이창기;장명길;나동렬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.207-212
    • /
    • 2009
  • 한국어 문장의 구조 및 격 레이블 분석을 위해서 SVM 모델을 이용하여 얻어진 전역 및 지역 정보 통계 모델에 기반한 방법을 제안한다. 제안하는 방법은 후방 beam search 알고리즘을 이용하여 부분 구문 분석을 하는 과정에서 지역 의존 정보를 사용하였고 이렇게 구성된 문장의 후보 구조에 대해서는 전역 정보 모델를 사용하여 최적의 문장 구조 및 격 레이블을 분석하였다. 제안하는 방법은 지역이나 전역 중 한 개의 모델만을 사용할 때 발생할 수 있는 오류를 최소화하였다. 지식 DB 사업의 한국어 의존 구문 분석 말뭉치를 이용하여 실험한 결과 전역 정보나 지역 정보만을 사용한 결과보다 각각 1.2%, 3.3% 높은 79.1%의 문장 구조 및 격 레이블 분석 정확률을 나타냈고 전역 정보만을 사용할 때보다 약 76배 이상의 빠른 속도 향상을 보였다. 향후 연구로는 지배소 단위, 구 묶음 단위 등으로 통계 정보를 세분화하여 좀더 높은 성능 향상을 기대한다.

  • PDF

효율적인 비디오 유사도 측정을 위한 휘도 투영모델 (Luminance Projection Model for Efficient Video Similarity Measure)

  • 김상현
    • 융합신호처리학회논문지
    • /
    • 제10권2호
    • /
    • pp.132-135
    • /
    • 2009
  • 비디오 데이터들의 효율적 색인과 검색을 위해서는 비디오 시퀀스의 유사도 측정방법이 매우 중요한 요소이다. 본 논문은 비디오 시퀀스에 대한 효율적인 유사도 측정을 위해 휘도 성분 투사법을 제안한다. 기존의 알고리즘들이 히스토그램, 윤곽선, 움직임등과 같은 특성을 사용한 반면 본 논문에서 제안한 알고리즘은 휘도 성분을 투사하는 방법을 사용하여 비디오 유사도 특성을 효율적으로 나타낼 수 있다. 비디오 데이터의 효율적인 색인과 계산량 감소를 위해 누적된 유사도에 의해 추출된 키프레임들을 이용하여 비디오 시퀀스의 유사도를 구하고 수정된 하우스도르프 거리를 사용하여 키프레임 묶음들의 유사도를 측정하였다. 실험결과 제안한 휘도투시법을 사용한 비디오 색인 기법이 유사도 특성에서 기존의 특성을 사용한 방법에 비해 확연한 정확도 및 성능 차이를 보였다.

  • PDF

C-activator를 이용한 성장기 II급 부정교합환자의 구치부 원심이동 치험례 (C-activator treatment for distalization of maxillary molars in Class II anterior deep bite malocclusion)

  • 김성훈;정규림;국윤아
    • 대한치과교정학회지
    • /
    • 제34권3호
    • /
    • pp.269-277
    • /
    • 2004
  • 혼합 치열기의 교정치료 증례 중에서 경도의 총생을 가진 경우 상악 대구치를 원심 이동함으로서 양호한 치료의 결과를 얻는 경우가 많다 주로 악외 견인장치를 적용하여 원심이동을 시행하지만 환자의 협조도에 따라 구치의 원심이동이 결정되는 단점을 가지고 있다. 구강내 고정원 사용시 생길 수 있는 반작용을 최소화하기 위해 정에 의해 개발된 C-space regainer는 후방이동 시키고자 하는 치아를 제외한 거의 모든 치아들을 완벽하게 묶음으로서 효과적인 후방이동을 가능케 하는 장치이다. 후속영구치의 맹출 공간 부족으로 매복 치에 의한 인접치의 치근손상이 예상되는 성장기 II급 부정교합 환자에서 악기능 교정장치에 t-space regainer의 개념을 적용한 변형된 C-space regainer, 즉 C-activator가 사용되어 양호한 치료 결과를 얻었기에 이어 보고하는 바이다.