• 제목/요약/키워드: morphological analyzer

검색결과 146건 처리시간 0.022초

코퍼스로부터 형태소 분석을 위한 사전 구성 (A Dictionay Composition for Morphological Analyzer from Corpus)

  • 정민수;정규철;조원홍
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.316-320
    • /
    • 1998
  • 한국어나 일본어처럼 문법형태소의 기능에 의해 단어의 통사적, 의미적 역할이 결정되는 교착어에서는 형태소 분석이 통사 분석과 의미 분석에 미치는 영향이 크기 때문에 한국어의 분석에 있어서 형태소 분석은 아주 중요하다. 관형적 표현이 많은 한글은 문법 규칙만으론 분석하기가 쉽지 않고, 분기가 많이 생성되므로 오류가 발생할 확률도 높다. 이러한 문제점을 해결하기 위해 본 논문에선 사전을 중심으로 해결하고자 한다. 그러기 위해선 방대한 용량의 사전이 필요로 하게 되고 이를 구축하기 위한 시간과 노력이 요구되므로 이미 구성된 코퍼스를 이용해 사전을 구성하여 많은 시간과 노력을 줄일 수 있도록 한다. 그리고 생성되는 많은 분기 가운데 올바른 경로를 찾아 가기 위해 코퍼스내의 각 태그 결합정보를 추출하고 추출한 결합정보의 통계정보-코퍼스내에서 사용된 빈도수-포함하여 우선순위를 정하도록 한다.

  • PDF

한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX (A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX)

  • 김남철;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF

Analysis of Handsheet Properties of Kenaf Base and Core Blended Pulps

  • Park, Jong-Moon;Pang, Myong-Hyeok;Cho, Nam-Seok
    • 펄프종이기술
    • /
    • 제31권2호
    • /
    • pp.70-76
    • /
    • 1999
  • This study was to measure the potential of nonwoody fibrous material, kenaf. Whole stalk of kenaf, Hibiscus cannabinus was separated by two parts of bast and core portion, and cooked separately by alkaline method. Morphological characteristic was evaluated using confocal laser scanning microscope (CLSM) and fiber quality analyzer(FQA). The strength properties of handsheets, made by different mixing ration between kenaf base and core fibers, were measured. Cross-sectional area of bast fibers was smaller than that of core fibers, but the bast fibers had a thick cell wall and narrow lumen area. Bast fibers were longer in length than core fibers. Core fibers had thin cell walls, broad lumen areas, and short lengths, and they had collapsed shape even in water. These characteristics of core fibers affected strength properties of handsheet positively. When the amount of core fibers increased, the strength properties of handsheet were increased. When the amount of bast fibers increased, the handsheet had rougher surface and higher air permeability.

  • PDF

CLSM을 이용한 어저귀 섬유의 형태학적 특성과 물성 연구(제1보) -인피 및 목질부 섬유를 이용한 한지제조- (Study of Morphology and Physical Properties of Indian Mallow(Abutilon avicennae Gaertner) Fibers by CLSM( I ))

  • 정선화;조남석
    • 펄프종이기술
    • /
    • 제34권2호
    • /
    • pp.61-66
    • /
    • 2002
  • This study was carried out to investigate sheet properties of Indian mallow hanji, made by different pulping methods such as alkali and sulfomethylated pulpings, and different stock compositions, various mixing ratios of bast fiber and woody core fibers. Effect of morphological properties of pulp stocks on the sheet formation and their optical properties were also evaluated using an image analyzer and confocal laser scanning microscope(CLSM). In addition, the effect of fiber distribution index(FDI), which was calculated based on the image in a z-direction of a sheet from CLSM, on the sheet properties of Indian mallow hanji was discussed. The proposed FDI had a good correlation with various properties of paper, such as apparent density, opacity, tear index, breaking length and zero-span tensile strength. Especially, sulfomethylated pulp sheets'FDI was higher than alkali pulp sheets.

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

어절패턴 사전을 이용한 새로운 한국어 형태소 분석기 (A New Korean Morphological Analyzer using Eojeol Pattern Dictionary)

  • 홍진표;차정원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.279-284
    • /
    • 2008
  • 본 연구에서는 어절패턴을 이용하는 새로운 방식의 한국어 형태소 분석기 KGuru-MA에 대해서 설명한다. KGuru-MA는 품사 부착 말뭉치에서 개방어를 생략하여 어절 패턴을 반자동으로 학습하여 어절 패턴 사전과 형태소 확률 정보 사전을 구성한 후, 이 사전을 이용하여 형태소를 분석한다. 본 형태소 분석기는 어절패턴을 사용하여 형태소 분석하기 때문에 기존 형태소 분석기에 존재하는 접속검사 과정이 생략된다. 또한, 형태소 분석 과정이 기존의 형태소 분석기에 비해 단순하여 기초 자연언어 처리 시스템이 가지는 강건성을 보장한다. 본 연구는 "21세기 세종기획 3차년도 말뭉치"를 이용한 실험 결과, 기존 형태소 분석기 못지 않은 성능을 보였다.

  • PDF

Entrapment of Ellagic Acid in Dairy Protein-Based Nanoparticles

  • Lee, Mee-Ryung
    • Journal of Dairy Science and Biotechnology
    • /
    • 제36권2호
    • /
    • pp.121-124
    • /
    • 2018
  • Ellagic acid (EA) is a naturally occurring polyphenolic compound in vegetables, nuts, and fruits such as berries. EA has antioxidant, anticancer, anti-allergy, and anti-inflammatory activities. The objectives of this research were to investigate the physicochemical properties of nanoparticles before and after nano-encapsulation of EA in dairy protein and to develop a functional (anti-inflammatory) dairy protein-based beverage containing EA. A particle size analyzer was used to determine the physicochemical and morphological properties. High performance liquid chromatography was used to evaluate the entrapment efficiency of EA. The nanoparticles containing EA were 100 to 200 nm in diameter. The determined poly dispersity index value of 0.3 to 0.4 indicated that the nanoparticles were uniformly distributed with similar size. Zeta-potential values were also similar between the control groups. The entrapment efficiency of EA was nearly 90%. The results indicate the potential for development of nanoparticles containing EA beverage products with anti-inflammatory activity.

계층적 기호 접속정도를 이용한 한국어 형태소 분석기의 구현 (The Implementation of Korean Morphological Analyzer Using Hierarchical Symbolic Connectivity Information)

  • 이은철;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.95-104
    • /
    • 1992
  • 본 논문은 구문해석, 의미해석 등의 전처리 단계로서의 형태소 분석기 구현에 대해 기술하고자 한다. 먼저 기존의 접속정보의 단점을 보완하는 새로운 접속정보를 정의한다. 이 접속정보는 계층적구조를 가지고 심볼로써 표현되며, 기존의 좌우 두 가지 접속정보를 사용한 방법과는 달리 좌우를 하나로 통합한 정보를 사용한다. 따라서 접속정보 유지와 확장에 편의를 제공해 주고 접속정보 부여시 정확성을 더할 수 있고, 계층적구조를 살려서 접속정보표의 구성을 용이하게 한다. 또한 불규칙활용에 있어서는 사전정보에 의한 선언적 방법과 프러시져에 의한 절차적 방법의 장점을 살려 혼용하였다. 끝으로 앞에서 정의된 새로운 접속정보 방식의 장점을 살려서 정확한 분석 결과를 얻을 수 있는 형태소 분석기의 구현에 대해 설명한다.

  • PDF

사전 성능개선을 통한 한국어 형태소분석기의 분석속도 향상 (Improvement of Analysis Speed in Korean Morphological-Analyzer Using Ameliorated Dictionary)

  • 김영관;박민식;최진석;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.479-483
    • /
    • 1999
  • 본 논문에서는 사전 구조와 탐색알고리즘을 개선하여 형태소분석기의 분석 속도를 향상시켰다. 형태소분석기의 분석시간은 사전탐색과 제약검사의 비중이 크다. 따라서 형태소분석기의 처리속도는 사전 탐색 기법에 많은 영향을 받는다. 본 논문에서는 한국어 형태소분석기에서 사용되는 사전의 탐색속도 향상과 한 문서에 나타나는 동일한 어절에 대해서 cache를 사용하여 형태소분석기의 처리 속도를 빠르게 하였다. 또한 기존의 형태소분석기에서 속도 증가를 위해 사용하는 어절-형태소분석결과 사전을 활용하여 더 발전시켰다. 본 논문에서는 어절-형태소분석결과 사전을 사용할 때, 분석 속도향상을 위한 새로운 가속기법인 '하이브리드(HyBrid)'방법을 사용하여 어절-형태소분석결과 사전의 적중률을 높였다.

  • PDF

시소러스 도구를 이용한 실시간 개념 기반 문서 분류 시스템 (A Real-Time Concept-Based Text Categorization System using the Thesauraus Tool)

  • 강원석;강현규
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권1호
    • /
    • pp.167-167
    • /
    • 1999
  • The majority of text categorization systems use the term-based classification method. However, because of too many terms, this method is not effective to classify the documents in areal-time environment. This paper presents a real-time concept-based text categorization system,which classifies texts using thesaurus. The system consists of a Korean morphological analyzer, athesaurus tool, and a probability-vector similarity measurer. The thesaurus tool acquires the meaningsof input terms and represents the text with not the term-vector but the concept-vector. Because theconcept-vector consists of semantic units with the small size, it makes the system enable to analyzethe text with real-time. As representing the meanings of the text, the vector supports theconcept-based classification. The probability-vector similarity measurer decides the subject of the textby calculating the vector similarity between the input text and each subject. In the experimentalresults, we show that the proposed system can effectively analyze texts with real-time and do aconcept-based classification. Moreover, the experiment informs that we must expand the thesaurustool for the better system.