• 제목/요약/키워드: Morpheme Analyze

검색결과 23건 처리시간 0.027초

한국어의 형태소해석 (Morphological Analysis of the Korean Language)

  • 이수현;;이주근
    • 대한전자공학회논문지
    • /
    • 제26권4호
    • /
    • pp.53-61
    • /
    • 1989
  • 한국어의 구문 및 의미해석등에 필요한 정보를 도출하기 위한 입력분의 형태해석에 대하여 기술한다. 명사구에서 명사와 조사를 분리하고, 복합명사의 분리점을 선택하는 조건을 규정하며, 변형된 복합명사를 처리하는 규칙을 표시한다. 그리고 규칙동사에서 어간과 어미를 분리하고, 변칙용언과 음운축약 등을 효과적으로 처리하기 위한 논리표현 형식을 제안한다. 이 논리표현은 해석규칙과 속성값으로 구성한다. 명사사전의 중복을 배제하기 위하여 "명사형 하다" 동사의 분리 처리와 Q parameter 도입에 의한 "이다"의 처리방법을 보이고, 또한 부정문의 처리형식도 유도하여 복합술부의 형태소와 기본형식을 제시한다.

  • PDF

자동 색인을 위한 한국어 형태소 분석기의 실제적인 구현 및 적용 (Practical Development and Application of a Korean Morphological Analyzer for Automatic Indexing)

  • 최성필;서정현;채영숙
    • 정보처리학회논문지B
    • /
    • 제9B권5호
    • /
    • pp.689-700
    • /
    • 2002
  • 본 논문에서는 정보검색 시스템에서 필수적인 자동 색인을 위한 한글 형태소 분석기를 구현하였다. 현존하는 대용량의 데이터에 대한 자동 색인을 효율적으로 수행하기 위해서 새로운 개념이나 아이디어의 도입 및 적용에 초점을 맞추기보다는 기존에 연구되었던 다양한 어절 분석 기법들을 바탕으로 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화에 초점을 맞추었다. 따라서 본 논문에서 개발된 시스템의 특징은 이론적인 측면보다는 소프트웨어 공학적인 측면이 훨씬 더 강조된다 품사 사전의 구조화가 우선적으로 수행되었으며, 이에 따라서 체언 및 용언 분석 모듈, 수사 분석 모듈 둥이 구현되었다. 또한 형태소의 패턴을 이용한 미등록어 분석 기능이 개발되었다. 개발된 전체 시스템은 정보 검색 엔진인 K-2000 시스템의 색인 모듈로 장착되어서 적용되었다.

대화체 연속음성 인식을 위한 한국어 대화음성 특성 분석 (Analysis of Korean Spontaneous Speech Characteristics for Spoken Dialogue Recognition)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.330-338
    • /
    • 2002
  • 대화체 연속음성은 자연스러운 발화로 낭독체 문장에 비해 잡음, 간투어와 같은 비문법적인 요소가 많고, 발음의 변이가 심하다. 이런 이유로 대화체 연속음성을 인식하기 위해서는 대화 현상을 분석하고 그 특징을 반영하여야 한다. 본 논문에서는 실제 대화음성에 빈번히 나타나는 대화 현상들을 분류하고 각 현상들을 모델링하여 대화체 연속음성 인식을 위한 기본 베이스라인을 구축하였다. 대화 현상을 묵음 구간과 잡음, 간투어, 반복/수정 발화의 디스풀루언시 (disfluencies), 표준전사와 다른 발음을 갖는 발음변이 현상으로 나누었다. 발음변이 현상은 다시 양성음의 음성음화, 음운축약/탈락현상, 패턴화된 발음변이, 발화오류로 세분화하였다. 대화체 음성인식을 위해서 빈번히 나타나는 묵음구간을 고려한 학습과 잡음, 간투어 처리를 위한 음향모델을 각각 추가하였다. 발음변이 현상에 대해서는 출현빈도수가 높은 것들만을 대상으로 발음사전에 다중 발음열을 추가하였다. 대화현상을 고려하지 않고 낭독체 스타일로 음성인식을 수행하였을 때 형태소 에러율 (MER: Morpheme Error Rate)은 31.65%였다. 이에 대한 형태소 에러율의 절대값 감소는 묵음 모델과 잡음 모델을 적용했을 때 2.08%, 간투어 모델을 적용했을 때 0.73%, 발음변이 현상을 반영했을때 0.92%였으며, 최종적으로 27.92%의 형태소 에러율을 얻었다. 본 연구는 대화체 연속음성 인식을 위한 기초 연구로 음향모델과 어휘모델, 언어모델 각각에 대한 베이스라인으로 삼고자 한다.

효율적인 상품등록을 위한 워드넷 기반의 오픈마켓 카테고리 검색 시스템 (A WordNet-based Open Market Category Search System for Efficient Goods Registration)

  • 홍명덕;김장우;조근식
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권9호
    • /
    • pp.17-27
    • /
    • 2012
  • 여러 오픈마켓에서 판매자가 동일한 상품을 등록할 시에 각 오픈마켓마다 다른 기준으로 제공되는 카테고리로 인하여 카테고리 선정에 어려움이 발생한다. 본 논문에서는 판매자가 오픈마켓에서 상품 등록 시 다른 오픈마켓에서 기 판매하고 있는 상품의 카테고리와 의미적으로 가장 연관성이 높은 카테고리를 추천하는 방법을 제안한다. 이때 입력받은 카테고리를 의미 분석하는 방법으로 형태소 분석, Wiki 낱말사전, WordNet, Google 번역 서비스를 사용하여 추출된 색인어로 카테고리를 검색한 후, 의미적 연관성 측정을 통하여 가장 의미가 비슷한 카테고리를 추천하는 방법이다. 실험 결과로 색인어 기반의 검색방법 보다 제안하는 의미분석 검색방법이 정확한 검색결과를 보여주어 시스템의 신뢰도를 향상시켰으며, 카테고리를 선택하는데 드는 시간비용을 절감해주는 것을 보인다.

문서 유사도를 통한 관련 문서 분류 시스템 연구 (Related Documents Classification System by Similarity between Documents)

  • 정지수;지민규;고명현;김학동;임헌영;이유림;김원일
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.77-86
    • /
    • 2019
  • 본 논문은 머신 러닝 기술을 이용하여 과거의 수집된 문서를 분석하고 이를 바탕으로 문서를 분류하는 방법을 제안한다. 특정 도메인과 관련된 키워드를 기반으로 데이터를 수집하고, 특수문자와 같은 불용어를 제거한다. 그리고 한글 형태소 분석기를 사용하여 수집한 문서의 각 단어에 명사, 동사, 형용사와 같은 품사를 태깅한다. 문서를 벡터로 변환하는 Doc2Vec 모델을 이용해 문서를 임베딩한다. 임베딩 모델을 통하여 문서 간 유사도를 측정하고 머신 러닝 기술을 이용하여 문서 분류기를 학습한다. 학습한 분류 모델 간 성능을 비교하였다. 실험 결과, 서포트 벡터 머신의 성능이 가장 우수했으며 F1 점수는 0.83이 도출되었다.

영상 스토리 분석과 시청 패턴 분석 기반의 추천 시스템 구현 (Implementation of User Recommendation System based on Video Contents Story Analysis and Viewing Pattern Analysis)

  • 이현섭;김민영;이지훈;김진덕
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1567-1573
    • /
    • 2020
  • 인터넷 기술의 발전으로 1인 미디어 시대로 도래했다. 한 개인이 스스로 콘텐츠를 제작하여 관련 온라인 서비스로 업로드 하고, 많은 사용자가 온라인 서비스의 콘텐츠를 인터넷을 이용할 수 있는 장치(PC, 스마트폰, 스마트TV 등)를 이용해 시청하고 있다. 현재 대부분 사용자가 기존 온라인 서비스에서 제공하는 검색기능을 통해 원하는 콘텐츠를 찾아서 시청하고 있다. 이러한 기능은 콘텐츠를 업로드 한 사용자가 입력한 정보를 바탕으로 제공된다. 이러한 제한된 단어 데이터를 바탕으로 콘텐츠를 검색해야 하는 환경에서 잘못된 정보가 있는 경우 검색 결과의 유사도 효율 저하와 잘못된 결과를 사용자에게 제시한다. 이를 해결하기 위해 본 논문에서는 온라인 서비스에서 콘텐츠 정보를 시스템이 능동적으로 영상을 분석하고, 영상이 보유한 특성을 추출해 반영하는 방법을 제시한다. 한 동영상의 음성데이터를 근거한 스토리 내용을 근거로 형태소를 추출해 빅데이터 기술로 분석하기 위한 연구 내용을 다룬다.

의료 산업에 있어 현대인의 비대면 의학 상담에 대한 관심도 분석 기법 (Analysis of interest in non-face-to-face medical counseling of modern people in the medical industry)

  • 강유성;박종훈;오하영;이세욱
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1571-1576
    • /
    • 2022
  • 코로나 바이러스의 발병 이후, 의료 산업은 침체기에 들어섰으며, 이에 대한 대응책으로 정부는 일시적으로 비대면 진료를 허용한 상태이다. 본 연구에서는, 이런 시대 흐름에 맞추어 의료 산업에 있어 현대인의 비대면 의학상담에 대한 관심도를 분석하고자 한다. 전문가에게 의학상담을 받을 수 있는 플랫폼인 지식인과, 유튜브 두가지 소셜 플랫폼에서 빅데이터를 수집해 연구를 진행했다. 전화 상담 상위 5개 키워드인 "내과", "일반의", "산경과", "정신건강의학과", "소아청소년과"와 더불어, "전문의", "의학상담", "건강정보" 총 8개의 검색어를 가지고 각 플랫폼으로부터 데이터 세트를 구축했다. 이후 크롤링 된 데이터를 바탕으로 형태소 분류, 질병 추출, 정규화 등 전처리 과정을 거쳤다. 단어 빈도수를 기준으로 한 워드 클라우드, 꺾은선 그래프, 분기별 그래프, 질병 등장 빈도별 막대 그래프 등으로 데이터 시각화를 하였다. 유튜브 데이터에 한해 감성 분류 모델을 구축하였고, GRU와 BERT 기반 모델의 성능을 비교하였다.

텍스트마이닝을 활용한 러닝 어플리케이션 사용자 리뷰 분석: Nike Run Club과 Runkeeper를 중심으로 (Analysis of User Reviews of Running Applications Using Text Mining: Focusing on Nike Run Club and Runkeeper)

  • 류기문;김일광
    • 산업융합연구
    • /
    • 제22권4호
    • /
    • pp.11-19
    • /
    • 2024
  • 본 연구의 목적은 텍스트마이닝을 활용하여 러닝 어플리케이션 사용자의 리뷰를 분석하였다. 본 연구는 python3의 selenium 패키지를 이용하여 google playstore의 Nike Run Club, Runkeeper의 사용자 리뷰들을 분석자료로 이용하였으며, okt 분석기를 통해 한글 명사만을 남겨 형태소를 분리하였다. 형태소 분리 후 rankNL 사전을 만들어 불용어(stopword)를 제거하였다. 자료 분석을 위해 텍스트마이닝의 TF(빈도분석), TF-IDF(키워드 빈도-문서 역빈도), LDA 토픽모델링을 통해 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, Nike Run Club, Runkeeper 어플리케이션 사용자 리뷰에서 공통적으로 상위 키워드로 '기록', '앱', '운동'의 키워드가 도출되었으며 TF, TF-IDF의 순위에는 차이가 나타났다. 둘째, Nike Run Club의 LDA 토픽모델링으로 '기본 항목', '추가 기능', '오류 사항', '위치기반데이터'의 토픽이 도출되었고 Runkeeper는 '오류 사항', '음성 기능', '러닝 데이터', '사용 혜택', '사용 동기'의 토픽이 도출되었다. 결과를 통해 제언하면 어플리케이션의 경쟁력 향상을 기여하기 위해 오류 및 개선사항을 보완해야 한다.

온라인 리뷰 분석을 통한 상품 평가 기준 추출: LDA 및 k-최근접 이웃 접근법을 활용하여 (Product Evaluation Criteria Extraction through Online Review Analysis: Using LDA and k-Nearest Neighbor Approach)

  • 이지현;정상형;김준호;민은주;여운영;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.97-117
    • /
    • 2020
  • 상품 평가 기준은 상품에 대한 속성, 가치 등을 표현한 지표로써 사용자나 기업이 상품을 측정하고 파악할 수 있게 한다. 기업이 자사 제품에 대한 객관적인 평가와 비교를 수행하기 위해서는 적절한 기준을 선정하는 것이 필수적이다. 이때, 평가 기준은 소비자들이 제품을 실제로 구매 및 사용 후 평가할 때 고려하는 제품의 특징을 반영하여야 한다. 그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다. 제시하는 방법은 준비 단계와 추출 단계로 이루어진다. 준비 단계에서는 워드임베딩(Word Embedding) 모델과 평가 기준 후보군을 정제하기 위한 k-NN 분류기를 생성한다. 추출 단계에서는 k-NN 분류기와 언급 비율을 이용해 평가 기준 후보군을 정제하고 최종 결과를 도출한다. 제안 모델의 성능 평가를 위해 명사 빈도 추출 모델, LDA 빈도 추출 모델, 실제 전자상거래 사이트가 제공하는 평가 기준을 세 비교 모델로 선정했다. 세 모델과의 비교를 위해 설문을 진행하고 점수화하여 결과를 검정했다. 30번의 검정 결과 26번의 결과에서 제안 모델이 우수함을 확인했다. 본 연구의 제안 모델은 전자상거래 사이트에서 리뷰 특성을 반영한 상품군 별 차원을 도출하는데 활용될 수 있고 이를 기초로 인사이트 발굴을 위한 리뷰 분석 및 활용에 크게 기여할 것이다.

한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구 (A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks)

  • 김진성;김경민;손준영;박정배;임희석
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.39-47
    • /
    • 2021
  • 효과적인 분절을 통한 양질의 입력 자질 구성은 언어모델의 문장 이해력을 향상하기 위한 필수적인 단계이다. 입력 자질의 품질 제고는 세부 태스크의 성능과 직결된다. 본 논문은 단어와 문장 분류 관점에서 한국어의 언어적 특징을 효과적으로 반영하는 분절 전략을 비교 연구한다. 분절 유형은 언어학적 단위에 따라 어절, 형태소, 음절, 자모 네 가지로 분류하며, RoBERTa 모델 구조를 활용하여 사전학습을 진행한다. 각 세부 태스크를 분류 단위에 따라 문장 분류 그룹과 단어 분류 그룹으로 구분 지어 실험함으로써, 그룹 내 경향성 및 그룹 간 차이에 대한 분석을 진행한다. 실험 결과에 따르면, 문장 분류에서는 단위의 언어학적 분절 전략을 적용한 모델이 타 분절 전략 대비 최대 NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% 높은 성능을, 단어 분류에서는 음절 단위의 분절 전략이 최대 NER: +0.7%, SRL: +0.61% 높은 성능을 보임으로써, 각 분류 그룹에서의 효과성을 보여준다.