• 제목/요약/키워드: part of speech

검색결과 433건 처리시간 0.024초

Sequence-to-sequence 기반 한국어 형태소 분석 및 품사 태깅 (Sequence-to-sequence based Morphological Analysis and Part-Of-Speech Tagging for Korean Language with Convolutional Features)

  • 이건일;이의현;이종혁
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.57-62
    • /
    • 2017
  • 기존의 전통적인 한국어 형태소 분석 및 품사 태깅 방법론은 먼저 형태소 후보들을 생성한 뒤 수많은 조합에서 최적의 확률을 가지는 품사 태깅 결과를 구하는 두 단계를 거치며 추가적으로 형태소의 접속 사전, 기분석 사전 및 원형복원 사전 등을 필요로 한다. 본 연구는 기존의 두 단계 방법론에서 벗어나 심층학습 모델의 일종인 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 품사 태깅을 추가 언어자원에 의존하지 않는 end-to-end 방식으로 접근하였다. 또한 형태소 분석 및 품사 태깅 과정은 어순변화가 일어나지 않는 특수한 시퀀스 변환과정이라는 점을 반영하여 음성인식분야에서 주로 사용되는 합성곱 자질을 이용하였다. 세종말뭉치에 대한 실험결과 합성곱 자질을 사용하지 않을 경우 97.15%의 형태소 단위 f1-score, 95.33%의 어절단위 정확도, 60.62%의 문장단위 정확도를 보여주었고, 합성곱 자질을 사용할 경우 96.91%의 형태소 단위 f1-score, 95.40%의 어절단위 정확도, 60.62%의 문장단위 정확도를 보여주었다.

HMM에 기반한 한국어 개체명 인식 (HMM-based Korean Named Entity Recognition)

  • 황이규;윤보현
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.229-236
    • /
    • 2003
  • 개체명 인식은 질의응답 시스템이나 정보 추출 시스템에서 필수 불가결한 과정이다. 이 논문에서는 HMM 기반의 복합 명사 구성 원리를 이용한 한국어 개체명 인식 방법에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있다. 또한, 하나의 개체명을 구성하는 단어들 사이와 개체명과 개체명 주위의 단어 사이에도 문맥적 관계를 가지고 있다. 본 논문에서는 단어들을 개체명 독립 단어, 개체명 구성 단어, 개체명 인접 단어로 분류하고, 개체명 관련 단어 유형과 품사를 기반으로 HMM을 학습하였다. 본 논문에서 제안하는 개체명 인식 시스템은 가변길이의 개체명을 인식하기 위해 트라이그램 모델을 사용하였다. 트라이그램 모델을 이용한 HMM은 데이터 부족 문제를 가지고 있으며, 이를 해결하기 위해 다단계 백-오프를 이용하였다. 경제 분야 신문기사를 이용한 실험 결과 F-measure 97.6%의 결과를 얻었다.

치킨 리뷰의 이면: 텍스트 마이닝을 통한 리뷰의 탐색적 분석을 중심으로 (BEHIND CHICKEN RATINGS: An Exploratory Analysis of Yogiyo Reviews Through Text Mining)

  • 김준겸;최은솔;윤수현;이유빈;김동환
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.30-40
    • /
    • 2021
  • 코로나 19의 영향으로 배달앱 시장이 빠르게 성장하며, 리뷰와 평점이 더욱 중요해지고 있다. 그러나 급격하게 늘어난 리뷰와 평점의 신뢰도에 의문이 제기되고 있다. 따라서 본 연구는 리뷰와 평점을 탐색적으로 분석하여 배달앱 리뷰의 신뢰도와 유용성을 파악하고, 이를 높일 방법을 탐구하였다. 텍스트 마이닝 기법을 사용하여 도출한 결과는 다음과 같다. 첫째, 요기요와 네이버 지도, 구글 지도의 음식점 평점을 분석한 결과, 요기요는 가장 우편향된 평점 분포를 보여주었다. 둘째, 요기요의 세부 평점 요인(맛, 양, 배달)간에는 모두 강한 양의 상관관계가 있었고, 이는 부정 리뷰의 단어 분석에서도 드러났다. 셋째, 리뷰의 극성에 따라 사용되는 품사와 형태소의 비율이 달랐다. 넷째, 전체 리뷰 데이터에서 367개의 부정어를 선별한 후, 이를 분류하여 치킨 전용 부정어 사전을 제작하였다. 본 연구는 치킨 리뷰의 탐색적 분석을 통해 앞으로 배달앱 리뷰에 대한 연구가 나아가야 할 방향을 제시하였다.

Research on Developing a Conversational AI Callbot Solution for Medical Counselling

  • Won Ro LEE;Jeong Hyon CHOI;Min Soo KANG
    • 한국인공지능학회지
    • /
    • 제11권4호
    • /
    • pp.9-13
    • /
    • 2023
  • In this study, we explored the potential of integrating interactive AI callbot technology into the medical consultation domain as part of a broader service development initiative. Aimed at enhancing patient satisfaction, the AI callbot was designed to efficiently address queries from hospitals' primary users, especially the elderly and those using phone services. By incorporating an AI-driven callbot into the hospital's customer service center, routine tasks such as appointment modifications and cancellations were efficiently managed by the AI Callbot Agent. On the other hand, tasks requiring more detailed attention or specialization were addressed by Human Agents, ensuring a balanced and collaborative approach. The deep learning model for voice recognition for this study was based on the Transformer model and fine-tuned to fit the medical field using a pre-trained model. Existing recording files were converted into learning data to perform SSL(self-supervised learning) Model was implemented. The ANN (Artificial neural network) neural network model was used to analyze voice signals and interpret them as text, and after actual application, the intent was enriched through reinforcement learning to continuously improve accuracy. In the case of TTS(Text To Speech), the Transformer model was applied to Text Analysis, Acoustic model, and Vocoder, and Google's Natural Language API was applied to recognize intent. As the research progresses, there are challenges to solve, such as interconnection issues between various EMR providers, problems with doctor's time slots, problems with two or more hospital appointments, and problems with patient use. However, there are specialized problems that are easy to make reservations. Implementation of the callbot service in hospitals appears to be applicable immediately.

한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기 ((A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System))

  • 김학수;안영훈;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.466-475
    • /
    • 2003
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 의도를 파악할 수 있는 질의 유형 분류기가 필요하다. 본 논문에서는 지지 벡터 기계(support vector machine, SVM)를 이용한 질의유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에 자동 문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

통계와 규칙을 이용한 강인한 품사 태거 (Robust Part-of-Speech Tagger using Statistical and Rule-based Approach)

  • 심준혁;김준석;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.60-75
    • /
    • 1999
  • 품사 태깅은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 부분인 구문 분석, 의미 분석의 전처리로 사용되고, 독립된 응용으로 언어의 정보를 추출하거나 정보 검색 등의 응용에 사용되어 진다. 품사 태깅은 크게 통계에 기반한 방법, 규칙에 기반한 방법, 이 둘을 모두 이용하는 혼합형 방법 등으로 나누어 연구되고 있다. 포항공대 자연언어처리 연구실의 자연 언어 처리 엔진(SKOPE)의 품사 태깅 시스템 POSTAG는 미등록어 추정이 강화된 혼합형 품사 태깅 시스템이다 본 시스템은 형태소 분석기, 통계적 품사 태거, 에러 수정 규칙 후처리기로 구성되어 있다. 이들은 각각 단순히 직렬 연결되어 있는 것이 아니라 형태소 접속 테이블을 기준으로 분석 과정에서 형태소 접속 그래프를 생성하고 처리하면서 상호 밀접한 연관을 가진다. 그리고, 미등록어용 패턴사전에 의해 등록어와 동일한 방법으로 미등록어를 처리함으로써 효율적이고 강건한 품사 태깅을 한다. 한편, POSTAG에서 사용되는 태그세트와 한국전자통신연구원(ETRI)의 표준 태그세트 간에 양방향으로 태그세트 매핑을 함으로써, 표준 태그세트로 태깅된 코퍼스로부터 POSTAC를 위한 대용량 학습자료를 얻고 POSTAG에서 두 가지 태그세트로 품사 태깅 결과 출력이 가능하다. 본 시스템은 MATEC '99'에서 제공된 30000어절에 대하여 표준 태그세트로 출력한 결과 95%의 형태소단위 정확률을 보였으며, 태그세트 매핑을 제외한 POSTAG의 품사 태깅 결과 97%의 정확률을 보였다.

  • PDF

유비쿼터스 정보네트워크에서의 편리한 정보액세스를 위한 한글 자음모음 도메인명의 응용 (Application of Korean Alphabet Domain-Names for Convenient Information Access in a Ubiquitous Information Network)

  • 김영복
    • 정보처리학회논문지C
    • /
    • 제12C권7호
    • /
    • pp.1067-1074
    • /
    • 2005
  • 모바일 사용자 인터페이스가, 특히 유비쿼터스 컴퓨팅 환경에서, 정보를 빨리 그리고 편리하게 액세스하는데 중요해지고 있다. 모바일 컴퓨팅 환경에서의 많은 신규서비스들 중에서, 한글1자 도메인명을 포함하여, 한글알파벳(자음과 모음) 도메인명을 이용한 유비쿼터스 정보네트워킹서비스가 연구되었다. 긴 영어나 한글의 URL 스트링 대신에, 정보 액세스를 위한 편리한 사용자 인터페이스로서, 유선 인터넷에서 뿐만아니라 모바일 인터넷에서, 한글1자/자음/모음 도메인명이 정보를 액세스하고 정보를 알리는데 긴 URL스트링보다 더 편리하다. PC뿐만아니라 휴대폰에서 한글1자/자음/모음 도메인명의 편리함을 연구하였고, 음성변환(TTS) 기능을 가지고 있으며 한글1자/자음/모음 도메인명으로 액세스할 수 있는 유비쿼터스 정보포털의 구현과 응용을 소개한다

PNS 네트워크 Node-Link 구성체계 (Node-Link Development for Pedestrian Navigation System)

  • 남두희;김영신
    • 한국ITS학회 논문지
    • /
    • 제7권5호
    • /
    • pp.26-32
    • /
    • 2008
  • 장애인.노약자들은 일반인에 비해 이동에 대한 제약조건이 많으며 이동시 일반인들이 생각하는 것보다 많은 어려움이 있다. 장애인.노약자뿐만 아니라 일반인들의 보행환경을 개선하기 위해 장애인.노약자를 위한 보행 지원시스템을 구성하여 장애인.노약자들의 사회활동을 장려하고 사회 구성원으로서의 역할을 할 수 있도록 도움을 줌으로서 장애인.노약자에 대한 사회문제를 해결하는 데 큰 역할을 하게 된다. 보행용 네트워크를 구성하기 위해 건설교통부에서 2005년 7월에 발간한 "지능형교통체계 표준 노드/링크 구축.운영지침 해설서"의 내용을 분석하였으며 이를 바탕으로 장애인.노약자들에게 적합한 네트워크체계를 구성하였다. 이동제약이 가장 큰 장애인.노약자를 대상으로 한 보행 네트워크이기 때문에 일반 사람들에게 적용될 수 있다. 이렇게 보행 네트워크를 구성함으로서 사회적 약자에 속하는 장애인.노약자들의 보행에 많은 도움을 줄 수 있을 뿐만 아니라 일반인들의 보행 편의성을 높이는 효과를 가져 올 수 있다. 장애인.노약자를 비롯한 사람들의 보행률을 높임으로서 에너지 절약, 교통사고율 감소 등 사회 전반적으로 긍정적인 효과를 가져 올 것으로 기대된다.

  • PDF

복합명사 분할과 명사구 합성을 이용한 통합 색인 기법 (Integrated Indexing Method using Compound Noun Segmentation and Noun Phrase Synthesis)

  • 원형석;박미화;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권1호
    • /
    • pp.84-95
    • /
    • 2000
  • 본 논문에서는 명사구 색인과 복합명사 분할을 포함한 복합명사 처리를 위해 통계 정보와 자연언어 처리를 제한적으로 이용 가능하게 하는 통합적 색인 기법을 제안한다. 먼저 색인과 검색에서 복합명사 분할 및 합성 모두를 고려한 통합 기법을 제시하고, 이를 위해 통계 정보와 제한적인 자연언어 처리를 모두 이용하는 통합 색인 기법을 제안한다. 먼저 형태소 분석 및 태깅 과정에서 단일어를 색인어로 추출하고 구문분석의 결과에서 명사구를 합성해 낸다. 구문 분석 실패 시에는 형태소 분석 및 태깅의 결과만을 사용하게 된다. 또한 태깅의 결과에서 복합명사를 골라 통계 정보를 이용하여 단일 명사로 분할하고 재합성한다. 분할된 단일 명사와 합성된 명사구는 기존의 단일어로만 이루어진 색인어를 보완하기 위해 색인어로 사용된다. 실험은 한국어 정보검색의 실험 집합인 KTSET 2.0과 KRIST SET을 사용하여 통합색인 기법이 복합명사 처리에 효율적임을 보였다.

  • PDF

화자식별 시스템의 계산량 감소를 위한 화자 프루닝 방법 (A Speaker Pruning Method for Reducing Calculation Costs of Speaker Identification System)

  • 김민정;오세진;정호열;정현열
    • 한국음향학회지
    • /
    • 제22권6호
    • /
    • pp.457-462
    • /
    • 2003
  • 본 논문에서는 GMM (Gaussian Mixture Model)에 기반한 문맥독립 화자식별 시스템의 식별성능 향상과 실시간 처리를 위한 계산량 감소를 위하여 화자 프루닝 (Speaker Pruning) 방법을 제안한다. 기존의 화자식별 방법인 최대유사도(Maximum Likelihood) 방법과 가중모델순위 (Weighting Model Rank) 방법, 수정된 가중모델순위 (Modified WMR) 방법 등은 입력 음성 전체와 모든 화자모델들과의 유사도를 프레임 단위로 계산하여 가장 큰 누적 유사도를 가지는 화자를 식별화자로 결정하는 방법으로써, 입력 프레임 및 등록 화자수가 늘어남에 따라 계산량 및 식별시간이 늘어나는 단점이 있었다. 이러한 단점을 해결하기 위하여, 제안방법은 입력음성 프레임의 일부분만을 이용하여 화자모델들과의 프레임 유사도를 계산한 후 계산된 유사도를 이용하여 등록화자의 상위 일부분의 화자만을 선택하고, 선택된 화자들에서만 유사도 계산을 수행함으로서 계산량 및 식별시간을 줄이는 방법이다. 또한, 화자 프루닝을 적용할 경우 화자수가 가변 되더라도 수정된 가중모델 순위방법을 적용할 수 있어 식별성능을 높일 수 있다. 식별실험결과, 제안방법을 적용한 경우 기존의 최대 유사도 방법이나 가중모델순위 방법보다 최대 65%의 계산량 및 식별시간을 감소시킬 수 있었으며, 약 2%의 향상된 식별결과를 나타내어, 본 논문에서 제안한 방법의 유효성을 확인할 수 있었다.