• Title/Summary/Keyword: AI characteristics

검색결과 772건 처리시간 0.018초

BERT를 활용한 속성기반 감성분석: 속성카테고리 감성분류 모델 개발 (Aspect-Based Sentiment Analysis Using BERT: Developing Aspect Category Sentiment Classification Models)

  • 박현정;신경식
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.1-25
    • /
    • 2020
  • 대규모 텍스트에서 관심 대상이 가지고 있는 속성들에 대한 감성을 세부적으로 분석하는 속성기반 감성분석(Aspect-Based Sentiment Analysis)은 상당한 비즈니스 가치를 제공한다. 특히, 텍스트에 속성어가 존재하는 명시적 속성뿐만 아니라 속성어가 없는 암시적 속성까지 분석 대상으로 하는 속성카테고리 감성분류(ACSC, Aspect Category Sentiment Classification)는 속성기반 감성분석에서 중요한 의미를 지니고 있다. 본 연구는 속성카테고리 감성분류에 BERT 사전훈련 언어 모델을 적용할 때 기존 연구에서 다루지 않은 다음과 같은 주요 이슈들에 대한 답을 찾고, 이를 통해 우수한 ACSC 모델 구조를 도출하고자 한다. 첫째, [CLS] 토큰의 출력 벡터만 분류벡터로 사용하기보다는 속성카테고리에 대한 토큰들의 출력 벡터를 분류벡터에 반영하면 더 나은 성능을 달성할 수 있지 않을까? 둘째, 입력 데이터의 문장-쌍(sentence-pair) 구성에서 QA(Question Answering)와 NLI(Natural Language Inference) 타입 간 성능 차이가 존재할까? 셋째, 입력 데이터의 QA 또는 NLI 타입 문장-쌍 구성에서 속성카테고리를 포함한 문장의 순서에 따른 성능 차이가 존재할까? 이러한 연구 목적을 달성하기 위해 입력 및 출력 옵션들의 조합에 따라 12가지 ACSC 모델들을 구현하고 4종 영어 벤치마크 데이터셋에 대한 실험을 통해 기존 모델 이상의 성능을 제공하는 ACSC 모델들을 도출하였다. 그리고 [CLS] 토큰에 대한 출력 벡터를 분류벡터로 사용하기 보다는 속성카테고리 토큰의 출력 벡터를 사용하거나 두 가지를 함께 사용하는 것이 더욱 효과적이고, NLI 보다는 QA 타입의 입력이 대체적으로 더 나은 성능을 제공하며, QA 타입 안에서 속성이 포함된 문장의 순서는 성능과 무관한 점 등의 유용한 시사점들을 발견하였다. 본 연구에서 사용한 ACSC 모델 디자인을 위한 방법론은 다른 연구에도 비슷하게 응용될 수 있을 것으로 기대된다.

전염병의 경로 추적 및 예측을 위한 통합 정보 시스템 구현 (Implementation of integrated monitoring system for trace and path prediction of infectious disease)

  • 김은경;이석;변영태;이혁재;이택진
    • 인터넷정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.69-76
    • /
    • 2013
  • 세계적으로 전파력과 병원성이 높은 신종인플루엔자, 조류독감 등과 같은 전염병이 증가하고 있다. 전염병이란 특정 병원체(pathogen)로 인하여 발생하는 질병으로 감염된 사람으로부터 감수성이 있는 숙주(사람)에게 감염되는 질환을 의미한다. 전염병의 병원체는 세균, 스피로헤타, 리케차, 바이러스, 진균, 기생충 등이 있으며, 호흡기계 질환, 위장관 질환, 간질환, 급성 열성 질환 등을 일으킨다. 전파 방법은 식품이나 식수, 곤충 매개, 호흡에 의한 병원체의 흡입, 다른 사람과의 접촉 등 다양한 경로를 통해 발생한다. 전 세계의 대부분 국가들은 전염병의 전파를 예측하고 대비하기 위해서 수학적 모델을 사용하고 있다. 하지만 과거와 달리 현대 사회는 지상과 지하 교통수단의 발달로 전염병의 전파 속도가 매우 복잡하고 빨라졌기 때문에 우리는 이를 예방하기 위한 대책 마련의 시간이 부족하다. 그러므로 전염병의 확산을 막기 위해서는 전염병의 전파 경로를 예측할 수 있는 시스템이 필요하다. 우리는 이러한 문제를 해결하기 위해서 전염병의 실시간 감시 및 관리를 위한 전염병의 감염 경로 추적 및 예측이 가능한 통합정보 시스템을 구현하였다. 이 논문에서는 전염병의 전파경로 예측에 관한 부분을 다루며, 이 시스템은 기존의 수학적 모델인 Susceptible - Infectious - Recovered (SIR) 모델을 기반으로 하였다. 이 모델의 특징은 교통수단인 버스, 기차, 승용차, 비행기를 포함시킴으로써, 도시내 뿐만 아니라 도시간의 교통수단을 이용한 이동으로 사람간의 접촉을 표현할 수 있다. 그리고 한국의 지리적 특성에 맞도록 실제 자료를 수정하였기 때문에 한국의 현실을 잘 반영할 수 있다. 또한 백신은 시간에 따라서 투여 지역과 양을 조절할 수 있기 때문에 사용자가 시뮬레이션을 통해서 어느 시점에서 어느 지역에 우선적으로 투여할지 백신을 컨트롤할 수 있다. 시뮬레이션은 몇가지 가정과 시나리오를 기반으로 한다. 그리고 통계청의 자료를 이용해서 인구 이동이 많은 주요 5개 도시인 서울, 인천국제공항, 강릉, 평창, 원주를 선정했다. 상기 도시들은 네트워크로 연결되어있으며 4가지의 교통수단들만 이용하여 전파된다고 가정하였다. 교통량은 국가통계포털에서 일일 교통량 자료를 입수하였으며, 각도시의 인구수는 통계청에서 통계자료를 입수하였다. 그리고 질병관리본부에서는 신종인플루엔자 A의 자료를 입수하였으며, 항공포털시스템에서는 항공 통계자료를 입수하였다. 이처럼 일일 교통량, 인구 통계, 신종인플루엔자 A 그리고 항공 통계자료는 한국의 지리적 특성에 맞도록 수정하여 현실에 가까운 가정과 시나리오를 바탕으로 하였다. 시뮬레이션은 신종인플루엔자 A가 인천공항에 발생하였을 때, 백신이 투여되지 않은 경우, 서울과 평창에 각각 백신이 투여된 경우의 3가지 시나리오에 대해서, 감염자가 피크인 날짜와 I (infectious)의 비율을 비교하였다. 그 결과 백신이 투여되지 않은 경우, 감염자가 피크인 날짜는 교통량이 가장 많은 서울에서 37일로 가장 빠르고, 교통량이 가장 적은 평창에서 43일로 가장 느렸다. I의 비율은 서울에서 가장 높았고, 평창에서 가장 낮았다. 서울에 백신이 투여된 경우, 감염자가 피크인 날짜는 서울이 37일로 가장 빨랐으며, 평창은 43일로 가장 느렸다. 그리고 I의 비율은 강릉에서 가장 높으며, 평창에서 가장 낮았다. 평창에 백신을 투여한 경우, 감염자가 피크인 날짜는 37일로 서울이 가장 빠르고 평창은 43일로 가장 느렸다. I의 비율은 강릉에서 가장 높았고, 평창에서는 가장 낮았다. 이 결과로부터 신종인플루엔자 A가 발생하면 각 도시는 교통량에 의해 영향을 받아 확산된다는 것을 확인할 수 있다. 따라서 전염병 발생시 전파 경로는 각 도시의 교통량에 따라서 달라지므로, 교통량의 분석을 통해서 전염병의 전파 경로를 추적하고 예측함으로써 전염병에 대한 대책이 가능할 것이다.