• 제목/요약/키워드: 텍스트분류

검색결과 680건 처리시간 0.03초

사용자 리뷰의 평가기준 별 이슈 식별 방법론: 호텔 리뷰 사이트를 중심으로 (Methodology for Identifying Issues of User Reviews from the Perspective of Evaluation Criteria: Focus on a Hotel Information Site)

  • 변성호;이동훈;김남규
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.23-43
    • /
    • 2016
  • 최근 IT기술의 발전에 따라 많은 사람들이 자신들의 여가활동에 대한 경험을 공유하고 있으며, 역으로 다른 사람들의 여가활동에 대한 경험을 참고하여 더 나은 여가활동을 누릴 수 있는 기회를 얻게 되었다. 이러한 현상은 영화, 숙박, 음식, 여행 등 여가활동 전반에 걸쳐 나타나고 있으며, 그 중심에는 여가활동에 대한 정보를 요약하여 제공하는 수많은 사이트가 있다. 대부분의 여가활동 정보 사이트는 각 상품에 대한 평균 평점뿐만 아니라 상세 리뷰를 제공함으로써, 해당 상품을 구매하고자 하는 잠재고객의 의사결정을 지원하고 있다. 하지만 기존 대부분의 사이트는 한 단계의 평가기준에 따라 평점과 리뷰를 제공하기 때문에, 각 평가기준을 구성하는 세부요소에 대한 특징과 평가기준 별 주요 이슈를 파악하기 위해서는 상당히 많은 수의 리뷰를 직접 읽어야 한다는 불편이 따른다. 즉 사용자는 자신이 중요한 것으로 생각하는 평가기준에 대한 조건을 파악하기 위해, 많은 수의 리뷰를 하나하나 읽어보는 과정에서 많은 시간과 노력을 소비하게 된다. 예를 들어 호텔의 접근성, 객실, 서비스, 음식 등 한 단계의 평가기준만을 사용하여 평점과 리뷰를 제공하는 사이트의 경우, 접근성 중 특히 지하철역과의 거리, 객실 중 특히 욕실의 상태를 살펴보고자 하는 사용자에게 필요한 정보를 충분히 제공하지 못하게 된다. 따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가 기준 별 주요 이슈를 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 문장 단위로 끊어 개별 리뷰 유닛(Review Unit)으로 분해한 뒤, 평가기준별로 리뷰 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 본 논문에서는 제안 방법론을 실제 호텔 정보 사이트에서 수집한 423건의 리뷰 문서에 적용하여 6가지 평가기준에 대해 총 4,860건의 리뷰 유닛을 재구성하고, 이에 대한 분석 결과를 소개함으로써 제안 방법론의 유용성을 간접적으로 보인다.

사례 기반 지능형 수출통제 시스템 : 설계와 평가 (Export Control System based on Case Based Reasoning: Design and Evaluation)

  • 홍원의;김의현;조신희;김산성;이문용;신동훈
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.109-131
    • /
    • 2014
  • 최근 전 세계적인 원전 설비의 수요 증가로 원자력 전략물자 취급의 중요성이 높아지는 가운데, 국외 수출을 위한 원전 관련 물품 및 기술의 신청 또한 급증하는 추세이다. 전략물자 사전판정 업무는 통상 원자력 물자 관리에 해박한 전문가의 경험 및 지식에 근거하여 수행되어 왔지만, 급증하는 수요에 상응하는 전문 인력의 공급이 부족한 실정이다. 이러한 문제를 극복하기 위하여, 본 연구진은 전략물자 수출 통제를 위한 사례 기반 지능형 수출 통제 시스템을 설계 및 개발하였다. 이 시스템은 현장 전문가의 전담 업무이던 신규 사례에 대한 전략물자 사전판정 과정 업무의 주요 맥락을 자동화 하여 전문가 및 관계 기관이 감당해야 할 업무 부담을 줄이며, 빠르고 정확한 판정을 돕는 의사결정 지원 시스템의 역할을 맡는다. 개발된 시스템은 사례 기반 추론 (Case Based Reasoning) 방식에 기반을 두어 설계되었는데, 이는 과거 사례의 특성을 활용하여 신규 사례의 해법을 유추하는 추론 방법이다. 본 연구에서는 자연어로 작성된 전자문서 처리에 널리 사용되는 텍스트 마이닝 분석 기법을 원자력 분야에 특화된 형태로 응용하여 전략물자 수출통제 시스템을 설계하였다. 시스템 설계의 근거로 선행 연구에서 제안된 반자동식 핵심어 추출 방안의 성능을 보다 엄밀히 검증하였고, 추출된 핵심어로 신규 사례와 유사한 과거 사례를 추출하는 알고리즘을 제안하였다. 제안된 방안은 텍스트 마이닝 분야의 TF-IDF 방법 및 코사인 유사도 점수를 활용한 결과(${\alpha}$)와 원자력 분야에서 통용되는 개념적 지식을 계통으로 분류하여 도출한 결과(${\beta}$)를 조합하여 최종 결과 (${\gamma}$) 를 생성하게 된다. 세부 요소 기술의 성능 검증은 임상 데이터를 활용한 실험 및 실무 전문가의 의견수렴을 통해 이루어졌다. 개발된 시스템은 사전판정 전문 인력을 다수 양성하는 데 드는 비용을 절감하는 데 일조할 것이며, 지식서비스 산업의 의미 있는 응용 사례로서 관련 산업의 성장에 기여할 수 있을 것으로 보인다.

중국 무이구곡 바위글씨(石刻)의 분포와 내용 및 유형에 관한 연구 (A Study on the Distribution, Contents and Types of Stone Inscription of Wuyi-Gugok in China)

  • 노재현;정조하;김홍균
    • 한국전통조경학회지
    • /
    • 제38권1호
    • /
    • pp.115-131
    • /
    • 2020
  • 문헌연구와 현장조사를 통해 중국 무이구곡에서 시지각되는 바위글씨의 분포와 형태 그리고 내용에 따른 바위글씨의 유형화를 시도한 연구 결과는 다음과 같다. 첫째, 무이산 무이구곡에는 1곡부터 9곡까지 모든 곡에 바위글씨가 현존하며 그 수는 총 350방으로 확인되었다. 둘째, 바위글씨의 분포 분석 결과, 제5곡에 74방(21.2%), 제6곡 67방(19.2%), 제1곡 65방(18.6%), 제2곡 60방(17.2%) 그리고 제4곡에 53방(15.2%)이 확인되어 이들 5곡에 전체 319방(91.1%)의 바위글씨가 집중됨으로써 이들 곡의 문화경관성이 풍부한 것으로 밝혀졌다. 셋째, 바위글씨 개체수는 1곡 수광석에 41방(22.6%), 6곡 천유봉 호마간에 29방(8.3%), 4곡 제시암에 23방(6.6%), 2곡 영암에 22방(6.3%), 6곡 향성암에 21방(6%), 5곡 운와에 19방(5.4%)·복호암에 18방(5.1%)·은병봉에 17방(4.9%), 4곡 대장봉에 14방(4%), 1곡 대왕봉, 4곡 금곡암에 각각 12방(3.4%)의 바위글씨가 존재하는 것으로 조사되었다. 따라서 11개소의 개체 바위에 총 228방(65.1%)이 집중되는 경향을 보여 이들 바위의 지명도와 문화적 가치를 대변하고 있다. 넷째, 무이구곡 바위글씨는 무이산의 지모 및 지형지질에 대한 찬미, 무이군과 지명과 관련된 설화, 공맹(孔孟)의 사상을 담는 유가적 교훈, 주자의 무이도가와 관련된 경명과 주자의 행적 등 성리문화의 상찬 그리고 동천복지의 세계관과 도화원기의 선경 등이 주류를 이루고 있다. 또한 삼교와 관련된 유·불·선 명인들의 고사를 포함한 중국 전통문화와 관련한 선인고사(先人古事) 등의 매우 다양하고 다채로운 역사와 신화, 전설을 담는 역사문화 풍경을 내포하고 있다. 다섯째, 무이구곡 바위글씨의 내용을 바탕으로 분류한 결과, 경명·찬경·기유·기사·철리·서회·종교·길어·표어·서지제각 그리고 관문고시 등 11개 유형으로 분류되었다. 이 중 찬경제각(贊景題刻)이 102방(29.1%), 경명제각(景名題刻)이 93방(26.6%) 그리고 기유제각(紀遊題刻)이 61방(17.4%)의 순으로 나타나 무이구곡의 바위글씨는 경물명의 제시와 경관 찬미 그리고 유람을 기념하는 성격이 특히 강한 것으로 밝혀졌다. 여섯째, 연구대상 6개 구곡도와 무이구곡 바위글씨 간의 상호텍스트성 분석 결과, 매체간의 전파방법은 대부분 '인용'이 주류를 이루었으며 이밖에 확장, 반복, 연장 그리고 압축을 통해 상호매체성을 유지한 것으로 확인되었다.

영화에서 빨강의 상호작용적 의미 : 집중과 확산 (The Interactive Significance of Red in Film Color : Concentration and Diffusion)

  • 김종국
    • 만화애니메이션 연구
    • /
    • 통권47호
    • /
    • pp.241-271
    • /
    • 2017
  • 색채는 영화의 다른 요소들과 동등한 기능을 하며, 표현의 자율성에 따른 상호작용적 의미를 갖는다. 빨강은 시선을 집중시키는 기능을 하며, 그로부터 유발된 의미는 확산된다. 텍스트와 콘텍스트의 관계에서 집중의 기능과 의미의 확산을 확인할 수 있다. 집중과 확산은 색상의 독자성, 색상과 다른 영화적 요소들과의 관계, 색상들 간의 상호작용에 따라 구체화된다. 이 연구는 대중성을 담보한 일련의 한국영화를 선정하여, 영화색채가 어떻게 상호작용하며, 특히 빨강의 집중 기능과 확산의 의미가 무엇인지를 분석한다. 이 연구의 분석결과는 다음과 같이 분류할 수 있다. 첫째, <부산행>, <암살>, <광해, 왕이 된 남자>, <7번방의 선물>, <태극기 휘날리며>, <로보트태권V>, <연평해전>, <공동경비구역JSA>, <웰컴투동막골>, <화려한 휴가>와 같은 대중영화에서 빨강은 민족, 국민, 국가, 이념의 갈등을 표상한다. 둘째, <국제시장>, <도둑들>, <괴물>, <연애의 목적>, <님은 먼 곳에>, <천하장사 마돈나>, <음란서생>, <스캔들-조선남녀상열지사>, <여교수의 은밀한 매력>, <쌍화점>에서는 여성의 몸에 부착된 빨강이 한국사회에 고착된 젠더와 섹슈얼리티를 강화시킨다. 셋째, <이웃사람>, <분신사바>, <알포인트>, <장화, 홍련>, <여고괴담>, <4인용 식탁>, <박쥐>, <7광구>, <아수라>, <대호>, <베테랑>에서는 생명의 빨간 피가 주술과 공포의 근원이며 분노와 복수의 시각장치이다. 넷째, <왕의 남자>, <올드보이>. <살인의 추억>, <26년>, <변호인>, <부러진 화살>, <친절한 금자씨>, <해피엔드>, <완득이>, <소명>, <황해>, <방가? 방가!>에서 눈물의 빨강은 아름다운 욕망과 화려한 비극 같은 특정한 감정을 구성한다.

SSI 토론 수업에서 SNS 활용이 성격특성별 의사결정능력에 미치는 효과 (Effectiveness of Decision-Making Skills in SSI Class Based on Debate by Utilizing SNS in Terms of Students' Personality Traits)

  • 장서윤;차희영;박혜민;박철진
    • 한국과학교육학회지
    • /
    • 제36권5호
    • /
    • pp.757-768
    • /
    • 2016
  • 이 연구는 육색사고모자라는 창의적 기법을 적용한 SSI 토론 프로그램을 개발하여 SNS 토론과 기존 면대면 토론 후 논증유형의 차이와 학생의 성격특성별 의사결정능력에 미치는 효과를 알아보았다. 맞춤아기, 배아줄기세포연구, 낙태의 합법성을 주제로 한 3가지 SSI 토론 수업을 SNS를 활용한 토론 집단과 면대면 토론 집단으로 각각 2 학급씩 나누어 학생별 성격특성 검사지를 통해 학생의 성격유형을 외향성, 수용성, 성실성으로 구분하였다. 그리고 두 집단 모두 창의적 사고 기법인 육색사고모자 기법을 이용한 창의적 토론방법을 사전 교육한 후 수업을 진행하였다. 토론 활동이 끝난 후 SNS를 활용한 토론을 한 학생들의 토론 내용은 텍스트로 저장하였고 면대면 토론을 한 학생들의 토론과정에 작성한 활동지와 수업 활동을 촬영한 동영상과 녹음파일을 전사 후 분석한 내용을 바탕으로 학생들이 주제에 대한 최종의견을 주장할 때 사용한 논증 유형과 성격특성별 의사결정능력결과의 차이를 비교하였다. SNS 토론과 면대면 토론에서 사용한 논증유형을 분석한 결과 가장 많이 사용한 논증유형은 인과 유형이었고, SNS 토론의 경우 인과 유형 다음으로 많이 사용한 논증유형은 징표, 유추, 권위, 동기 순이었다. 그에 비해 면대면 토론 결과 인과 유형이 전체 논증 유형의 76% 이상이었고, 나머지 논증 유형은 거의 사용하지 않았거나 주제에 따라 유추, 권위, 동기의 논증 유형을 1~2회 정도 사용하였음을 알 수 있었다. 그리고 면대면 토론을 한 학생보다 SNS 토론을 한 학생들이 인과 이외에도 일반화, 분류화와 병렬적 사례 등의 다양한 논증유형을 사용하였다. 학생의 성격특성별 의사결정능력의 세 가지 요인인 쟁점의 복잡성, 관점의 다양성, 탐구의 객관성 결과를 분석해보면 의사결정능력의 '쟁점의 복잡성'요인에서는 수용성의 학생그룹에서만 SNS 토론집단과 면대면 토론집단 간에 유의미한 차이가 나타났고, '관점의 다양성'요인에서는 외향성, 수용성, 성실성 모두 SNS 토론집단과 면대면 토론집단 간에 유의미한 차이가 있었다. 마지막으로 '탐구의 객관성'요인에서는 외향성, 수용성, 성실성 모두 SNS 토론집단과 면대면 토론집단 간에 유의미한 차이가 없었다. 연구 결과 육색사고모를 이용한 SSI 주제의 토론수업이 기존의 면대면 토론보다 SNS 토론이 학생들이 다양한 논증유형을 사용해 주장하는데 효과적인 방법이고 의사결정능력 검사의 '관점의 다양성'의 요인에서 성격특성에 관계없이 SNS 토론이 더 효과적이라는 것을 알 수 있었다. 따라서 SSI 주제에 대해 육색사고모자를 활용한 SNS 토론이 주제에 대한 다양한 관점을 고려해 보고 의사결정을 하는데 효과적인 방법의 하나로 될 수 있음을 알 수 있었다.

인공지능(AI) 스피커에 대한 사회구성 차원의 발달과정 연구: 제품과 시기별 공진화 과정을 중심으로 (A study of Artificial Intelligence (AI) Speaker's Development Process in Terms of Social Constructivism: Focused on the Products and Periodic Co-revolution Process)

  • 차현주;권상희
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.109-135
    • /
    • 2021
  • 본 연구는 전통뉴스 보도에 나타난 인공지능(AI)스피커 뉴스 텍스트 분석을 통해 인공지능(AI) 스피커 발달과정을 분류하고 시기별 제품별 특성을 파악하였다. 또한 AI 스피커 사업자 제품별 뉴스 보도와 시기별 뉴스 보도간의 상관관계를 분석하였다. 분석에 사용된 이론적 배경은 뉴스의 프레임과 토픽프레임이다. 분석방법으로는 LDA 방식을 활용한 토픽모델링(Topic Modeling)과 의미연결망분석이 사용되었으며, 추가로 'UCINET'중 QAP분석을 적용하였다. 연구방법은 내용분석 방법으로 2014년부터 2019년까지 AI 스피커 관련 2,710건의 뉴스를 1차로 수집하였고, 2차적으로 Nodexl 알고리즘을 이용하여 토픽프레임을 분석하였다. 분석 결과 첫째, AI 스피커 사업자 유형별 토픽 프레임의 경향은 4개 사업자(통신사업자, 온라인 플랫폼, OS 사업자, IT디바이스 생산업자) 특성에 따라 다르게 나타났다. 구체적으로, 온라인 플랫폼 사업자(구글, 네이버, 아마존, 카카오)와 관련한 프레임은 AI 스피커를 '검색 또는 입력 디바이스'로 사용하는 프레임의 비중이 높았다. 반면 통신 사업자(SKT, KT)는 모회사의 주력 사업인 IPTV, 통신 사업의 '보조 디바이스' 관련한 프레임이 두드러지게 나타났다. 나아가 OS 사업자(MS, 애플)는 '제품의 의인화 및 음성 서비스' 프레임이 두드러지게 보였으며, IT 디바이스 생산업자(삼성)는 '사물인터넷(IoT) 종합지능시스템'과 관련한 프레임이 두드러지게 나타났다. 둘째, AI 스피커 시기별(연도별) 토픽 프레임의 경향은 1기(2014-2016년)에는 AI 기술 중심으로 발달하는 경향을 보였고, 2기(2017-2018년)에는 AI 기술과 이용자 간의 사회적 상호 작용과 관련되어 있었으며, 3기(2019년)에는 AI 기술 중심에서 이용자 중심으로 전환되는 경향을 나타냈다. QAP 분석 결과, AI 스피커 발달에서 사업자별과 시기별 뉴스 프레임이 미디어 담론의 결정요인에 의해 사회적으로 구성되는 것을 알 수 있었다. 본연구의 함의는 AI 스피커 진화는 사업자별, 발달시기별로 모회사 기업의 특성과 이용자 간의 상호작용으로 인한 공진화 과정이 나타냄을 발견할 수 있었다. 따라서 본 연구는 AI 스피커의 향후 전망을 예측하고 그에 따른 방향성을 제시하는 데 중요한 시사점을 제공한다.

문서 요약 기법이 가짜 뉴스 탐지 모형에 미치는 영향에 관한 연구 (A Study on the Effect of the Document Summarization Technique on the Fake News Detection Model)

  • 심재승;원하람;안현철
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.201-220
    • /
    • 2019
  • 가짜뉴스가 전세계적 이슈로 부상한 최근 수년간 가짜뉴스 문제 해결을 위한 논의와 연구가 지속되고 있다. 특히 인공지능과 텍스트 분석을 이용한 자동화 가짜 뉴스 탐지에 대한 연구가 주목을 받고 있는데, 대부분 문서 분류 기법을 이용한 연구들이 주를 이루고 있는 가운데 문서 요약 기법은 지금까지 거의 활용되지 않았다. 그러나 최근 가짜뉴스 탐지 연구에 생성 요약 기법을 적용하여 성능 개선을 이끌어낸 사례가 해외에서 보고된 바 있으며, 추출 요약 기법 기반의 뉴스 자동 요약 서비스가 대중화된 현재, 요약된 뉴스 정보가 국내 가짜뉴스 탐지 모형의 성능 제고에 긍정적인 영향을 미치는지 확인해 볼 필요가 있다. 이에 본 연구에서는 국내 가짜뉴스에 요약 기법을 적용했을 때 정보 손실이 일어나는지, 혹은 정보가 그대로 보전되거나 혹은 잡음 제거를 통한 정보 획득 효과가 발생하는지 알아보기 위해 국내 뉴스 데이터에 추출 요약 기법을 적용하여 '본문 기반 가짜뉴스 탐지 모형'과 '요약문 기반 가짜뉴스 탐지 모형'을 구축하고, 다수의 기계학습 알고리즘을 적용하여 두 모형의 성능을 비교하는 실험을 수행하였다. 그 결과 BPN(Back Propagation Neural Network)과 SVM(Support Vector Machine)의 경우 큰 성능 차이가 발생하지 않았지만 DT(Decision Tree)의 경우 본문 기반 모델이, LR(Logistic Regression)의 경우 요약문 기반 모델이 다소 우세한 성능을 보였음을 확인하였다. 결과를 검증하는 과정에서 통계적으로 유의미한 수준으로는 요약문 기반 모델과 본문 기반 모델간의 차이가 확인되지는 않았지만, 요약을 적용하였을 경우 가짜뉴스 판별에 도움이 되는 핵심 정보는 최소한 보전되며 LR의 경우 성능 향상의 가능성이 있음을 확인하였다. 본 연구는 추출요약 기법을 국내 가짜뉴스 탐지 연구에 처음으로 적용해 본 도전적인 연구라는 점에서 의의가 있다. 하지만 한계점으로는 비교적 적은 데이터로 실험이 수행되었다는 점과 한 가지 문서요약기법만 사용되었다는 점을 제시할 수 있다. 향후 대규모의 데이터에서도 같은 맥락의 실험결과가 도출되는지 검증하고, 보다 다양한 문서요약기법을 적용해 봄으로써 요약 기법 간 차이를 규명하는 확장된 연구가 추후 수행되어야 할 것이다.

ChatGPT의 수학적 성능 분석: 국가수준 학업성취도 평가 및 대학수학능력시험 수학 문제 풀이를 중심으로 (Analyzing Mathematical Performances of ChatGPT: Focusing on the Solution of National Assessment of Educational Achievement and the College Scholastic Ability Test)

  • 권오남;오세준;윤정은;이경원;신병철;정원
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제37권2호
    • /
    • pp.233-256
    • /
    • 2023
  • 이 연구는 수학교육에서의 ChatGPT의 활용 방안 도출을 위한 기초 연구로서 국가수준 학업성취도 평가 및 대학수학능력시험 문제에 대한 ChatGPT의 응답을 분석하였다. ChatGPT는 생성형 인공지능 모델로서 여러 분야에서 주목 받고 있으며, 교육계에서도 ChatGPT 활용 방안에 대한 요구의 목소리가 높아지고 있다. 이에 이 연구에서는 3개년 국가수준 학업성취도 평가 및 대학수학능력시험 문제에 대한 ChatGPT 3.5의 응답에 대해서 정답률, 풀이 과정의 정확도, 오류 유형을 분류하여 분석하였다. ChatGPT의 국가수준 학업성취도 평가 문제 및 대학수학능력시험 문제의 정답률은 각각 37.1%, 15.97%로 나타났다. ChatGPT의 풀이 과정의 정확도는 5점 만점으로 산출하였을 때, 국가수준 학업성취도 평가는 3.44점, 대학수학능력시험은 2.49점으로 산출되었다. ChatGPT의 수학 문제를 풀이하는 데 나타나는 오류 유형은 절차적 오류와 기능적 오류로 나뉘었다. 절차적 오류는 다음 단계로의 식을 연결 짓는 과정이나 계산상의 오류를 가리키며, 기능적 오류는 ChatGPT가 텍스트를 인식, 판단, 출력하는 과정에서 발생하는 오류였다. 이러한 분석은 정답률만이 ChatGPT의 수학적 성능을 판단하는 기준이 되어서는 안 되며, 풀이 과정의 정확도나 오류유형까지도 복합적으로 고려해야 함을 시사한다.

뉴스와 주가 : 빅데이터 감성분석을 통한 지능형 투자의사결정모형 (Stock-Index Invest Model Using News Big Data Opinion Mining)

  • 김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.143-156
    • /
    • 2012
  • 누구나 뉴스와 주가 사이에는 밀접한 관계를 있을 것이라 생각한다. 그래서 뉴스를 통해 투자기회를 찾고, 투자이익을 얻을 수 있을 것으로 기대한다. 그렇지만 너무나 많은 뉴스들이 실시간으로 생성 전파되며, 정작 어떤 뉴스가 중요한지, 뉴스가 주가에 미치는 영향은 얼마나 되는지를 알아내기는 쉽지 않다. 본 연구는 이러한 뉴스들을 수집 분석하여 주가와 어떠한 관련이 있는지 분석하였다. 뉴스는 그 속성상 특정한 양식을 갖지 않는 비정형 텍스트로 구성되어있다. 이러한 뉴스 컨텐츠를 분석하기 위해 오피니언 마이닝이라는 빅데이터 감성분석 기법을 적용하였고, 이를 통해 주가지수의 등락을 예측하는 지능형 투자의사결정 모형을 제시하였다. 그리고, 모형의 유효성을 검증하기 위하여 마이닝 결과와 주가지수 등락 간의 관계를 통계 분석하였다. 그 결과 뉴스 컨텐츠의 감성분석 결과값과 주가지수 등락과는 유의한 관계를 가지고 있었으며, 좀 더 세부적으로는 주식시장 개장 전 뉴스들과 주가지수의 등락과의 관계 또한 통계적으로 유의하여, 뉴스의 감성분석 결과를 이용해 주가지수의 변동성 예측이 가능할 것으로 판단되었다. 이렇게 도출된 투자의사결정 모형은 여러 유형의 뉴스 중에서 시황 전망 해외 뉴스가 주가지수 변동을 가장 잘 예측하는 것으로 나타났고 로지스틱 회귀분석결과 분류정확도는 주가하락 시 70.0%, 주가상승 시 78.8%이며 전체평균은 74.6%로 나타났다.

CNN 보조 손실을 이용한 차원 기반 감성 분석 (Target-Aspect-Sentiment Joint Detection with CNN Auxiliary Loss for Aspect-Based Sentiment Analysis)

  • 전민진;황지원;김종우
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.1-22
    • /
    • 2021
  • 텍스트를 바탕으로 한 차원 기반 감성 분석(Aspect-Based Sentiment Analysis)은 다양한 산업에서 유용성을 주목을 받고 있다. 기존의 차원 기반 감성 분석에서는 타깃(Target) 혹은 차원(Aspect)만을 고려하여 감성을 분석하는 연구가 대다수였다. 그러나 동일한 타깃 혹은 차원이더라도 감성이 나뉘는 경우, 또는 타깃이 없지만 감성은 존재하는 경우 분석 결과가 정확하지 않다는 한계가 존재한다. 이러한 문제를 해결하기 위한 방법으로 차원과 타깃을 모두 고려한 감성 분석(Target-Aspect-Sentiment Detection, 이하 TASD) 모델이 제안되었다. 그럼에도 불구하고, TASD 기존 모델의 경우 구(Phrase) 간의 관계인 지역적인 문맥을 잘 포착하지 못하고 초기 학습 속도가 느리다는 문제가 있었다. 본 연구는 TASD 분야 내 기존 모델의 한계를 보완하여 분석 성능을 높이고자 하였다. 이러한 연구 목적을 달성하기 위해 기존 모델에 합성곱(Convolution Neural Network) 계층을 더하여 차원-감성 분류 시 보조 손실(Auxiliary loss)을 추가로 사용하였다. 즉, 학습 시에는 합성곱 계층을 통해 지역적인 문맥을 좀 더 잘 포착하도록 하였으며, 학습 후에는 기존 방식대로 차원-감성 분석을 하도록 모델을 설계하였다. 본 모델의 성능을 평가하기 위해 공개 데이터 집합인 SemEval-2015, SemEval-2016을 사용하였으며, 기존 모델 대비 F1 점수가 최대 55% 증가했다. 특히 기존 모델보다 배치(Batch), 에폭(Epoch)이 적을 때 효과적으로 학습한다는 것을 확인할 수 있었다. 본 연구에서 제시된 모델로 더욱 더 세밀한 차원 기반 감성 분석이 가능하다는 점에서, 기업에서 상품 개발 및 마케팅 전략 수립 등에 다양하게 활용할 수 있으며 소비자의 효율적인 구매 의사결정을 도와줄 수 있을 것으로 보인다.