• 제목/요약/키워드: Neural Network-based

검색결과 5,592건 처리시간 0.033초

국내 연체경험자의 정상변제 요인에 관한 연구 (A Study on the Factors of Normal Repayment of Financial Debt Delinquents)

  • 최성민;김호영
    • 경영정보학연구
    • /
    • 제23권1호
    • /
    • pp.69-91
    • /
    • 2021
  • 국내 개인신용평가회사들은 과거와 현재 시점의 다양한 금융거래 정보를 활용하여 개인의 신용을 평가하고 있는데, 이 중 과거에 대출을 실행하여 이를 상환 또는 연체한 이력에 대한 정보를 의미하는 '상환이력정보'는 신용평가에 활용되는 다른 항목들에 비해 상대적으로 활용 비중이 높은 항목이다. 그러나 개인이 연체된 채무를 모두 변제하여 현재 연체중인 상태가 아닌 경우에도 과거의 연체 이력이 부정적인 요인으로 최장 5년간 평가에 반영되고 있어 금융소비자에게 과도한 불이익을 준다는 지적이 지속적으로 있어 왔다. 실제로 연체 이력이 있는 개인의 경우, 연체된 채무를 성실하게 변제한 개인(정상변제)과 그렇지 않은 개인(비정상변제)으로 구분할 수 있는데, 이들 간에는 신용도의 차이가 존재하므로 '정상변제'하는 개인의 특징을 확인하여 이들에게 '상환이력정보'의 활용기간을 단축시켜 주는 등의 혜택을 제공하는 것이 바람직하다고 판단된다. 본 연구는 이러한 문제의식에서 출발하여 한국신용정보원에서 보유하고 있는 2019년 12월 말 기준, 개인의 대출·연체·변제 정보에 기반하여 국내 연체경험자의 정상변제 요인을 분석하였다. 방법론은 개인신용평가모형에서 주로 사용하는 로지스틱 회귀모형을 기본으로 하여 의사결정나무, 신경망 모형 등의 머신러닝 방법론을 추가로 활용하였으며, 각 방법론별 성능을 비교해보았다. 실증분석 결과, 연체건수, 대출·연체유형 등이 정상변제 여부에 영향을 미치는 유의한 변수들로 확인되었으며 방법론 중에는 신경망 모형의 성능이 가장 높은 것으로 나타났다. 이러한 연구결과는 연체된 개인 차주의 정상변제 여부에 영향을 미치는 요인을 확인하여 개인신용평가모형을 고도화하는데 도움이 될 수 있을 것으로 보이며 연체 후 성실하게 변제하는 개인을 정책적으로 지원하기 위한 기초자료로도 활용될 수 있을 것으로 보인다. 향후에는 정상변제 요인을 추가 발굴하여 금융업권별 정상변제 요인의 세부적인 차이를 확인하고 이를 실제 모형에 반영하는 연구가 필요할 것이다.

메콩강 유역의 격자형 강수 자료에 의한 강우-유출 모의 성능 비교·분석 (Comparison of rainfall-runoff performance based on various gridded precipitation datasets in the Mekong River basin)

  • 김영훈;레수안히엔;정성호;연민호;이기하
    • 한국수자원학회논문집
    • /
    • 제56권2호
    • /
    • pp.75-89
    • /
    • 2023
  • 강우-유출 해석은 하천 홍수예경보, 댐 유입량 산정 및 방류량 결정 등 수자원 관리 및 계획수립에 있어 중요한 과정이며, 밀도높은 강우관측망으로부터 수집된 강우 자료는 정확한 강우-유출 해석을 위한 가장 중요한 기초 자료로 활용된다. 본 연구 대상 지역인 메콩강 유역은 국가공유하천으로 강수 자료수집이 어렵고, 구축된 자료의 양적, 질적 품질이 국가별로 상이하여 수문해석 결과의 불확실성을 높일 우려가 있다. 최근 원격탐사 기술의 발달로 격자형 글로벌 강수자료의 획득이 용이해졌으며, 이를 활용한 미계측 유역 또는 대유역에서의 다양한 수문해석 연구들이 수행된 바 있다. 본 연구에서는 미계측 대유역 수문해석에 있어 격자형 강수자료의 적용성을 평가하기 위하여 3개의 위성 강수자료(TRMM, GSMaP, PERSIANN-CDR)와 2개의 지점 격자형 강수자료(APHRODITE, GPCC)를 수집하고, APHRODITE를 관측값으로 합성곱 신경망 모형인 ConvAE 알고리즘을 이용하여 위성 강수자료의 시·공간적 편의보정을 수행하였다. 또한, 메콩강 본류의 주요지점인 Luang Prabang, Pakse, Stung Treng, Kratie 4개 수위 관측소를 선정하여 SWAT 모형의 매개변수를 보정(2004~2011)하고 지점 격자형 강수자료 및 위성 강수자료의 보정전·후의 유출모의(2012~2013) 결과를 비교·분석하였다. 그 결과 원시위성 강수자료 및 GPCC는 APHPRODITE에 비해 정량적으로 과소 또는 과대추정되거나 공간적으로 매우 상이한 패턴을 나타낸 반면, GSMaP과 ConvAE를 이용하여 보정된 위성 강수자료의 경우, APHPRODITE에 대한 시·공간적 상관성이 개선된 것으로 분석되었다. 또한 유출모의의 경우, 모든 지점에 대해서 ConvAE로 보정된 위성 강수자료를 이용한 유출모의 결과가 원시 위성강수자료를 이용한 유출결과 보다 정확도가 향상된 것으로 분석되었다. 따라서 본 연구에서 제시하는 격자형 위성 강수자료 보정기법과 연계한 강우-유출 해석은 향후 다양한 위성 강수자료를 활용한 미계측 대유역 수문해석에서 활용이 가능할 것으로 판단된다.

미세먼지 예측 성능 개선을 위한 시공간 트랜스포머 모델의 적용 (Application of spatiotemporal transformer model to improve prediction performance of particulate matter concentration)

  • 김영광;김복주;안성만
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.329-352
    • /
    • 2022
  • 미세먼지는 폐나 혈관에 침투해 각종 심장 질환이나 폐암 등의 호흡기 질환을 일으키는 것으로 보고되고 있다. 지하철은 일 평균 천만 명이 이용하는 교통수단으로, 깨끗하고 쾌적한 환경조성이 중요하나 지하터널을 통과하는 지하철의 운행 특성과 터널에 갇힌 미세먼지가 열차 풍으로 인해 지하역사로 이동하는 등의 문제로 지하역사의 미세먼지 오염도는 높은 것으로 나타나고 있다. 환경부와 서울시는 지하역사 공기질 개선대책을 수립하여 다양한 미세먼지 저감 노력을 기울이고 있다. 스마트 공기질 관리 시스템은 공기질 데이터 수집 및 미세먼지 농도를 예측하여 공기질을 관리하는 시스템으로 미세먼지 농도 예측 모델이 중요한 구성 요소이다. 그동안 시계열 데이터 예측에 관한 다양한 연구가 진행되어왔지만, 지하철 역사의 미세먼지 농도 예측과 관련해서는 통계나 순환신경망 기반의 딥러닝 모델 연구에 국한되어 있다. 이에 본 연구에서는 시공간 트랜스포머를 포함한 4개의 트랜스포머 기반 모델을 제안한다. 서울시 지하철 역사의 대합실을 대상으로 한 시간 후의 미세먼지 농도 예측실험을 수행한 결과, 트랜스포머 기반 모델들의 성능이 기존의 ARIMA, LSTM, Seq2Seq 모델들에 비해 우수한 성능을 나타냄을 확인하였다. 트랜스포머 기반 모델 중에서는 시공간 트랜스포머의 성능이 가장 우수하였다. 데이터 기반의 예측을 통하여 운영되는 스마트 공기질 관리 시스템은 미세먼지 예측의 정확도가 향상될수록 더욱더 효과적이고 에너지 효율적으로 운영될 수 있다. 본 연구 결과는 스마트 공기질 관리 시스템의 효율적 운영에 기여할 수 있을 것으로 기대된다.

한국관광 실태조사 빅 데이터 분석을 통한 관광산업 활성화 방안 연구 (A Study on the Revitalization of Tourism Industry through Big Data Analysis)

  • 이정미;류미나;임규건
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.149-169
    • /
    • 2018
  • 본 연구에서는 한국문화관광연구원에서 조사된 "2013년~2015년 외래 관광객 실태조사"의 약 36,000개 데이터에 대한 빅 데이터 분석을 통해 관광산업 활성화 방안을 도출해 보고자 한다. 이를 위해서 외래 관광객들의 '전반적 만족도', '재방문 의사', '추천의사' 변수에 가장 많은 영향을 끼치는 요인을 분석하고 해당 요인들의 각각에 대한 영향력에 대해 파악 하였다. 본 연구에서는 SPSS IBM Modeler 16.0의 의사결정나무(C5.0, CART, CHAID, QUEST), 인공신경망, 로지스틱 회귀분석의 데이터마이닝 기법을 이용하여 종속변수에 가장 큰 영향을 미치는 상위 변수 7개씩을 각각 도출하였고, 추가적으로 각 독립변수들의 영향력을 심도 있게 파악하기 위하여 R프로그래밍을 활용하여 SPSS IBM Modeler 16.0을 통해 도출된 각 독립변수들의 영향력을 파악하였다. 데이터 분석 결과 '전반적 만족도'에 가장 영향을 미치는 상위 변수 7개는 관광지매력도, 음식만족도, 숙박만족도, 교통수단만족도, 안내서비스만족도, 방문관광지수, 국가로 나타났으며 가장 큰 영향력을 미친 변수는 음식만족도와 관광지매력도로 분석되었다. '재방문 의사'에 가장 영향을 미치는 상위 변수 7개로는 국가, 여행 동기, 활동, 음식만족도, 제일 좋았던 활동, 관광안내서비스만족도, 관광지매력도로 나타났으며 그중 가장 큰 영향력을 미친 변수는 음식만족도와 여행 동기로 분석되었다. 마지막으로 '추천의사'에 영향을 미치는 상위 변수 7개로는 국가, 관광지매력도, 방문관광지수, 음식만족도, 활동, 관광안내서비스만족도, 비용으로 나타났으며 가장 큰 영향력을 미친 변수는 국가, 관광지매력도, 음식만족도로 분석되었다. 따라서 세 변수에 공통적으로 영향을 끼치는 요인은 음식만족도, 관광지매력도로 분석되었으며 해당 요인들이 공통적으로 한국여행에 대한 전반적 만족도와 재방문 의사, 추천의사에 미치는 영향이 크다는 것을 확인할 수 있었다. 본 연구는 외래 관광객들의 한국관광에 대한 활성화 방안을 "외래 관광객 실태조사" 빅 데이터 분석을 통해 규명함으로써 한국 관광 데이터 분석의 활용과 관광 정책 수립의 기초자료로 활용될 수 있을 것으로 기대되며 향후 기업 및 국가차원에서 한국 관광발전에 기여할 수 있는 활성화 방안을 마련하는 자료로 사용될 수 있을 것으로 기대한다.

텍스트 마이닝 기법을 활용한 인공지능 기술개발 동향 분석 연구: 깃허브 상의 오픈 소스 소프트웨어 프로젝트를 대상으로 (A Study on the Development Trend of Artificial Intelligence Using Text Mining Technique: Focused on Open Source Software Projects on Github)

  • 정지선;김동성;이홍주;김종우
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.1-19
    • /
    • 2019
  • 제4차 산업혁명을 이끄는 주요 원동력 중 하나인 인공지능 기술은 이미지와 음성 인식 등 여러 분야에서 사람과 유사하거나 더 뛰어난 능력을 보이며, 사회 전반에 미치게 될 다양한 영향력으로 인하여 높은 주목을 받고 있다. 특히, 인공지능 기술은 의료, 금융, 제조, 서비스, 교육 등 광범위한 분야에서 활용이 가능하기 때문에, 현재의 기술 동향을 파악하고 발전 방향을 분석하기 위한 노력들 또한 활발히 이루어지고 있다. 한편, 이러한 인공지능 기술의 급속한 발전 배경에는 학습, 추론, 인식 등의 복잡한 인공지능 알고리즘을 개발할 수 있는 주요 플랫폼들이 오픈 소스로 공개되면서, 이를 활용한 기술과 서비스들의 개발이 비약적으로 증가하고 있는 것이 주요 요인 중 하나로 확인된다. 또한, 주요 글로벌 기업들이 개발한 자연어 인식, 음성 인식, 이미지 인식 기능 등의 인공지능 소프트웨어들이 오픈 소스 소프트웨어(OSS: Open Sources Software)로 무료로 공개되면서 기술확산에 크게 기여하고 있다. 이에 따라, 본 연구에서는 온라인상에서 다수의 협업을 통하여 개발이 이루어지고 있는 인공지능과 관련된 주요 오픈 소스 소프트웨어 프로젝트들을 분석하여, 인공지능 기술 개발 현황에 대한 보다 실질적인 동향을 파악하고자 한다. 이를 위하여 깃허브(Github) 상에서 2000년부터 2018년 7월까지 생성된 인공지능과 관련된 주요 프로젝트들의 목록을 검색 및 수집하였으며, 수집 된 프로젝트들의 특징과 기술 분야를 의미하는 토픽 정보들을 대상으로 텍스트 마이닝 기법을 적용하여 주요 기술들의 개발 동향을 연도별로 상세하게 확인하였다. 분석 결과, 인공지능과 관련된 오픈 소스 소프트웨어들은 2016년을 기준으로 급격하게 증가하는 추세이며, 토픽들의 관계 분석을 통하여 주요 기술 동향이 '알고리즘', '프로그래밍 언어', '응용분야', '개발 도구'의 범주로 구분하는 것이 가능함을 확인하였다. 이러한 분석 결과를 바탕으로, 향후 다양한 분야에서의 활용을 위해 개발되고 있는 인공지능 관련 기술들을 보다 상세하게 구분하여 확인하는 것이 가능할 것이며, 효과적인 발전 방향 모색과 변화 추이 분석에 활용이 가능할 것이다.

유전자 알고리즘을 이용한 다분류 SVM의 최적화: 기업신용등급 예측에의 응용 (Optimization of Multiclass Support Vector Machine using Genetic Algorithm: Application to the Prediction of Corporate Credit Rating)

  • 안현철
    • 경영정보학연구
    • /
    • 제16권3호
    • /
    • pp.161-177
    • /
    • 2014
  • 기업신용등급은 금융시장의 신뢰를 구축하고 거래를 활성화하는데 있어 매우 중요한 요소로서, 오래 전부터 학계에서는 보다 정확한 기업신용등급 예측을 가능케 하는 다양한 모형들을 연구해 왔다. 구체적으로 다중판별분석(Multiple Discriminant Analysis, MDA)이나 다항 로지스틱 회귀분석(multinomial logistic regression analysis, MLOGIT)과 같은 통계기법을 비롯해, 인공신경망(Artificial Neural Networks, ANN), 사례기반추론(Case-based Reasoning, CBR), 그리고 다분류 문제해결을 위해 확장된 다분류 Support Vector Machines(Multiclass SVM)에 이르기까지 다양한 기법들이 학자들에 의해 적용되었는데, 최근의 연구결과들에 따르면 이 중에서도 다분류 SVM이 가장 우수한 예측성과를 보이고 있는 것으로 보고되고 있다. 본 연구에서는 이러한 다분류 SVM의 성능을 한 단계 더 개선하기 위한 대안으로 유전자 알고리즘(GA, Genetic Algorithm)을 활용한 최적화 모형을 제안한다. 구체적으로 본 연구의 제안모형은 유전자 알고리즘을 활용해 다분류 SVM에 적용되어야 할 최적의 커널 함수 파라미터값들과 최적의 입력변수 집합(feature subset)을 탐색하도록 설계되었다. 실제 데이터셋을 활용해 제안모형을 적용해 본 결과, MDA나 MLOGIT, CBR, ANN과 같은 기존 인공지능/데이터마이닝 기법들은 물론 지금까지 가장 우수한 예측성과를 보이는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안모형이 더 우수한 예측성과를 보임을 확인할 수 있었다.

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

인공지능의 사회적 수용도에 따른 키워드 검색량 기반 주가예측모형 비교연구 (Comparison of Models for Stock Price Prediction Based on Keyword Search Volume According to the Social Acceptance of Artificial Intelligence)

  • 조유정;손권상;권오병
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.103-128
    • /
    • 2021
  • 최근 주식의 수익률과 거래량을 설명하는 주요 요인으로서 투자자의 관심도와 주식 관련 정보 전파의 영향력이 부각되고 있다. 또한 인공지능과 같은 혁신 신기술을 개발보급하거나 활용하려는 기업의 경우 거시환경 및 시장 불확실성 때문에 기업의 미래 주식 수익률과 주식 변동성을 예측하기 어렵다는 문제를 가지고 있다. 이는 인공지능 활성화의 장애요인으로 인식되고 있다. 따라서 본 연구의 목적은 인공지능 관련 기술 키워드의 인터넷 검색량을 투자자의 관심 척도로 사용하여, 기업의 주가 변동성을 예측하는 기계학습 모형을 제안하는 것이다. 이를 위해 심층신경망 LSTM(Long Short-Term Memory)과 벡터자기회귀(Vector Autoregression)를 통해 주식시장을 예측하고, 기술의 사회적 수용 단계에 따라 키워드 검색량을 활용한 주가예측 성능 비교를 통해 기업의 투자수익 예측이나 투자자들의 투자전략 의사결정을 지원하는 주가 예측 모형을 구축하였다. 또한 인공지능 기술의 세부 하위 기술에 대한 분석도 실시하여 기술 수용 단계에 따른 세부 기술 키워드 검색량의 변화를 살펴보고 세부기술에 대한 관심도가 주식시장 예측에 미치는 영향을 살펴보았다. 이를 위해 본 연구에서는 인공지능, 딥러닝, 머신러닝 키워드를 선정하여, 2015년 1월 1일부터 2019년 12월 31일까지 5년간의 인터넷 주별 검색량 데이터와 코스닥 상장 기업의 주가 및 거래량 데이터를 수집하여 분석에 활용하였다. 분석 결과 인공지능 기술에 대한 키워드 검색량은 사회적 수용 단계가 진행될수록 증가하는 것으로 나타났고, 기술 키워드를 기반으로 주가예측을 하였을 경우 인식(Awareness)단계에서 가장 높은 정확도를 보였으며, 키워드별로 가장 좋은 예측 성능을 보이는 수용 단계가 다르게 나타남을 확인하였다. 따라서 기술 키워드를 활용한 주가 예측 모델 구축을 위해서는 해당 기술의 하위 기술 분류를 고려할 필요가 있다. 본 연구의 결과는 혁신기술을 기반으로 기업의 투자수익률을 예측하기 위해서는 기술에 대한 대중의 관심이 급증하는 인식 단계를 포착하는 것이 중요하다는 점을 시사한다. 또한 최근 금융권에서 선보이고 있는 빅데이터 기반 로보어드바이저(Robo-advisor) 등 투자 의사 결정 지원 시스템 개발 시 기술의 사회적 수용도를 세분화하여 키워드 검색량 변화를 통해 예측 모델의 정확도를 개선할 수 있다는 점을 시사하고 있다.

AI 기법을 활용한 정수장 수질예측에 관한 연구 (Study on water quality prediction in water treatment plants using AI techniques)

  • 이승민;강유진;송진우;김주환;김형수;김수전
    • 한국수자원학회논문집
    • /
    • 제57권3호
    • /
    • pp.151-164
    • /
    • 2024
  • 상수도 공급을 위한 정수장에서 전염소 또는 중염소 공정이 도입된 수처리 공정의 염소농도 관리에 필요한 공정제어를 위하여 AI 기술을 활용한 수질예측 기법이 연구되고 있다. 본 연구에서는 정수장 수처리 공정에서 실시간으로 관측, 생산되고 있는 수량·수질자료를 이용하여 염소소독 공정제어 자동화를 목적으로 침전지 후단의 잔류염소 농도를 예측하기 위한 AI 기반 예측모형을 개발하였다. AI 기반 예측모형은 과거 수질 관측자료를 학습하여 이후 시점의 수질에 대한 예측이 가능한 기법으로, 복잡한 물리·화학·생물학적 수질모형과 달리 간단하고 효율적이다. 다중회귀 모형과 AI 기반 모형인 랜덤포레스트와 LSTM을 이용하여 정수장의 침전지 후단 잔류염소 농도를 예측하여 비교하였다. 최적의 잔류염소 농도 예측을 위한 AI 모형의 입출력 구조로는 침전지 전단의 잔류염소 농도, 침전지 탁도, pH, 수온, 전기전도도, 원수의 유입량, 알칼리도, NH3 등을 독립변수로, 예측하고자 하는 침전지 유출수의 잔류염소 농도를 종속변수로 선정하였다. 독립변수는 침전지 후단의 잔류염소에 영향이 있는 정수장에서 확보가 가능한 관측자료중에서 분석을 통해 선별하였으며, 분석 결과 연구대상 정수장인 정수장에서는 중회귀모형, 신경망모형, 모델트리 및 랜덤포레스트 모형을 비교한 결과 랜덤포레스트에 기반한 모형오차가 가장 낮게 도출되는 결과를 얻을 수 있었다. 본 연구에서 제시하는 침전지 후단의 적정 잔류염소 농도 예측값은 이전 처리단계에서 염소주입량의 실시간 제어가 가능토록 할 수 있어 수처리 효율 향상과 약품비 절감에 도움이 될 것으로 기대된다.

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.