• 제목/요약/키워드: news articles

검색결과 581건 처리시간 0.028초

KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용 (KB-BERT: Training and Application of Korean Pre-trained Language Model in Financial Domain)

  • 김동규;이동욱;박장원;오성우;권성준;이인용;최동원
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.191-206
    • /
    • 2022
  • 대량의 말뭉치를 비지도 방식으로 학습하여 자연어 지식을 획득할 수 있는 사전학습 언어모델(Pre-trained Language Model)은 최근 자연어 처리 모델 개발에 있어 매우 일반적인 요소이다. 하지만, 여타 기계학습 방식의 성격과 동일하게 사전학습 언어모델 또한 학습 단계에 사용된 자연어 말뭉치의 특성으로부터 영향을 받으며, 이후 사전학습 언어모델이 실제 활용되는 응용단계 태스크(Downstream task)가 적용되는 도메인에 따라 최종 모델 성능에서 큰 차이를 보인다. 이와 같은 이유로, 법률, 의료 등 다양한 분야에서 사전학습 언어모델을 최적화된 방식으로 활용하기 위해 각 도메인에 특화된 사전학습 언어모델을 학습시킬 수 있는 방법론에 관한 연구가 매우 중요한 방향으로 대두되고 있다. 본 연구에서는 금융(Finance) 도메인에서 다양한 자연어 처리 기반 서비스 개발에 활용될 수 있는 금융 특화 사전학습 언어모델의 학습 과정 및 그 응용 방식에 대해 논한다. 금융 도메인 지식을 보유한 언어모델의 사전학습을 위해 경제 뉴스, 금융 상품 설명서 등으로 구성된 금융 특화 말뭉치가 사용되었으며, 학습된 언어 모델의 금융 지식을 정량적으로 평가하기 위해 토픽 분류, 감성 분류, 질의 응답의 세 종류 자연어 처리 데이터셋에서의 모델 성능을 측정하였다. 금융 도메인 말뭉치를 기반으로 사전 학습된 KB-BERT는 KoELECTRA, KLUE-RoBERTa 등 State-of-the-art 한국어 사전학습 언어 모델과 비교하여 일반적인 언어 지식을 요구하는 범용 벤치마크 데이터셋에서 견줄 만한 성능을 보였으며, 문제 해결에 있어 금융 관련 지식을 요구하는 금융 특화 데이터셋에서는 비교대상 모델을 뛰어넘는 성능을 보였다.

텍스트 마이닝을 통한 우리나라의 벼 도열병 발생 개황 분석 (Analysis of Rice Blast Outbreaks in Korea through Text Mining)

  • 송성민;정현정;김광형;김기태
    • 식물병연구
    • /
    • 제28권3호
    • /
    • pp.113-121
    • /
    • 2022
  • 벼 도열병은 전 세계적으로 발병하여 쌀 수확량을 크게 감소시키는 주요 식물병이다. 벼 도열병은 한국에서도 주기적으로 대발생하여 사회경제적으로 큰 피해를 입힌다. 이를 예방하기 위해서는 병 발생 예찰 시스템이 필요하다. 또한 병 발생에 대한 역학 조사는 식물병 관리를 위한 의사결정을 내릴 때 도움을 줄 수 있다. 현재 도열병 예찰 및 역학 조사는 주로 작물의 생육량, 기상 환경 요인 등 정량적으로 측정 가능한 정형 데이터를 기반으로 수행되고 있다. 정형 데이터와 함께 도열병 발생과 관련한 텍스트 자료들도 많이 축적되고 있다. 그러나 이러한 비정형 데이터를 이용한 역학 조사는 이루어지지 않고 있다. 비정형 데이터를 활용하여 유용한 정보를 추출한다면 도열병을 포함한 앞으로의 식물병 관리에 사용할 수 있을 것이다. 이 연구는 텍스트 마이닝을 통해 도열병 관련 뉴스 기사를 분석하여 우리나라에서 벼 도열병이 다발생한 연도와 지역을 조사하였고, 해당 지역의 평균 기온, 합계 강수량, 일조시간, 공급된 벼 품종을 분석하였다. 이를 통해 2020년 평년에 비해 낮은 기온과 일조시간 및 높은 강수량이 전국적인 도열병 다발생의 원인에 기여했고, 2021년 전라북도와 경상북도 일부 지역의 다발생은 비슷한 기상학적 요인에 의한 것으로 추측할 수 있었다. 더하여 같은 벼 품종의 연작에 의한 도열병 다발생 가능성과 질소 비료의 시비량이 병 발생에 미치는 영향에 대한 추후 연구가 필요하다. 결론적으로, 쏟아지는 정보의 홍수속에서 관련 기사를 종합적으로 보기 어렵다. 따라서, 텍스트 마이닝을 통해 얻은 결과로 특정 키워드들이 많이 관찰될 때 적극적 방제에 대한 의사결정을 할 수 있는 시스템이 구축될 필요가 있다. 이는 추후 딥러닝 기술과 접목되어 벼 도열병 역학 조사 도구로 사용될 수도 있을 것이다. 텍스트 마이닝을 통해 얻은 유의미한 정보를 기존의 정형 데이터 기반의 모델과 결합한다면 농업현장에서 병발생 예측 또는 방제기술 개선에 필요한 고품질 정보를 제공해줄 수 있을 것이라고 예상한다.

대중음악 흥행 요인에 대한 연구: 인터넷 밈(Internet Meme)의 매개효과를 중심으로 (Success Factor in the K-Pop Music Industry: focusing on the mediated effect of Internet Memes)

  • 심유정;신민수
    • 서비스연구
    • /
    • 제13권1호
    • /
    • pp.48-62
    • /
    • 2023
  • 최근 K-POP 열풍에서 볼 수 있듯이 한국 음악 산업의 규모와 영향력은 더욱더 커지고 있다. 한국의 음원 시장에는 1년에 최소 6천 개의 음원이 공개되고 있지만 흥행했다고 말할 수 있는 음원은 많지 않다. 이에 흥행작을 만드는 요인이 무엇인지 밝히기 위한 많은 연구 및 시도가 이루어지고 있다. 음악의 상업적인 성공에는 음악의 질뿐만 아니라 미디어 노출이나 홍보와 같은 상업적인 요소 또한 중요한 역할을 담당한다. 최근 대중음악 산업에서는 인터넷 밈을 활용한 마케팅이 많이 나타나는데, 인터넷 밈이란 사람들 사이에서 확산되는 문화적 단위로 이미지나 동영상 등 다양한 형태로 확산되는 활동이나 트렌드라고 할 수 있다. 인터넷 환경과 디지털 커뮤니케이션 특성에 따라 다양한 밈의 형태로 콘텐츠들이 확대 재생산되고 있으며, 이는 소비자들에게 더 큰 반응을 일으킨다. 기존에 인터넷 밈현상은 자연적으로 발생해왔으나, 최근 마케팅 효과를 인지한 아티스트 측에서 마케팅의 요소로 활용하고 있다. 본 논문에서는 대중음악의 흥행 요인과 흥행의 관계에서 인터넷 밈의 매개효과를 분석하고, 이를 반영한 예측모델을 제안하였다. 분석 결과, '커버효과'와 '챌린지효과'의 매개효과가 있는 요인은 동일하게 나타났다. 내부 흥행요인 중에서는 '가수의 인지도', 'POP, 댄스, 발라드, 성인가요, 일렉트로니카' 장르에서 매개효과가 존재하였으며, 외부 흥행 요인 중에서는 '기획사 역량','음악 방송 프로그램 출연 횟수', '뉴스 기사 수'에서 매개효과가 나타났다. 커버효과와 챌린지효과를 반영한 예측 모형은 각각 F1-score가 0.6889, 0.7692로 나타났다. 본 연구는 실제 차트 데이터를 수집·분석하여 실무적으로 활용 가능한 상업적인 방향성을 제시하였으며, 대중음악의 여러 흥행 요인과 인터넷 밈의 매개효과가 존재한다는 것을 발견하였다는 점에서 의의를 갖는다.

박열·가네코 후미코 사건과 퍼포먼스 (Park Yeol·Kaneko Humiko Case and Performance)

  • 백현미
    • 대중서사연구
    • /
    • 제25권2호
    • /
    • pp.117-167
    • /
    • 2019
  • 박열·가네코 후미코 사건이란 일본에서 1923년부터 1926년까지 약 3년 동안 식민지 조선인 박열과 제국 일본의 '무적자' 가네코 후미코가 대역 사건 피고인으로 받은 재판과 '괴사진' 사건 등 그 전후에 발생한 일련의 사건들을 말한다. 박열과 가네코 후미코 관련 사건은 종종 보도가 금지되었지만, 식민지조선에서 그들에 대한 기사는 간헐적이지만 끊임없이 드라마틱하게 이어졌다. 본고는 식민지조선에서 발행된 신문에서 이 사건이 기사화된 방식을 퍼포먼스의 관점에서 살펴 사건이 전달·수용된 양상과 의미를 밝혔다. 퍼포먼스의 주인공답게, 박열과 가네코 후미코는 1923년 구속된 이후 형무소 독방에 갇혀 있었음에도 형무소 바깥 세상을 향해 '행동하는 자'였다. 그들의 '행동'은 기민하고 파격적이었다. 1926년 박열은 세 가지 요구 조건을 걸고 재판 방식을 조율했고, 그래서 박열과 가네코 후미코는 조선예복을 입고 일본 재판정에 등장해 조선말로 자신들의 이름을 알렸다. 대역 사건은 일제에 의해 만들어진 것이지만, 재판 자체를 하나의 사건으로 만든 것은 그들이었다. 또한 박열과 가네코 후미코는 1925년 5월 예심 조사실에서 앞뒤로 밀착해 앉은 자세로 괴사진을 찍었고, 1926년 7월 이 사진이 괴문서와 함께 신문에 실리면서 사법부와 내각을 뒤흔들었다. 그들은 불온한 사진을 남겨, 자신들을 가두고 재판한 일본 사회에 문제를 일으켰던 것이다. 식민지조선의 신문이라는 '무대'의 특성에 따라 이들의 행동은 특별하게 전달되고 수용되었다. 우선 보도 금지 때문에 관련 보도가 간헐적으로 그러나 지속적으로 이어지면서, 사건이 플롯화된 채 알려져 긴장감이 증가했고, 조선인 또는 무산계층이 연루된 사건이 '만들어지고' 있음을 느끼게 했다. 둘째, 재판 전후의 진행 과정을 공연 관람기처럼 기사화하며 재판극을 경험하도록 했다. 박열과 가네코 후미코의 의상과 움직임, 그들이 사용한 언어를 밝히고, 그들과 재판관이 주고받는 문답을 대본처럼 기술하였다. 셋째, 재판부 판사의 '담화'를 되받아 쓴 '사설'과 괴사진의 이야기성을 확대 재생산하는 기사를 통해, 박열·가네코 후미코 사건이 일본 사회에 일으킨 논란과 분란을 문제적으로 드러냈다. 박열·가네코 후미코 사건은 다이쇼 데모크라시 시대의 조화가 깨진 사태를 보여주는 사회적 드라마였다. 본 연구는 이 사회적 드라마에서 박열과 가네코 후미코가 한 역할과 이 사회적 드라마가 식민지조선에서 갖는 의미를 밝혔다. 박열과 가네코 후미코는 행위자로서 이 드라마를 직간접적으로 기획·추진했으며, 일제에 대한 피압박 민족의 당당한 저항을 드라마틱하게 수행했다.

소셜미디어 콘텐츠의 오피니언 마이닝결과 시각화: N라면 사례 분석 연구 (Visualizing the Results of Opinion Mining from Social Media Contents: Case Study of a Noodle Company)

  • 김유신;권도영;정승렬
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.89-105
    • /
    • 2014
  • Web2.0의 등장과 함께 급속히 발전해온 온라인 포럼, 블로그, 트위터, 페이스북과 같은 소셜 미디어 서비스는 소비자와 소비자간의 의사소통을 넘어 이제 기업과 소비자 사이의 새로운 커뮤니케이션 매체로도 인식되고 있다. 때문에 기업뿐만 아니라 수많은 기관, 조직 등에서도 소셜미디어를 활용하여 소비자와 적극적인 의사소통을 전개하고 있으며, 나아가 소셜 미디어 콘텐츠에 담겨있는 소비자 고객들의 의견, 관심, 불만, 평판 등을 분석하고 이해하며 비즈니스에 적용하기 위해 이를 적극 분석하는 단계로 진화하고 있다. 이러한 연구의 한 분야로서 비정형 텍스트 콘텐츠와 같은 빅 데이터에서 저자의 감성이나 의견 등을 추출하는 오피니언 마이닝과 감성분석 기법이 소셜미디어 콘텐츠 분석에도 활발히 이용되고 있으며, 이미 여러 연구에서 이를 위한 방법론, 테크닉, 툴 등을 제시하고 있다. 그러나 아직 대량의 소셜미디어 데이터를 수집하여 언어처리를 거치고 의미를 해석하여 비즈니스 인사이트를 도출하는 전반의 과정을 제시한 연구가 많지 않으며, 그 결과를 의사결정자들이 쉽게 이해할 수 있는 시각화 기법으로 풀어내는 것 또한 드문 실정이다. 그러므로 본 연구에서는 소셜미디어 콘텐츠의 오피니언 마이닝을 위한 실무적인 분석방법을 제시하고 이를 통해 기업의사결정을 지원할 수 있는 시각화된 결과물을 제시하고자 하였다. 이를 위해 한국 인스턴트 식품 1위 기업의 대표 상품인 N-라면을 사례 연구의 대상으로 실제 블로그 데이터와 뉴스를 수집/분석하고 결과를 도출하였다. 또한 이런 과정에서 프리웨어 오픈 소스 R을 이용함으로써 비용부담 없이 어떤 조직에서도 적용할 수 있는 레퍼런스를 구현하였다. 그러므로 저자들은 본 연구의 분석방법과 결과물들이 식품산업뿐만 아니라 타 산업에서도 바로 적용 가능한 실용적 가이드와 참조자료가 될 것으로 기대한다.

광고모델 특성이 구매의도와 브랜드태도에 미치는 영향 (A Study of the Effect of Model Characteristics on Purchasing intentions and Brand Attitudes)

  • 김성덕;윤명길;김기수
    • 유통과학연구
    • /
    • 제10권4호
    • /
    • pp.47-53
    • /
    • 2012
  • 현대의 많은 기업은 경쟁사에 비해 자사기업의 제품에 대한 긍정적인 이미지를 증대시키기 위해 광고에 많은 노력을 기울여왔고, 최근 들어 멀티미디어의 급속한 발달은 광고의 효용성을 크게 증대시켰다. 이러한 상황에서 최근 소비환경의 급속한 변화는 수많은 브랜드를 양산해내고 있다. 또한 보통 소비자들이 쉽게 접하고 기업의 이미지의 제고를 통하여 시장우위를 점하기 위해서는 광고기법을 많이 활용할 수밖에 없다. 이러한 현대 광고행태는 모델이 차지하고 있는 비중을 더욱 커지게 만들고 있다. 따라서 본 연구는 광고모델의 유형별 특성을 검토해 보고자 하는 것을 목적으로 하였다. 연구를 위한 자료는 20대 이상의 대학생 남녀 230명을 대상으로 2011년 10월 20일부터 11월 5일까지 수집되었다. 또한, 광고모델의 특성이 구매의도와 브랜드 태도에 미치는 영향의 요인을 조사하기 위하여 수집되었으며, 자료의 수집은 20대 대학생 230명을 대상으로 수행하고, 조사방법으로는 설문지조사법을 이용하여 조사요원들이 1부씩 배부하여 회수하는 방법으로 연구를 진행하였다. 40부씩 5가지 모델의 사진이 첨부된 설문지를 통하여 광고모델별의 중점적 특성에 대해 파악한다. 결과를 요악하여 보면 구매의도에 미치는 광고모델의 특성과 브랜드 태도에 미치는 특성은 서로 비슷하지만 상이한 점을 찾아 볼 수 있다. 첫째, 구매의도에 미치는 영향으로는 신뢰성과 효율성이라는 결과가 도출되었다. 구매의사가 강하든 강하지 않든 고객들은 광고를 통한 구매의도의 영향을 받을 때 이 두 가지 특성을 가장 많이 고려한다는 결과이다. 광고를 통한 제품의 신용적인 면과 광고내용의 전달력을 위주로 판단하는 경향으로 드러났다. 둘째, 브랜드태도에 미치는 영향으로는 외향적 특성, 신뢰성, 효율성이라는 결과가 도출되었다. 브랜드 태도는 소비자나 고객이 그 기업에 대해 갖는 태도라고 할 수 있다. 이렇듯 구매 후에도 생성이 되고 소멸이 되는 이 브랜드 태도는 기업이 가장 강구하는 부분이다. 브랜드를 대신하여 광고를 하는 광고모델에 따라 브랜드 태도는 달라진다. 이 점을 유의하여 보았을 때, 광고모델의 외향적인 특성 또한 중요시 된다는 결과가 도출되었다. 따라서, 광고모델의 특성이 구매의도와 브랜드태도의 미치는 영향 중에서 브랜드 태도는 외향적 특성이 추가되어졌다. 이 도출의 결과는 브랜드 태도를 형성하는데 있어서 광고모델의 이미지가 직관된다고 설명이 되어 진다. 이렇듯 고객은 광고를 통해 소비자를 유혹하며, 광고상품에 대해 구매를 끌어당길 수 있다. 하지만 기업의 브랜드에 대한 긍정적인 태도를 확보하기 위하여 광고모델의 외향적인 이미지 또한 중요하다. 예를 들어 박경림은 10년 전 쯤 화장품 광고를 찍은 적이 있었다. 화장품 모델로 활약하며 토크프로그램에서 화장품 광고와 밀접한 말실수를 통해 손해배상을 하게 된 적이 있다. 당시 그 화장품을 구매한 고객들은 고액에 해당되는 금액 환불을 요구하였다. 이렇듯 기업 즉 브랜드의 얼굴을 맡는 역할은 광고모델이라 할 정도로 큰 역할을 하고 있는 것이다. 본 연구의 한계점으로는 대학생을 중심으로 한 점이 가장 큰 한계점이라고 지적할 수 있다. 또한 설문지 수가 230부에 불과하다는 점이 다소 부족함을 느끼게 만드는 요인이다. 더 나아가서, 광범위한 분석이 아니라 세분화하여 구체적인 분석을 도출할 수 있어야 했는데, 그러한 점이 본 연구의 한계점이라 할 수 있다. 향후 연구는 이러한 부족한 부분을 보완하고, 더욱 발전적인 방향으로 논의가 진행될 수 있도록 해야겠다.

  • PDF

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.