• 제목/요약/키워드: 리뷰데이터

검색결과 311건 처리시간 0.023초

한글 텍스트 감정 이진 분류 모델 생성을 위한 미세 조정과 전이학습에 관한 연구 (A Study on Fine-Tuning and Transfer Learning to Construct Binary Sentiment Classification Model in Korean Text)

  • 김종수
    • 한국산업정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.15-30
    • /
    • 2023
  • 근래에 트랜스포머(Transformer) 구조를 기초로 하는 ChatGPT와 같은 생성모델이 크게 주목받고 있다. 트랜스포머는 다양한 신경망 모델에 응용되는데, 구글의 BERT(bidirectional encoder representations from Transformers) 문장생성 모델에도 사용된다. 본 논문에서는, 한글로 작성된 영화 리뷰에 대한 댓글이 긍정적인지 부정적인지를 판단하는 텍스트 이진 분류모델을 생성하기 위해서, 사전 학습되어 공개된 BERT 다국어 문장생성 모델을 미세조정(fine tuning)한 후, 새로운 한국어 학습 데이터셋을 사용하여 전이학습(transfer learning) 시키는 방법을 제안한다. 이를 위해서 104 개 언어, 12개 레이어, 768개 hidden과 12개의 집중(attention) 헤드 수, 110M 개의 파라미터를 사용하여 사전 학습된 BERT-Base 다국어 문장생성 모델을 사용했다. 영화 댓글을 긍정 또는 부정 분류하는 모델로 변경하기 위해, 사전 학습된 BERT-Base 모델의 입력 레이어와 출력 레이어를 미세 조정한 결과, 178M개의 파라미터를 가지는 새로운 모델이 생성되었다. 미세 조정된 모델에 입력되는 단어의 최대 개수 128, batch_size 16, 학습 횟수 5회로 설정하고, 10,000건의 학습 데이터셋과 5,000건의 테스트 데이터셋을 사용하여 전이 학습시킨 결과, 정확도 0.9582, 손실 0.1177, F1 점수 0.81인 문장 감정 이진 분류모델이 생성되었다. 데이터셋을 5배 늘려서 전이 학습시킨 결과, 정확도 0.9562, 손실 0.1202, F1 점수 0.86인 모델을 얻었다.

협력필터링과 사회연결망을 이용한 신규고객 추천방법에 대한 연구 (The Research on Recommender for New Customers Using Collaborative Filtering and Social Network Analysis)

  • 신창훈;이지원;양한나;최일영
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.19-42
    • /
    • 2012
  • 고객이 상품을 구매하는 패턴이 빠르게 변화하고 있다. 오프라인에서 고객이 직접 상품을 보고, 체험한 후 구매하던 패턴이 TV홈쇼핑, 인터넷 쇼핑 등 고객이 편리한 장소에서 자유롭게 구매하는 방법으로 확산되었다. 이처럼 구매 가능한 상품의 범위는 점점 더 다양해지고 있지만 이로 인하여 고객이 상품을 구매할 때 생기는 번거로움은 더욱 커지고 있다. 오프라인에서는 물건을 직접보고 구매하기 때문에 반품율이 낮은 반면에 온라인 구매 물품은 배송과 환불 등에서 복잡한 일들이 많이 발생한다. 온라인을 통해서 물건을 구매할 때 상품에 대한 사전 정보는 매우 한정적이며 실제로 물건을 구매했을 경우 고객이 생각했던 것과 다를 수 있다. 이러한 결과는 결국 고객의 불만족 및 구매취소로 이어진다. 또한 TV홈쇼핑이나 인터넷 쇼핑 등을 통해서 물건을 구매할 때 고객들은 이미 상품을 구매한 고객의 리뷰에도 관심을 기울이고 있다. 좋은 평가를 받은 상품은 더 많은 매출로 이어질 수 있기 때문에 기업은 이에 관심을 기울일 필요가 있다. 고객의 욕구를 만족시킬 수 있는 적절한 상품을 추천해 주고 이를 구매로 연결시키는 것은 기업의 이윤 창출과 직결되기 때문에 그 중요성이 강조된다. 고객을 위한 추천방법은 베스트셀러기반 추천방법, 인구통계 정보기반 추천방법, 최소질의대상 상품결정방법, 내용필터링기법, 협력필터링기법 등이 존재하며, 이에 대한 많은 연구가 활발하게 진행되고 있다. 그러나 위의 방법들을 신규고객에게 적용하는 것에는 문제가 발생할 수 있다. 신규고객은 상품에 대한 과거 구매이력이 존재하지 않기 때문이다. 이를 해결하기 위한 방안으로 가입 시, 고객의 인구통계적 정보나 선호도에 대한 응답을 유도하는 방법을 활용할 수 있다. 그러나 고객이 이에 대한 번거로움을 느낄 수도 있으며, 불완전한 답변을 하게 되면 추천의 정확도는 감소한다. 최근 이미 상품을 구매한 고객의 리뷰 및 기업에서 추천하는 제품에 의존하는 고객들이 증가하면서 이를 악용하는 사례도 자주 등장한다. 결국 추천에 대한 고객들의 신뢰는 감소하게 될 것이다. 따라서 좀 더 명확한 방식의 추천시스템이 절실하며, 이것이 개선된다면 는 곧 고객들의 신뢰 증가로 이어질 것이다. 본 연구에서는 협력필터링기법과 사회연결망기법의 중심성을 결합한 분석을 시도하였다. 중심성은 신규고객의 선호도를 기존고객들의 데이터를 통하여 유추하기 위하여 활용되는 정보이다. 기존 연구들에서는 기존고객들의 구매 가운데 구매성향이 유사한 고객들의 정보에 초점을 맞추고 있으며 구매성향이 다른 고객들의 정보에 대한 분석은 이루어지고 있지 않다. 그러나 이처럼 구매성향이 서로 다른 고객들의 정보를 활용한다면 추천의 정확성이 더 향상되지 않을까 하는 점을 기반으로 데이터들을 다양한 방식으로 분석하였다. 연구에 사용된 데이터는 미네소타대학의 GroupLens Research Project팀이 협력필터링기법을 통하여 영화를 추천하기 위해 만든 MovieLens의 데이터이다. 이는 1,684편의 영화에 대한 선호도를 943명이 응답한 정보로 총 100,000개의 데이터가 있다. 이를 시간 순으로 구분하여 초기 50,000개의 데이터를 기존고객의 데이터로, 후기 50,000개의 데이터를 신규고객의 데이터로 사용하였다. 이 때, 신규고객과 기존고객은 연구자가 임의로 구분한 것이다. 따라서 신규고객이라고 표현되는 고객의 데이터는 실제로 추천시스템을 통해 정보를 제공받은 고객이라고는 볼 수 없다. 그러나 현실적으로 실제 신규고객의 데이터를 수집하는 것이 쉽지 않기 때문에 전체 고객의 정보를 시간 순으로 구분하고 신규고객으로 분류한 것임을 밝혀둔다. 제시된 추천시스템은 [+]집단 추천시스템, [-]집단 추천시스템, 통합 추천시스템으로 총 3가지이다. [+]집단 추천시스템은 기존의 연구들과 유사한 방식으로 유사도가 높은 고객들을 신규고객의 이웃고객으로 분석하였다. 유사도가 높다는 것은 다른 고객들과 상품 구매에 대한 성향이 유사한 것을 의미한다. 또한 [-]집단 추천시스템은 유사도가 낮고 다른 고객들과 상품의 구매패턴이 반대에 가까운 고객들의 데이터를 활용하였으며, 통합 추천시스템은 [+]집단 추천시스템과 [-]집단 추천시스템을 결합한 방식이다. [+]집단 추천시스템과 [-]집단 추천시스템에서 각각 추천된 영화 가운데 중복되는 영화만을 신규고객에게 추천하는 방식이다. 다양한 방법의 시도를 통하여 적절한 추천시스템을 찾고, 추천시스템의 정확도를 향상시키는데 그 목적이 있다. 활용된 데이터의 분석 결과는 통합 추천시스템이 정확도가 가장 높았으며 [-]집단 추천시스템, [+]집단 추천시스템의 순인 것으로 나타났다. 이는 통합 추천시스템이 가장 효율적일 것이라는 연구자의 추측과 일치하는 결과이다. 각각의 추천시스템은 정확도의 변화를 쉽게 비교할 수 있도록 등고선지도 및 그래프를 이용하여 나타냈다. 연구의 한계점으로는 연구자가 제시한 통합 추천시스템과 [-]집단 추천시스템에 대한 정확도는 향상되었지만 이는 임의로 구분한 기준을 바탕으로 분석하였다는 점이다. 실제 추천된 영화를 바탕으로 신규고객이 영화를 선택 한 것이 아니라 기존고객의 데이터를 임의로 분류하였기 때문이다. 따라서 이는 추천 영화가 실제 고객에 미친 영향이 아니라는 한계가 존재한다. 또한 영화가 아닌 다른 상품에 대해서 이 추천시스템을 적용하였을 경우 추천 정확도에는 차이가 있을 수 있다. 따라서 추천시스템을 적용할 때에는 각 상품 및 고객집단의 특성에 적합한 적용이 필요하다.

가사 텍스트의 감성분석에 기반 한 음악 시각화 콘텐츠 개발 (Development of the Artwork using Music Visualization based on Sentiment Analysis of Lyrics)

  • 김혜란
    • 한국콘텐츠학회논문지
    • /
    • 제20권10호
    • /
    • pp.89-99
    • /
    • 2020
  • 본 연구에서는 음악 가사의 감성분석을 통한 영상작품의 제작을 시도하였다. 가사 텍스트의 감성분석에는 구글(Google)의 자연어 처리 API를 활용하였고 그 결과를 영상 시각화 규칙과 연결하였다. 기존의 공학적 연구들에서의 텍스트 기반 감성분석은 소셜 미디어에서의 사용자 댓글과 리뷰를 분석해서 사용자들의 감정과 태도를 이해하도록 하는 연구들이 많았다. 본 연구에서는 감성분석 데이터가 예술작품 창작의 재료가 되어 심미적 표현에 활용될 수 있도록 하였다. 기계의 관점에서 볼 때 감정은 숫자로 치환되어 나타나므로 규격화, 표준화 될 수밖에 없다는 한계점이 있다. 이에 가사 데이터의 감성분석 결과를 시각예술에서의 조형요소들의 규칙과 연결하여 이러한 한계를 일부 극복해보자 하였다. 본 연구는 인공지능이 인간의 고도화 된 정신적 산물인 예술작품의 창작까지 시도하는 현 시대를 반영하며 문학, 음악, 회화, 무용 등 기존의 전통적인 예술작품을 기계를 통해 바라본 새로운 형태의 예술작품으로 만들어 보고자 하는 목표를 가지고 있다. 더불어 감정표현에 어려움을 겪는 발달 장애인들의 창작활동과 심리분석 및 의사소통을 용이하게 해주는 예술창작 및 교육 플랫폼으로 확장되기를 기대한다.

Improvement of a Product Recommendation Model using Customers' Search Patterns and Product Details

  • Lee, Yunju;Lee, Jaejun;Ahn, Hyunchul
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.265-274
    • /
    • 2021
  • 본 논문에서는 검색 키워드와 상품 상세정보를 활용한 Doc2vec 기반의 새로운 추천 모형을 제안한다. 지금까지 추천 시스템에 관한 많은 기존 연구에서는 고객의 구매 이력이나 평점 같은 정형 데이터만을 사용하는 협업 필터링(CF) 알고리즘에 기반한 추천 모델이 제안되었다. 그러나 CF에서 온라인 고객 리뷰와 같은 비정형 데이터를 사용하면, 보다 나은 추천결과를 도출할 수 있다. 이에 본 연구에서는 기존 연구에서 거의 활용되지 않았던 검색 키워드 정보와 상품 상세정보를 제품 추천에 활용할 것을 제안한다. 본 연구의 제안 모형은 고객이 구매한 상품에 대한 평점, 검색어, 상품 상세정보를 종합적으로 고려한 CF 알고리즘을 이용해 추천결과를 생성한다. 이 때 비정형 데이터로부터 정량적인 패턴을 추출하기 위한 방법으로는 Doc2vec이 적용된다. 실험 결과 제안 모형이 기존 추천 모형보다 더 나은 성능을 보이는 것을 알 수 있었고, 검색어 및 상품 상세정보가 추천에 유의한 영향을 미치는 것을 확인하였다. 본 연구는 고객의 온라인 행동 정보를 추천시스템에 적용하였다는 점과 전통적인 CF의 한계 중 하나인 콜드 스타트 문제를 완화하였다는 점에서 학술적 의의가 있다.

미래 동물생명산업 발전전략으로써 스마트축산의 응용: 리뷰 (Applying a smart livestock system as a development strategy for the animal life industry in the future: A review)

  • 박상오
    • 한국응용과학기술학회지
    • /
    • 제38권1호
    • /
    • pp.241-262
    • /
    • 2021
  • 본 논문은 과학논문을 통해 30년 후인 2050년까지 가축과 동물성식품의 동향을 예측하면서 미래 동물생명산업 발전 전략으로써 ICT-기반 스마트축산 기술의 필요성을 검토하였다. 전 세계적으로 가축사육과 동물성식품 소비는 인구증가, 고령화, 농촌인구 감소, 도시화 및 소득증가에 대한 반응으로 빠르게 변화하고 있다. 기후변화는 가축 환경, 생산성과 번식효율성을 바꿀 수 있다. 가축생산은 온실가스 배출 증가, 토지 황폐화, 수질오염, 동물복지 및 인간의 건강 문제로 이어질 것이다. 이러한 문제를 해결하기 위해 동물생명산업의 다양한 측면에서 4차 산업혁명과 융합된 ICT-기반 스마트축산을 활용하여 기후변화 대응, 생산성 향상, 동물복지, 동물성식품 영양품질 개선, 동물의 질병예방을 위한 선제적인 미래 대응전략이 필요하다. 미래 동물생명산업은 지속 가능성과 생산효율성을 향상시키기 위해 자동화를 통합해야 한다. 디지털 시대에 IoT와 빅 데이터를 사용하는 지능형 정밀가축사양, ICT-기반 스마트축산은 동물생명산업의 다양한 소스로부터 데이터를 수집, 처리 및 분석할 수 있다. 축사 내부와 외부의 환경 매개 변수를 정밀하게 원격 제어할 수 있는 디지털 시스템으로 구성되어있다. ICT-기반 스마트축산은 인터넷과 휴대폰을 통한 원격 제어를 위해 센싱 기술을 사용하여 동물의 행동복지 및 사양관리를 모니터링 할 수 있다. 농가가 필요로 하는 광범위한 정보의 수집, 저장, 검색 및 보급에 도움이 될 수 있고 새로운 정보서비스를 제공할 수 있다.

도시침수 모의 기술 국내 연구동향 리뷰: 2001-2022 (A review on urban inundation modeling research in South Korea: 2001-2022)

  • 이승수;김보미;최현진;노성진
    • 한국수자원학회논문집
    • /
    • 제55권10호
    • /
    • pp.707-721
    • /
    • 2022
  • 본 총설연구에서는 도시침수 모의 기술의 체계와 발전 과정을 정리하고, 주요 성과와 한계점을 파악하여 향후 연구 방향과 도전 과제를 제시하였다. 이를 위해 2000년대 이후 국내 주요 학술논문집에 수록된 도시침수 모의 관련 논문 160여편을 분석하여 연구의 핵심 주제와 내용을 살펴본 후, 물리 및 데이터 기반 모형의 침수모의 세부 방법론별로 기술의 발전 현황에 대해 정리하였다. 또한, 국내 도시침수 모의 기술의 활용목적별 동향, 국외 및 연관 분야 연구동향에 대해서도 분석하였다. 국내 도시침수 모의 연구에서 Storm Water Management Model (SWMM) 모형을 활용하는 비율이 60%를 넘는 것으로 조사되었으며, 이중 배제(dual drainage)의 도시침수 물리 과정을 상세히 해석하는 국내 기술에 대한 연구가 필요한 것으로 판단되었다. 한편, 딥러닝(deep learning) 등 데이터 기반 모의 기술은 도시침수 해석의 새로운 분야로 자리매김하였다. 다만, 모형 훈련을 위한 극한기상조건에 대한 침수자료는 관측 만으로 확보할 수 없으므로, 고정확도 물리 모형과 데이터 기반 모형 연구는 상호보완적으로 진행되어야 할 필요가 있다. 도시침수 모의 기술은 인공지능이나 IoT, 메타버스 등 타 분야 신기술과의 접목이 활발히 이루어지고 있으며, 기후 위기 적응과 재해 피해 저감을 위해 지속적인 사회적 투자와 융합 연구가 필요한 분야로 판단된다.

정부24 앱 사용자 리뷰 분석을 통한 문제 파악 및 개선방안: 토픽 모델을 통한 통찰 (Problem Identification and Improvement Measures through Government24 App User Review Analysis: Insights through Topic Model)

  • 한무명초;노미진
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.27-35
    • /
    • 2023
  • 4차 산업혁명과 코로나19 대유행의 영향으로 비대면 환경이 활성화되면서, 정부24 앱을 활용한 민원 서비스 이용량이 급증하고 있다. 따라서 공공 앱에 대한 사용자들의 불만과 개선 요구도 늘어나고 있으며 이에 대한 체계적인 관리가 필요하다. 본 연구의 목적은 정부24 앱 사용자의 불만 사항을 분석하여 민원인의 불만 현황을 파악하고 개선방안을 제시하는 것이다. 구글 플레이 스토어에서 2013년 5월 2일부터 2023년 6월 30일까지 데이터 6,344건을 수집하였으며, 이 중 평점이 1점이면서 '좋아요(thumbsUp)'를 1회 이상 받은 1,199건의 데이터를 토픽 모델 분석에 사용하였다. 분석 결과 '증명서 발급 문제', '사이트 작동 및 UI 문제', '사용자 아이디 관련 문제', '업데이트 문제', '공무원의 앱 관리 문제', '예산 낭비 문제((별 한 개도 or 세금이) 아깝다)', '비밀번호 관련 문제'라는 총 7개의 토픽을 추출하였다. 또한, 전체 토픽은 2021년까지 증가세를 보이다가 2022년에는 약간 감소하였으나 2023년에 다시 증가하는 추세를 보여 업데이트와 관리가 매우 시급하다. 본 연구의 결과가 현재 공공 앱의 문제점을 파악하여 앞으로 민원인이 만족하는 공공 앱 개발 및 관리에 도움이 되기를 기대한다.

챗봇 형태로 구현한 사용자 맞춤형 레시피 추천 시스템 (Customized Recipe Recommendation System Implemented in the form of a Chatbot)

  • 안예진;조하영;강신재
    • 한국산학기술학회논문지
    • /
    • 제21권5호
    • /
    • pp.543-550
    • /
    • 2020
  • 음식의 레시피에 대한 관심도가 높아지고 있는 요즘 대부분의 레시피 검색 시스템들은 요리명, 또는 음식 재료명으로 검색하는 정도로 구현이 되어 있으며, 레시피마다 상이한 계량 단위로 식재료의 양에 대한 정보를 제공하기 때문에 자신이 원하는 인분에 맞춰 식재료의 양을 다시 계산해야 하는 불편함이 있다. 이에 본 논문에서는 이러한 불편 사항을 해결하고 메신저 대화에 익숙한 사용자들에게 맞춤형 서비스를 제공하기 위해 챗봇 형태의 사용자 맞춤형 레시피 추천 시스템을 구현하였다. 레시피에 대한 사용자의 리뷰와 별점, 조회 수 등을 기반으로 인기 있는 레시피들을 선별하고 전처리를 통해 해당 레시피별로 주요 단어와 식재료 양, 조리 순서 등 필요한 정보들만을 추출, 가공한 뒤, 그를 통해 얻은 약 10만 개의 데이터를 기반으로 사용자가 입력한 레시피명, 식재료명, 제외할 식재료명 등을 분석해 레시피를 필터링하고, 사용자가 입력한 인분을 기준으로 재계량하여 레시피를 추천하는 시스템을 구현하였다. 사용자의 요구에 따른 레시피 추천 결과물에 대한 만족도를 평가하여 90.5%의 결과를 얻을 수 있었다.

BI기술을 적용한 약물부작용감시시스템 개발 (Development of Adverse Drug Event Surveillance System using BI Technology)

  • 이영호;강운구;박래웅
    • 한국콘텐츠학회논문지
    • /
    • 제9권2호
    • /
    • pp.106-114
    • /
    • 2009
  • 본 연구에서는 국내 약물부작용감시시스템 연구의 활성화 및 상용화를 목표로 약물부작용 시스템 사례를 분석하고 비즈니스인텔리전스(BI) 기술을 적용하여 약물부작용감시시스템의 기술구조를 제시한다. 최근에는 전자적과정(electronic review)과 수동적 리뷰과정(manual review process)을 병행하는 방법으로 약물부작용을 탐지하는 추세이며, 본 연구에서는 BI 기술중 ETL(Extract, Transform, Loading)을 적용하여 CDW(Clinical DataWarehouse)구축하였다. 부작용 판별 결과 처방의사 701명, 대상 환자는 남자 1,528명, 여자 1,531명으로 기간 내 환자는 총 3059명 이었으며 이중에서 약물부작용으로 의심되는 사례는 전체 318,222건 중에서 약 0.6%에 해당하는 2,085건으로 확인되었다. 이를 신호별로 분류하면 단순유형의 T.Bilirubin> 3mg/dL(부작용 유형-LabR0005)가 전체 2085건에서 548건으로 가장 높았다.

트위터를 활용한 감성 기반의 영화 유사도 측정 (Measuring Similarity Between Movies Based on Sentiment of Tweets)

  • 김경민;김동윤;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.292-297
    • /
    • 2014
  • 최근 소셜 네트워크 서비스가 보편화되면서, 이를 활용하여 사람들의 의견이나 감성 등을 파악하기 위한 감성분석 연구가 다양한 분야 진행되고 있다. 기존의 영화 관련 연구의 경우, 대부분이 영화평에 대해 단순 긍/부정으로 감성분석을 하여, 영화에 대한 선호도를 파악하는 데 그쳤다. 사람의 감성은 단순 긍/부정이 아닌 다양한 감성으로 분류될 수 있는데 반해, 이분법적 감성분석은 영화의 평점 정보에서 손쉽게 얻을 수 있는 선호도와 유사한 분석을 하는데 그친다. 따라서 영화의 평점보다 다양하고 유용한 정보를 얻기 위해서는, 영화 리뷰를 세분화된 감성으로 분석하여 영화에 대해 느낀 감성을 다양한 기준으로 분류할 필요가 있다. 본 논문에서는 Thayer 모델을 기반으로 감성 분류 기준을 세우고, 수집한 영화 관련 트윗을 이용하여 각 영화에 대해 대중이 느끼는 감성을 분석한다. 분석된 영화에 대한 감성 비율을 유클리드거리, 코사인유사도, 피어슨 상관계수를 이용하여 영화간의 유사도를 측정하였다. IMDB에서 제공하는 유사 영화 정보를 바탕으로 본 논문에서 제안하는 방식의 유용성을 검증하였다.