• 제목/요약/키워드: Online school

검색결과 2,511건 처리시간 0.029초

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.

CNN 보조 손실을 이용한 차원 기반 감성 분석 (Target-Aspect-Sentiment Joint Detection with CNN Auxiliary Loss for Aspect-Based Sentiment Analysis)

  • 전민진;황지원;김종우
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.1-22
    • /
    • 2021
  • 텍스트를 바탕으로 한 차원 기반 감성 분석(Aspect-Based Sentiment Analysis)은 다양한 산업에서 유용성을 주목을 받고 있다. 기존의 차원 기반 감성 분석에서는 타깃(Target) 혹은 차원(Aspect)만을 고려하여 감성을 분석하는 연구가 대다수였다. 그러나 동일한 타깃 혹은 차원이더라도 감성이 나뉘는 경우, 또는 타깃이 없지만 감성은 존재하는 경우 분석 결과가 정확하지 않다는 한계가 존재한다. 이러한 문제를 해결하기 위한 방법으로 차원과 타깃을 모두 고려한 감성 분석(Target-Aspect-Sentiment Detection, 이하 TASD) 모델이 제안되었다. 그럼에도 불구하고, TASD 기존 모델의 경우 구(Phrase) 간의 관계인 지역적인 문맥을 잘 포착하지 못하고 초기 학습 속도가 느리다는 문제가 있었다. 본 연구는 TASD 분야 내 기존 모델의 한계를 보완하여 분석 성능을 높이고자 하였다. 이러한 연구 목적을 달성하기 위해 기존 모델에 합성곱(Convolution Neural Network) 계층을 더하여 차원-감성 분류 시 보조 손실(Auxiliary loss)을 추가로 사용하였다. 즉, 학습 시에는 합성곱 계층을 통해 지역적인 문맥을 좀 더 잘 포착하도록 하였으며, 학습 후에는 기존 방식대로 차원-감성 분석을 하도록 모델을 설계하였다. 본 모델의 성능을 평가하기 위해 공개 데이터 집합인 SemEval-2015, SemEval-2016을 사용하였으며, 기존 모델 대비 F1 점수가 최대 55% 증가했다. 특히 기존 모델보다 배치(Batch), 에폭(Epoch)이 적을 때 효과적으로 학습한다는 것을 확인할 수 있었다. 본 연구에서 제시된 모델로 더욱 더 세밀한 차원 기반 감성 분석이 가능하다는 점에서, 기업에서 상품 개발 및 마케팅 전략 수립 등에 다양하게 활용할 수 있으며 소비자의 효율적인 구매 의사결정을 도와줄 수 있을 것으로 보인다.

협력필터링과 사회연결망을 이용한 신규고객 추천방법에 대한 연구 (The Research on Recommender for New Customers Using Collaborative Filtering and Social Network Analysis)

  • 신창훈;이지원;양한나;최일영
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.19-42
    • /
    • 2012
  • 고객이 상품을 구매하는 패턴이 빠르게 변화하고 있다. 오프라인에서 고객이 직접 상품을 보고, 체험한 후 구매하던 패턴이 TV홈쇼핑, 인터넷 쇼핑 등 고객이 편리한 장소에서 자유롭게 구매하는 방법으로 확산되었다. 이처럼 구매 가능한 상품의 범위는 점점 더 다양해지고 있지만 이로 인하여 고객이 상품을 구매할 때 생기는 번거로움은 더욱 커지고 있다. 오프라인에서는 물건을 직접보고 구매하기 때문에 반품율이 낮은 반면에 온라인 구매 물품은 배송과 환불 등에서 복잡한 일들이 많이 발생한다. 온라인을 통해서 물건을 구매할 때 상품에 대한 사전 정보는 매우 한정적이며 실제로 물건을 구매했을 경우 고객이 생각했던 것과 다를 수 있다. 이러한 결과는 결국 고객의 불만족 및 구매취소로 이어진다. 또한 TV홈쇼핑이나 인터넷 쇼핑 등을 통해서 물건을 구매할 때 고객들은 이미 상품을 구매한 고객의 리뷰에도 관심을 기울이고 있다. 좋은 평가를 받은 상품은 더 많은 매출로 이어질 수 있기 때문에 기업은 이에 관심을 기울일 필요가 있다. 고객의 욕구를 만족시킬 수 있는 적절한 상품을 추천해 주고 이를 구매로 연결시키는 것은 기업의 이윤 창출과 직결되기 때문에 그 중요성이 강조된다. 고객을 위한 추천방법은 베스트셀러기반 추천방법, 인구통계 정보기반 추천방법, 최소질의대상 상품결정방법, 내용필터링기법, 협력필터링기법 등이 존재하며, 이에 대한 많은 연구가 활발하게 진행되고 있다. 그러나 위의 방법들을 신규고객에게 적용하는 것에는 문제가 발생할 수 있다. 신규고객은 상품에 대한 과거 구매이력이 존재하지 않기 때문이다. 이를 해결하기 위한 방안으로 가입 시, 고객의 인구통계적 정보나 선호도에 대한 응답을 유도하는 방법을 활용할 수 있다. 그러나 고객이 이에 대한 번거로움을 느낄 수도 있으며, 불완전한 답변을 하게 되면 추천의 정확도는 감소한다. 최근 이미 상품을 구매한 고객의 리뷰 및 기업에서 추천하는 제품에 의존하는 고객들이 증가하면서 이를 악용하는 사례도 자주 등장한다. 결국 추천에 대한 고객들의 신뢰는 감소하게 될 것이다. 따라서 좀 더 명확한 방식의 추천시스템이 절실하며, 이것이 개선된다면 는 곧 고객들의 신뢰 증가로 이어질 것이다. 본 연구에서는 협력필터링기법과 사회연결망기법의 중심성을 결합한 분석을 시도하였다. 중심성은 신규고객의 선호도를 기존고객들의 데이터를 통하여 유추하기 위하여 활용되는 정보이다. 기존 연구들에서는 기존고객들의 구매 가운데 구매성향이 유사한 고객들의 정보에 초점을 맞추고 있으며 구매성향이 다른 고객들의 정보에 대한 분석은 이루어지고 있지 않다. 그러나 이처럼 구매성향이 서로 다른 고객들의 정보를 활용한다면 추천의 정확성이 더 향상되지 않을까 하는 점을 기반으로 데이터들을 다양한 방식으로 분석하였다. 연구에 사용된 데이터는 미네소타대학의 GroupLens Research Project팀이 협력필터링기법을 통하여 영화를 추천하기 위해 만든 MovieLens의 데이터이다. 이는 1,684편의 영화에 대한 선호도를 943명이 응답한 정보로 총 100,000개의 데이터가 있다. 이를 시간 순으로 구분하여 초기 50,000개의 데이터를 기존고객의 데이터로, 후기 50,000개의 데이터를 신규고객의 데이터로 사용하였다. 이 때, 신규고객과 기존고객은 연구자가 임의로 구분한 것이다. 따라서 신규고객이라고 표현되는 고객의 데이터는 실제로 추천시스템을 통해 정보를 제공받은 고객이라고는 볼 수 없다. 그러나 현실적으로 실제 신규고객의 데이터를 수집하는 것이 쉽지 않기 때문에 전체 고객의 정보를 시간 순으로 구분하고 신규고객으로 분류한 것임을 밝혀둔다. 제시된 추천시스템은 [+]집단 추천시스템, [-]집단 추천시스템, 통합 추천시스템으로 총 3가지이다. [+]집단 추천시스템은 기존의 연구들과 유사한 방식으로 유사도가 높은 고객들을 신규고객의 이웃고객으로 분석하였다. 유사도가 높다는 것은 다른 고객들과 상품 구매에 대한 성향이 유사한 것을 의미한다. 또한 [-]집단 추천시스템은 유사도가 낮고 다른 고객들과 상품의 구매패턴이 반대에 가까운 고객들의 데이터를 활용하였으며, 통합 추천시스템은 [+]집단 추천시스템과 [-]집단 추천시스템을 결합한 방식이다. [+]집단 추천시스템과 [-]집단 추천시스템에서 각각 추천된 영화 가운데 중복되는 영화만을 신규고객에게 추천하는 방식이다. 다양한 방법의 시도를 통하여 적절한 추천시스템을 찾고, 추천시스템의 정확도를 향상시키는데 그 목적이 있다. 활용된 데이터의 분석 결과는 통합 추천시스템이 정확도가 가장 높았으며 [-]집단 추천시스템, [+]집단 추천시스템의 순인 것으로 나타났다. 이는 통합 추천시스템이 가장 효율적일 것이라는 연구자의 추측과 일치하는 결과이다. 각각의 추천시스템은 정확도의 변화를 쉽게 비교할 수 있도록 등고선지도 및 그래프를 이용하여 나타냈다. 연구의 한계점으로는 연구자가 제시한 통합 추천시스템과 [-]집단 추천시스템에 대한 정확도는 향상되었지만 이는 임의로 구분한 기준을 바탕으로 분석하였다는 점이다. 실제 추천된 영화를 바탕으로 신규고객이 영화를 선택 한 것이 아니라 기존고객의 데이터를 임의로 분류하였기 때문이다. 따라서 이는 추천 영화가 실제 고객에 미친 영향이 아니라는 한계가 존재한다. 또한 영화가 아닌 다른 상품에 대해서 이 추천시스템을 적용하였을 경우 추천 정확도에는 차이가 있을 수 있다. 따라서 추천시스템을 적용할 때에는 각 상품 및 고객집단의 특성에 적합한 적용이 필요하다.

한식 관련 분야 전문가들의 한국인 상용 음식과 식품에 대한 인식 (Perception of common Korean dishes and foods among professionals in related fields)

  • 이상은;강민지;박영희;정효지;양윤경;백희영
    • Journal of Nutrition and Health
    • /
    • 제45권6호
    • /
    • pp.562-576
    • /
    • 2012
  • 본 연구는 식품, 영양, 조리 분야의 전문가를 대상으로 하여 국민건강영양조사 (제4기, 2007~2009년)의 식사섭취자료에서 추출한 총 512종의 상용 음식 및 식품에 대한 한식 인식률을 온라인 설문조사를 통해 살펴보았다. 1) 본 연구에서는 온라인 설문조사에 참여한 한식 관련 분야 전문가 117명의 한식 인식률에 대한 자료를 분석하였다. 한식 인식률은 512종 항목에 대해 '한식이다'라고 응답한 대상자의 비율을 구해 5개 범주 (25% 미만, 25~50% 미만, 50~75% 미만, 75~90% 미만, 90% 이상)로 분류하였고, 국민건강영양조사의 28개 음식군체계에서 '당류'의 '설탕'과 '유지류'의 마요네즈와 참기름은 조리 시 주로 사용되는 용도를 반영해 '장류, 양념류'로 재분류한 후 '유지류'군은 생략하고 '죽 및 스프류'군을 각각 '죽류'군과 '스프류'군으로 분리시킨 28개 음식군으로 체계화하여 분석하였다. 2) 조사대상자들의 일반적 특성을 살펴보면, 성별은 여자가 남자에 비해 7배 정도 많은 것으로 나타났고 (p < 0.0001) 연령은 대부분 40~60세 미만이었다. 전문 분야별 대상자 수는 조리, 영양, 식품 분야 순으로 많았으며, 자신의 전문 분야에 10년 이상 종사한 사람의 비율이 약 90%를 차지하는 것으로 나타났다. 해외거주 기간이 1년 미만인 대상자와 반대로 5년 이상의 장기 해외거주 경험을 가진 대상자들의 비율은 각각 34%, 32%로 비슷하게 나타났다. 3) 조사대상자의 90% 이상이 '한식이다'라고 응답한 음식은 28개 음식군에 포함된 총 512종의 항목 중에 266종으로 52%였다. 각 음식군별로 설문에 제시된 항목 중 '밥류' 43%, '면류 및 만두류' 41%, '죽류' 57%, '국 및 탕류' 90%, '찌개 및 전골류' 86%, '찜류' 93%, '구이류' 50%, '전, 적 및 부침류' 82%, '볶음류' 73%, '조림류' 73%, '나물, 숙채류' 100%, '생채, 무침류' 71%, '김치류' 100%, '젓갈류' 100%, '장아찌, 절임류' 58%, '장류, 양념류' 41%, '곡류, 서류 제품' 50%, '과일류' 6%, '채소, 해조류' 17%, '음료 및 차류' 26%, '주류' 20%, '빵 및 과자류' 3%에 해당하는 항목을 대상자의 90% 이상이 '한식이다'라고 인식하고 있는 것으로 조사되어 나물류, 김치류, 젓갈류의 음식을 우리나라의 대표적 전통 음식이라고 생각하고 있음을 알 수 있었다. 그러나, '튀김류', '수, 조, 어, 육류', '두류, 견과 및 종실류', '유제품류 및 빙과류', '당류', '스프류'는 한식 인식률이 90% 이상인 항목이 없는 것으로 나타났으며, '유제품류 및 빙과류', '당류', '스프류' 항목 대부분은 한식 인식률이 25% 미만인 것으로 나타나 이들 음식군에 대해 대상자들이 '한식이다'라고 인식하는 비율이 매우 낮았다. 4) 대상자의 전문 분야에 따라 512종의 항목에 대한 한식 인식률의 차이가 있는지 분석한 결과 35종 항목에 대해 유의적인 차이를 보였다 (p < 0.05). 한식 인식률에 전문 분야별 유의적 차이가 있었던 35종 항목 중에 조리 분야 전문가들이 나머지 두 분야 전문가들에 비해 높은 한식 인식률을 보인 항목이 더 많았고, 반대로 식품 분야 전문가들이 두 그룹에 비해 상대적으로 낮은 한식 인식률을 보인 항목이 많은 것으로 나타났다. 5) 대상자들의 특성에 따른 한식 인식률을 분석한 결과 해외거주 경험이 한식 인식률에 유의한 영향을 미치는 것으로 나타났다. 대상자들을 해외거주 기간에 따라 1년 미만, 1~3년 미만, 3~5년 미만, 5년 이상으로 분류하여 한식 인식률의 차이를 비교했을 때 그룹 간 유의적인 차이를 보였으며 (p < 0.05) 해외거주 기간이 5년 이상인 전문가 그룹에서 512종의 항목 중 '한식이다'라고 응답한 비율이 해외거주 기간이 1년 미만인 그룹에 비하여 유의적으로 낮았다 (p < 0.05). 6) 개별 음식과 식품 단위로 한식 인식률을 살펴보았을 때 만두에서 보듯이 조리방법이나 함께 사용된 주재료 또는 부재료가 한식 인식률에 영향을 미치는 것으로 나타났으며, 떡만둣국, 김치만두, 부대찌개를 예로 살펴보면 90% 이상의 한식 인식률을 보이는 떡과 김치 같은 한식 인식률이 높은 식재료를 같이 사용하여 음식을 조리할 경우 한식 인식률이 높아지는 것으로 나타났다. 위의 연구 결과들을 요약해 보면 식품, 영양, 조리 분야의 전문가들은 떡, 나물, 김치, 젓갈에 대한 한식 인식률이 매우 높았으며 '한식이다'라고 인식하는데 있어서 조리방법과 같이 사용된 식재료에 대해 고려하는 것으로 나타났다. 또한 본인이 종사하는 전문 분야에 따라 일부 음식이나 식품에 대한 한식 인식률에 차이가 있었고 해외거주 경험에 따라 한식이라고 인식하는 음식과 식품의 비율에 차이가 있었다는 사실에 근거해 보았을 때 대상자들의 경력, 지식, 경험과 같은 일반적 특성들이 한식의 인식률에 미치는 영향이 크다고 할 수 있겠다. 따라서 한식이 무엇인지에 대한 설득력 있는 정의를 정립하기 위해서는 본 연구 결과가 다른 한식 관련 전문가들에서도 재현되는지 여부를 검증하는 후속 연구가 필요하며, 더불어 한식이 무엇인지에 대한 보편적인 정의를 내리기 위해서 다양한 계층에서 각기 특성에 따라 한식에 대한 인식에 영향을 미치는 요인을 파악한 후 체계화 시키는 작업이 필요할 것으로 사료된다. 또한 국제교류 증가에 따른 외국의 다양한 식문화와 식재료의 국내 유입 증가와 전세계적으로 활발히 이뤄지는 식품의 유통으로 인해 급격한 식생활 변화가 일어나고 있는 현대 사회에서 우리나라 고유 음식과 식문화를 계승하고 발전시키기 위해서는 다양한 계층에서 이루어진 한식에 대한 인식 연구의 결과를 바탕으로 명확하게 정의되지 않은 한식에 대한 개념을 정립하는 것이 시급할 것으로 사료된다.

텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축 (Construction of Event Networks from Large News Data Using Text Mining Techniques)

  • 이민철;김혜진
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 전통적으로 신문 매체는 국내외에서 발생하는 사건들을 살피는 데에 가장 적합한 매체이다. 최근에는 정보통신 기술의 발달로 온라인 뉴스 매체가 다양하게 등장하면서 주변에서 일어나는 사건들에 대한 보도가 크게 증가하였고, 이것은 독자들에게 많은 양의 정보를 보다 빠르고 편리하게 접할 기회를 제공함과 동시에 감당할 수 없는 많은 양의 정보소비라는 문제점도 제공하고 있다. 본 연구에서는 방대한 양의 뉴스기사로부터 데이터를 추출하여 주요 사건을 감지하고, 사건들 간의 관련성을 판단하여 사건 네트워크를 구축함으로써 독자들에게 현시적이고 요약적인 사건정보를 제공하는 기법을 제안하는 것을 목적으로 한다. 이를 위해 2016년 3월에서 2017년 3월까지의 한국 정치 및 사회 기사를 수집하였고, 전처리과정에서 NPMI와 Word2Vec 기법을 활용하여 고유명사 및 합성명사와 이형동의어 추출의 정확성을 높였다. 그리고 LDA 토픽 모델링을 실시하여 날짜별로 주제 분포를 계산하고 주제 분포의 최고점을 찾아 사건을 탐지하는 데 사용하였다. 또한 사건 네트워크를 구축하기 위해 탐지된 사건들 간의 관련성을 측정을 위하여 두 사건이 같은 뉴스 기사에 동시에 등장할수록 서로 더 연관이 있을 것이라는 가정을 바탕으로 코사인 유사도를 확장하여 관련성 점수를 계산하는데 사용하였다. 최종적으로 각 사건은 각의 정점으로, 그리고 사건 간의 관련성 점수는 정점들을 잇는 간선으로 설정하여 사건 네트워크를 구축하였다. 본 연구에서 제시한 사건 네트워크는 1년간 한국에서 발생했던 정치 및 사회 분야의 주요 사건들이 시간 순으로 정렬되었고, 이와 동시에 특정 사건이 어떤 사건과 관련이 있는지 파악하는데 도움을 주었다. 또한 일련의 사건들의 시발점이 되는 사건이 무엇이었는가도 확인이 가능하였다. 본 연구는 텍스트 전처리 과정에서 다양한 텍스트 마이닝 기법과 새로이 주목받고 있는 Word2vec 기법을 적용하여 봄으로써 기존의 한글 텍스트 분석에서 어려움을 겪고 있었던 고유명사 및 합성명사 추출과 이형동의어의 정확도를 높였다는 것에서 학문적 의의를 찾을 수 있다. 그리고, LDA 토픽 모델링을 활용하기에 방대한 양의 데이터를 쉽게 분석 가능하다는 것과 기존의 사건 탐지에서는 파악하기 어려웠던 사건 간 관련성을 주제 동시출현을 통해 파악할 수 있다는 점에서 기존의 사건 탐지 방법과 차별화된다.

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.

종합 평점과 다기준 평점을 선택적으로 활용하는 협업필터링 기반 하이브리드 추천 시스템 (A Hybrid Recommender System based on Collaborative Filtering with Selective Use of Overall and Multicriteria Ratings)

  • 구민정;안현철
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.85-109
    • /
    • 2018
  • 추천시스템은 사용자의 과거 구매행동을 통해 향후 구매할 것이라고 예상되는 제품을 자동으로 검색하여 추천해준다. 특히 전자상거래 기업의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로 가치가 있다. 하지만, 전통적인 추천시스템, 특히 학계 및 산업계에서 가장 널리 사용되고 있는 전통적인 협업필터링 기법은 단일차원의 '종합 평점'만을 고려하여 추천결과를 생성하도록 설계되어 있어, 사용자들의 정확한 니즈를 이해하고 대응하는데 근본적인 한계가 있다. 최근에는 전자 상거래 기업들도 고객들로부터 보다 다각화된, 다기준 방식으로 피드백을 받고 있다. 특히 다기준 평점은 정량적으로 입력되는 정보이므로 상대적으로 분석 및 처리가 용이하다는 장점이 있다. 그러나 다기준 평점 역시 사전에 정해진 기준에 대해서만 사용자의 피드백이 이루어지기 때문에, 보다 상세하게 사용자의 의견을 이해하여 추천에 반영하는 데에는 한계가 있다. 이에 본 연구는 다기준 평점 정보와 선택적 협업필터링의 서로 다른 접근방법을 통해 도출된 추천결과를 종합하여, 최종적으로 추천 대상리스트를 산출할 수 있는 하이브리드 기술을 제안한다. 본 연구에서 제안한 연구모형의 유용성을 검증하기 위해, 식음료점(식당, 카페 등)에 대한 실제 이용자를 대상으로 온라인 설문을 통해 종합 평점과 다기준 평점을 수집하였으며, 데이터를 학습용과 검증용으로 구분하여 학습시키고 성과를 평가하였다. 이 기법은 결합 함수 기반 접근법과 사용자마다 구매의사결정의 체계가 다르다는 전제하에, 사용자들을 유형화하고, 유형에 따라 정보원을 선택적으로 활용하는 협업필터링 알고리즘을 활용했다. 실험결과, 제안 알고리즘을 통한 추천 방법이 단일 차원을 고려하는 전통적인 협업필터링과 비교해 더 우수한 예측정확도를 나타냄을 확인했다. 아울러, 본 연구가 제안하는 다기준 평점과 선택적 협업필터링 알고리즘을 종합하여 추천하는 방법이, 단순히 다기준 평점을 고려했을 때 보다 통계적으로 유의한 수준의 정확도의 개선이 이루어짐을 확인할 수 있었다.

사회연결망 분석을 활용한 연관규칙 확장기법 (Extension Method of Association Rules Using Social Network Analysis)

  • 이동원
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.111-126
    • /
    • 2017
  • 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 상품 탐색 시간을 줄여주며 판매자의 매출 증대에 크게 기여한다. 이는 주문과 같은 거래의 빈도를 기반으로 생성되므로, 통계적으로 판매 확률이 높은 상품을 효과적으로 선별할 수 있다. 하지만, 판매 가능성이 높은 경우라도 신상품처럼 판매 초기에 거래 건수가 충분하지 않은 상품은 추천에서 누락될 수 있다. 연관 추천에서 누락된 상품은 이로 인해 노출 기회를 잃게 되고, 이는 거래 건수 감소로 이어져, 또 다시 추천 기회를 잃는 악순환을 겪을 수도 한다. 따라서, 충분한 거래 건수가 쌓이기 전까지 초기 매출은 일정 기간 동안 정체되는 현상을 보이는데, 의류 등과 같이 유행에 민감하거나 계절 변화에 영향을 많이 받는 상품은 이로 인해 매출에 큰 타격을 입을 수도 있다. 본 연구는 이와 같이 거래 초기의 낮은 거래 빈도로 인해 잘 드러나지 않는 상품 간의 잠재적인 연관성을 찾아 추천 기회를 확보할 수 있도록 연관 규칙을 확장하기 위한 목적으로 수행되었다. 두 상품 간에 직접적인 연관성이 나타나지 않더라도 다른 상품을 매개로 두 상품 간의 잠재적 연관성을 예측할 수 있을 것이며, 이런 연관성은 주문에서 나타나는 상품 간 상호작용으로 표현될 수 있으므로, 사회연결망 분석을 활용한 분석을 시도하였다. 사회연결망 분석기법을 통해 각 상품의 속성과 두 상품 간 경로의 특성을 추출하고 회귀분석을 실시하여, 두 상품 간 경로의 최단 거리 및 경로의 개수, 각 상품이 얼마나 많은 상품과 연관성을 갖는지, 두 상품의 분류 카테고리가 어느 정도 일치하는지가 두 상품 간의 잠재적 연관성에 미친다는 것을 확인하였다. 모형의 성능을 평가하기 위해, 일정 기간의 주문 데이터로부터 연결망을 구성하고, 이후 10일 간 생성될 상품 간 연관성을 예측하는 실험을 진행하였다. 실험 결과는 모형을 적용하지 않는 경우보다 제안 모형을 활용할 때 훨씬 많은 연관성을 찾을 수 있음을 보여준다.

Emoticon by Emotions: 소비자 감성 기반 이모티콘 추천 시스템 개발 (Emoticon by Emotions: The Development of an Emoticon Recommendation System Based on Consumer Emotions)

  • 김건우;박도형
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.227-252
    • /
    • 2018
  • 인터넷의 발달을 통해 지속적으로 인스턴트 커뮤니케이션이 발달해왔다. 인스턴트 커뮤니케이션에서 가장 대표적인 것이 메신저 애플리케이션이다. 메신저 애플리케이션에서 이모티콘은 송신자의 감정 전달을 보완하기 위해 활용됐다. 메신저 애플리케이션 송신자의 감정 전달에 약한 모습을 보이는데 그 이유는 면대면 커뮤니케이션이 아니기 때문이다. 이모티콘은 과거 화자의 기분 상태를 나타내는 기호로만 사용됐다. 그러나 현재는 이모티콘은 감정 전달 뿐만 아니라 개인의 특성과 개성을 나타내고 싶어 하는 소비자의 심리를 반영하는 형태로 발전해가고 있다. 이모티콘의 사용 환경이 개선되었고, 이모티콘 자체가 발전함으로써 이모티콘 자체에 대한 관심도는 증가하였다. 대표적인 예로 카카오톡, 라인, 애플 등에서 서비스를 진행하고 있으며, 관련 컨텐츠 상품의 매출도 지속적으로 증가할 것으로 전망하고 있다. 이모티콘 자체의 관심도 증가와 관련 사업의 성장세에도 불구하고 현재 적절한 이모티콘 추천 시스템이 부재하다. 국내 점유율 90% 이상의 메신저 애플리케이션인 카카오톡조차 단순히 인기 순이나 최근 순, 혹은 간략한 카테고리 별로 분류한 정도이다. 소비자들은 원하는 이모티콘을 찾기 위해서 스크롤을 계속해서 내려야 하는 불편함이 있으며, 본인이 원하는 감성의 이모티콘을 찾기 어렵다. 소비자들이 편의성 향상과 기업의 이모티콘 관련 사업의 판매 매출 증가를 위해 소비자가 원하는 이모티콘을 추천해줄 수 있는 이모티콘 추천 시스템이 필요하다. 적절한 이모티콘을 추천하기 위해서 소비자가 이모티콘을 보고 느낀 감성에 대해 정량화할 필요성이 있다. 정량화를 통해 소비자가 원하는 이모티콘 셋이 가진 특징과 감성에 대해 분석할 수 있으며, 분석 결과를 토대로 소비자에게 이모티콘을 추천할 수 있다. 이모티콘은 메타데이터화의 방법으로 정량화가 가능하다. 메타데이터화 방법은 빅데이터 시대에 비정형, 반정형 데이터에 대해서 의미를 추출하기 위해 데이터를 구조화 혹은 조직화하는 작업이다. 비정형 데이터인 이모티콘을 메타데이터화를 통해 구조화한다면, 쉽게 소비자가 원하는 감성 형태로 분류할 수 있을 것으로 생각한다. 정확한 감성을 추출하기 위해 감정과 관련된 선행 연구를 통해 7개의 공통 감성 형용사와 한국어에서만 나타나는 은유 혹은 표현적 특징들을 반영하기 위해 하위 세부 표현들까지 고려했다. 이모티콘의 가장 큰 특징인 캐릭터를 기반으로 "표상", "형상", "색상"의 범주에서 세부 하위 감성들을 수집했다. 정확도 높은 추천 시스템을 설계하기 위해 감성 지표만이 아니라 객관적 지표도 고려하였다. 메타데이터화 방법을 통해 이모티콘이 갖고 있는 캐릭터의 특징을 객관적 지표로 14개, 감성 지표로 활용하기 위해 감성 형용사를 36개를 추출하였다. 추출된 감성 형용사는 대비되는 형용사로 구성하여 총 18개로 줄였으며, 18개의 감성 형용사는 카카오톡의 이모티콘을 인기 순으로 임의의 40개 셋을 대상으로 측정하였다. 측정을 위해 이모티콘을 평가할 조사 대상자 온라인으로 모집하였고, 277명의 20~30대의 이모티콘을 구매한 경험이 있는 소비자를 대상으로 설문을 진행하였다. 설문응답자에게 서로 다른 5개의 이모티콘 셋을 평가하도록 하였다. 평가 결과 수집된 18개의 감정 형용사는 요인분석을 통해 감성 지표 요인으로 추출하였다. 추출된 소비자 감성 지표의 요인은 "코믹", "부드러움", "모던함", "투명함"이었다. 이모티콘의 객관적 지표와 감성 지표 요인을 활용하여 소비자 만족과의 관계를 분석하였고, 객관적 지표와 감성 지표 간의 관계도 분석하였다. 이 과정에서 객관적 지표가 소비자 태도에 바로 영향을 주는 것이 아니라 감성 지표 요인을 통해 소비자 태도에 영향을 주는 매개 효과가 있음을 확인하였다. 분석 결과는 소비자의 감성 평가 메커니즘을 밝혀냈고, 소비자의 이모티콘 감성 평가 메커니즘은 객관적 지표가 감성 지표 요인에 영향을 미치며, 감성 지표 요인은 소비자 만족에 영향을 미치는 관계였다. 따라서 감성 지표 요인의 네 가지만으로 이모티콘 추천 시스템을 설계하였고, 추천 방법은 각 감성과의 거리를 유클리디안 거리로 측정하여 거리의 차가 0에 가까울수록 비슷한 감성으로 정의하였다. 본 연구에서 제안한 이모티콘 시스템의 검증을 위해 각 감성 지표 요인과 소비자 만족의 평균을 지표 값으로 활용하여 각 이모티콘 셋의 감성 패턴을 그래프로 비교하였고, 추천된 이모티콘들과 선택된 이모티콘이 대체로 비슷한 패턴을 그리는 것을 확인하였다. 정확한 검증을 위해 사전 조사하였던 소비자를 대상으로 이모티콘 추천 시스템이 제시한 결과와 유사하게 평가하였는지 유사 순위를 세 구간으로 나누어 비교하였고, 순위별 예측 정확도는 결과 1순위 81.02%, 2순위 76.64%, 3순위 81.63%였다. 본 연구의 결과는 학문적, 실무적으로 다양한 분야에서 활용 가능한 방법론을 제시하였으며, 기존에 없던 이모티콘 추천 시스템의 설계를 통해 소비자에게는 편의와 이모티콘을 서비스하는 기업에는 매출증대의 효과를 가져올 것으로 예상한다. 그리고 본 연구를 통해 지능형 이모티콘 시스템으로 발전할 수 있는 단초를 제공했다는 점에서 의미가 있다. 본 연구에서 제안한 감성 요인들을 활용하여 감성 라이브러리로 사용함으로써, 새로운 이모티콘 출시 시 감성 평가의 지표로 활용할 수 있다. 축적된 감성 라이브러리와 기업의 판매 데이터, 매출 정보, 소비자 데이터를 결합하여 본 연구에서 제안한 추천 시스템을 복합형 추천 시스템으로 발전시켜 단순 소비자의 편의성이나 매출 증가뿐만 아니라 기업에서 전략적으로 활용 가능한 지적 자산으로 활용할 수 있을 것으로 판단한다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).