• Title/Summary/Keyword: and Bag of Words

Search Result 89, Processing Time 0.026 seconds

상품명 및 리뷰를 기반으로 한 브랜드-트렌드 연관성을 통한 이커머스 경쟁력 강화 (Enhancing E-commerce Competitiveness through Brand-Trend Association Based on Product Names and Reviews)

  • 신기영;정헌영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.596-599
    • /
    • 2023
  • 본 연구는 브랜드가 시장 트렌드를 파악하고 이를 활용하여 경쟁 우위를 확보하고 성장하는 방법을 탐구하고 있다. 이를 위해 세 가지 핵심 요소를 고려하였다. 첫째, 시장의 트렌드 정보를 파악하기 위해 검색 포털 사이트의 검색어 랭킹 정보를 활용하였다. 둘째, 브랜드 상품과 트렌드의 연관성을 분석하기 위해 상품 타이틀과 리뷰 데이터를 활용하였다. 셋째, 각 상품의 브랜드 중요성을 추정하기 위해 리뷰 수, 리뷰 길이, 표현의 다양성 등을 고려했다. 연구 결과, 브랜드는 시장 트렌드를 더욱 정확하게 이해하고 파악함으로써 경쟁 우위를 확보하고 성장할 수 있는 기회를 제공함을 확인하였다. 더불어, 이를 통해 브랜드는 소비자의 요구를 더욱 효과적으로 충족시키고 고객 경험을 개선하는데 기여할 수 있을 것으로 기대된다.

  • PDF

격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링 (A Similarity-based Dialogue Modeling with Case Frame and Word Embedding)

  • 이호경;배경만;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.220-225
    • /
    • 2016
  • 본 논문에서는 격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링을 제안한다. 기존의 유사도 기반 대화 모델링 방법은 형태소, 형태소 표지, 개체명, 토픽 자질, 핵심단어 등을 대화 말뭉치에서 추출하여 BOW(Bag Of Words) 자질로 사용하였기 때문에 입력된 사용자 발화에 포함된 단어들의 주어, 목적어와 같은 문장성분들의 위치적 역할을 반영할 수 가 없다. 또한, 의미적으로 유사하지만 다른 형태소를 가지는 문장 성분들의 경우 유사도 계산에 반영되지 않는 형태소 불일치 문제가 존재한다. 이러한 문제점을 해결하기 위해서, 위치적 정보를 반영하기 위한 문장성분 기반의 격틀과 형태소 불일치 문제를 해결하기 위한 워드 임베딩을 활용하여 개선된 유사도 기반 대화 모델링을 제안한다. 개선된 유사도 기반 대화 모델링은 MRR 성능 약 92%의 성능을 나타낸다.

  • PDF

장면 분류를 위한 클래스 기반 클러스터링 (Bag-of-Words Scene Classification based on Supervised K-means Clustering)

  • 김준형;류승철;김승룡;손광훈
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.248-251
    • /
    • 2013
  • 컴퓨터 비전에서 BoW를 이용한 장면 분류 기법에 대한 연구가 활발히 진행되고 있다. BoW 기법의 장면 분류는 K-means 클러스터링을 통하여 코드북을 생성하는 과정에서 트레이닝 이미지의 클래스 정보를 활용하지 않기 때문에 성능이 제한적이라는 문제점을 가지고 있다. 본 논문에서는 BoW를 이용한 장면 분류 과정에서 코드북 생성을 위하여 각각 특징 기술자들의 유클리디안 거리뿐만이 아니라 클래스 확률 밀도 함수들의 히스토그램 교차값을 최소화 하는 최적화 K-means 클러스터링 기법을 제안한다. 장면의 SIFT 특징 기술자 정보뿐만 아니라 장면이 속해있는 클래스 정보를 결합하여 클러스터링을 수행함으로써 장면 분류의 정확도를 높일 수 있다. 장면 분류 정확도 실험에서 제안하는 클러스터링을 사용한 BoW 장면 분류 기법은 기존의 K-means을 사용한 BoW 장면 분류 기법보다 높은 정확도를 보여준다.

  • PDF

공간과 시간적 특징 융합 기반 유해 비디오 분류에 관한 연구 (Using the fusion of spatial and temporal features for malicious video classification)

  • 전재현;김세민;한승완;노용만
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.365-374
    • /
    • 2011
  • 최근 인터넷, IPTV/SMART TV, 소셜 네트워크 (social network)와 같은 정보 유통 채널의 다양화로 유해 비디오 분류 및 차단 기술 연구에 대한 요구가 높아가고 있으나, 현재까지는 비디오에 대한 유해성을 판단하는 연구는 부족한 실정이다. 기존 유해 이미지 분류 연구에서는 이미지에서의 피부 영역의 비율이나 Bag of Visual Words (BoVW)와 같은 공간적 특징들 (spatial features)을 이용하고 있다. 그러나, 비디오에서는 공간적 특징 이외에도 모션 반복성 특징이나 시간적 상관성 (temporal correlation)과 같은 시간적 특징들 (temporal features)을 추가적으로 이용하여 유해성을 판단할 수 있다. 기존의 유해 비디오 분류 연구에서는 공간적 특징과 시간적 특징들에서 하나의 특징만을 사용하거나 두 개의 특징들을 단순히 결정 단계에서 데이터 융합하여 사용하고 있다. 일반적으로 결정 단계 데이터 융합 방법은 특징 단계 데이터 융합 방법보다 높은 성능을 가지지 못한다. 본 논문에서는 기존의 유해 비디오 분류 연구에서 사용되고 있는 공간적 특징과 시간적 특징들을 특징 단계 융합 방법을 이용하여 융합하여 유해 비디오를 분류하는 방법을 제안한다. 실험에서는 사용되는 특징이 늘어남에 따른 분류 성능 변화와 데이터 융합 방법의 변화에 따른 분류 성능 변화를 보였다. 공간적 특징만을 이용하였을 때에는 92.25%의 유해 비디오 분류 성능을 보이는데 반해, 모션 반복성 특징을 이용하고 특징 단계 데이터 융합 방법을 이용하게 되면 96%의 향상된 분류 성능을 보였다.

아파트 하자 보수 시설공사 세부공종 머신러닝 분류 시스템에 관한 연구 (Classifying Sub-Categories of Apartment Defect Repair Tasks: A Machine Learning Approach)

  • 김은혜;지홍근;김지나;박은일;엄재용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권9호
    • /
    • pp.359-366
    • /
    • 2021
  • 대한민국 건설사들은 아파트 하자 정보를 축적하고 보수작업을 관리하기 위한 시스템을 운영하는데 상당한 인력과 비용을 투자하고 있다. 본 연구에서는 하자 접수 상세내용 텍스트 데이터를 이용하여 하자 보수 시설공사에 따른 세부공종을 분류하는 머신러닝 모델을 제안한다. 두 가지 단어 임베딩(Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF))과 두 가지 분류기(Support Vector Machine, Random Forest)를 통해 한국어로 작성된 65만건 이상의 하자 접수데이터로부터 하자보수 시설공사 세부공종을 분류했다. 특히, 이번 연구에서는 특정 시설공사(마감공사)의 9개 세부공종(가전제품, 도배공사, 도장공사, 미장공사, 석공사, 수장공사, 옥내가구공사, 주방기구공사, 타일공사)을 분류하는 이진분류 모델과 다중 분류 모델을 연구했다. 그 결과, TF-IDF와 Random Forest를 사용한 두가지 분류 모델에서 90%이상의 정확도, 정밀도, 재현율 및 F1점수를 확인했다.

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.

군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법 (Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity)

  • 박선;김경준;이진석;이성로
    • 대한전자공학회논문지SP
    • /
    • 제48권5호
    • /
    • pp.30-38
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수 행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(BOW, bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

단어패턴 빈도를 이용한 단문 오피니언 문서 분류기법의 실험적 평가 (An Experimental Evaluation of Short Opinion Document Classification Using A Word Pattern Frequency)

  • 장재영;김일민
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권5호
    • /
    • pp.243-253
    • /
    • 2012
  • 데이터 마이닝의 문서분류 기술에서 발전된 오피니언 마이닝은 이제 국외뿐만 아니라 국내 산업에서 중요한 관심분야로 자리잡아가고 있다. 오피니언 마이닝의 핵심은 문서에서 감정 단어를 추출하여 긍정/부정 여부를 얼마나 정확하게 판별하느냐를 평가하는 것이다. 국내에서도 이에 관련된 많은 연구가 이루어 졌으나 아직 실용적으로 적용할 만큼의 분류 정확도를 보이지 않고 있다. 한국어의 경우 비문법적 표현, 감정단어의 다양성 등으로 인해 문서의 극성을 판별하기가 쉽지 않기 때문이다. 본 논문에서는 문법적 요소를 최대한 배제하고 단어패턴의 빈도만을 고려한 새로운 오피니언 문서 분류기법을 제안한다. 제안된 방법에서는 문서를 단어들의 리스트로 추상화한 후, 패턴들의 빈도를 이용하여 기계학습 알고리즘을 적용한다. 이후에 적절한 스코어 함수를 적용하여 문서의 극성을 판별한다. 또한 제안된 기법의 정확도를 평가하기 위해서 실험결과를 제시한다.

군집의 중요 용어와 위키피디아를 이용한 문서군집 향상 (Enhancing Document Clustering using Important Term of Cluster and Wikipedia)

  • 박선;이연우;정민아;이성로
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.45-52
    • /
    • 2012
  • 본 논문은 군집 중요 용어들과 위키피디아(Wikipedia)의 동음이의어를 이용하여 문서군집의 성능을 향상시키는 새로운 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 중요 용어들을 선택함으로서 군집을 대표할 수 있는 군집 주제(topic)의 개념을 잘 표현할 수 있으며, 군집의 중요 용어에 위키피디아의 동음이의어를 사용하여 확장함으로써 문서와 군집 간의 의미관계를 고려하지 않는 용어집합(bag-of-words) 문제를 해결할 수 있다. 또한 확장된 군집의 중요 용어를 이용하여 문서집합을 재 군집하여 초기 군집을 정제함으로써 군집방법의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

Evaluating AI Techniques for Blind Students Using Voice-Activated Personal Assistants

  • Almurayziq, Tariq S;Alshammari, Gharbi Khamis;Alshammari, Abdullah;Alsaffar, Mohammad;Aljaloud, Saud
    • International Journal of Computer Science & Network Security
    • /
    • 제22권1호
    • /
    • pp.61-68
    • /
    • 2022
  • The present study was based on developing an AI based model to facilitate the academic registration needs of blind students. The model was developed to enable blind students to submit academic service requests and tasks with ease. The findings from previous studies formed the basis of the study where functionality gaps from the literary research identified by blind students were utilized when the system was devised. Primary simulation data were composed based on several thousand cases. As such, the current study develops a model based on archival insight. Given that the model is theoretical, it was partially applied to help determine how efficient the associated AI tools are and determine how effective they are in real-world settings by incorporating them into the portal that institutions currently use. In this paper, we argue that voice-activated personal assistant (VAPA), text mining, bag of words, and case-based reasoning (CBR) perform better together, compared with other classifiers for analyzing and classifying the text in academic request submission through the VAPA.