• 제목/요약/키워드: technology classification system

검색결과 1,435건 처리시간 0.023초

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

머신러닝을 활용한 수도권 약수터 수질 예측 모델 개발 (Development of a water quality prediction model for mineral springs in the metropolitan area using machine learning)

  • 임영우;엄지연;곽기영
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.307-325
    • /
    • 2023
  • 코로나19 팬데믹의 장기화로 인해 실내 생활에 지쳐가는 사람들이 우울감, 무기력증 등을 해소하기 위해 근거리의 산과 국립공원을 찾는 빈도가 폭발적으로 증가하였다. 자연으로 나온 수많은 사람들이 오가는 걸음을 멈추고 숨을 돌리며 쉬어가는 장소가 있는데 바로 약수터이다. 산이나 국립공원이 아니더라도 근린공원 또는 산책로에서도 간간이 찾아볼 수 있는 약수터는 수도권에만 약 6백여개가 위치해 있다. 하지만 불규칙적이고 수작업으로 수행되는 수질검사로 인해 사람들은 실시간으로 검사 결과를 알 수 없는 상태에서 약수를 음용하게 된다. 따라서 본 연구에서는 약수터 수질에 영향을 미치는 요인을 탐색하고 다양한 곳에 흩어져 있는 데이터를 수집하여 실시간으로 약수터 수질을 예측할 수 있는 모델을 개발하고자 한다. 데이터 수집의 한계로 인해 서울과 경기로 지역을 한정한 후 데이터 관리가 잘 이루어지고 있는 18개 시의 약 300여개 약수터를 대상으로 2015~2020년의 수질 검사 데이터를 확보하였다. 약수터 수질 적합 여부에 영향을 미칠 것으로 여겨지는 다양한 요인들 중 두 차례의 검토를 거쳐 총 10개의 요인을 최종 선별하였다. 최근 주목받고 있는 자동화 머신러닝 기술인 AutoML 기법을 활용하여 20여가지의 머신러닝 기법들 중 예측 성능 기준 상위 5개의 모델을 도출하였으며 그 중 catboost 모델이 75.26%의 예측 분류 정확도로 가장 높은 성능을 가지고 있음을 확인하였다. 추가로 SHAP 기법을 통해 분석에 사용한 변인들이 예측에 미치는 절대적인 영향력을 살펴본 결과 직전 수질 검사에서 부적합 판정을 받았는지 여부가 가장 중요한 요인이었으며 그 외 평균 기온, 과거 연속 2번 수질 부적합 판정 기록 유무, 수질 검사 당일 기온, 약수터 고도 등이 수질 부적합 여부에 영향을 미치고 있음을 확인하였다.

소비자 감성 기반 뷰티 경험 패턴 맵 개발: 화장품을 중심으로 (Development of Beauty Experience Pattern Map Based on Consumer Emotions: Focusing on Cosmetics)

  • 서봉군;김건우;박도형
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.179-196
    • /
    • 2019
  • 최근의 '똑똑한 소비자(Smart Consumer)'라 불리는 소비자가 많아지고 있는데, 이들은 제조사나 광고를 통해 전달되는 정보에 의존하지 않고, 기존 사용자나 전문가들의 후기, 여러 과학 지식을 획득하여 제품에 대한 이해를 높이고, 본인 스스로가 직접 판단하여 구매하고 있다. 특히나 화장품 분야는 인체 유해성과 같은 부정적인 요소에 대한 민감도가 높고, 자신의 고유한 피부 특성과의 조화도 고려되어야 하기 때문에, 전문적인 지식과 타인의 경험, 본인의 과거 경험 등을 종합적으로 생각하여 구매 의사결정을 내려야 하고, 이에 대해서 적극적인 소비자가 많아지고 있다. 이러한 움직임은 '셀프 뷰티' 와 같은 '셀프' 문화의 열풍과 함께, 문화 현상인 '그루밍족'의 등장, 사회적 트렌드인 'K-뷰티' 와도 동행한다고 할 수 있다. 맞춤형 화장품에 대한 관심의 급부상도 이러한 현상 중 하나라 볼 수 있다. 소비자들의 맞춤형 화장품의 니즈를 충족시키기 위해, 화장품 제조사나 관련 기업들은 ICT기술과의 융합을 통하여 프리미엄 서비스를 중심으로 소비자의 니즈에 대응하고 있다. 그러나 기업 및 시장 현황이 맞춤형 화장품을 향해 진화하고 있지만, 소비자의 피부 상태, 추구하는 감성, 실제 제품이나 서비스까지 소비자 경험을 전체적으로 완전하게 다루는 지능형 데이터 플랫폼은 부재한다. 본 연구에서는 소비자 경험에 대한 지능형 데이터 플랫폼 구축을 위한 첫 단계로 소비자 언어 기반의 화장품 감성 분석을 수행하였다. 소비자들 개인의 선호나 취향이 분명한 앰플/세럼 카테고리를 중심으로 매출 순위 1위에서 99위까지의 99개 제품을 선정하여, 블로그와 트위터 등의 SNS 상에 언급되는 후기 내에 화장품 경험에 대한 소비자 감성을 수집하였다. 총 357개의 감성 형용사를 수집하였고, 고객 여정 워크샵을 통해 유사 감성을 합치고, 중복 감성을 통합하는 작업을 수행하였으며, 최종 76개 형용사를 구축했다. 구축한 형용사에 대한 SOM 분석을 통해 화장품에 대한 소비자 감성에 대한 클러스터링을 실시했다. 분석 결과, 총 8개의 클러스터를 도출했고, 클러스터 별 각 노드의 벡터 값을 기준으로 소비자 감성 Top 10을 도출했다. 소비자 감성을 기준으로 클러스터별 소비자 감성에 서로 다른 특징이 발견됐으며, 소비자에 따라 다른 소비자의 감성을 선호, 기존과는 다른 소비자 감성을 고려한 추천 및 분류 체계가 필요함을 확인했다. 연구 결과를 통해 감성 분석의 활용 도메인이 화장품만이 아닌 다양한 영역으로 확장될 수 있음 확인했으며, 감성 분석을 통한 소비자 인사이트를 도출할 수 있다는 점을 시사했다. 또한, 본 연구에서 활용한 디자인 씽킹(Design Thinking)의 방법론의 적용하여 화장품 특화된 감성 사전을 과학적인 프로세스로 구축했으며, 화장품에 대한 소비자의 인지 및 심리에 대한 이해를 도울 수 있을 것으로 기대한다.

이차원 고객충성도 세그먼트 기반의 고객이탈예측 방법론 (A Methodology of Customer Churn Prediction based on Two-Dimensional Loyalty Segmentation)

  • 김형수;홍승우
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.111-126
    • /
    • 2020
  • CRM의 하위 연구 분야로 진행되었던 고객이탈예측은 최근 비즈니스 머신러닝 기술의 발전으로 인해 빅데이터 기반의 퍼포먼스 마케팅 주제로 더욱 그 중요도가 높아지고 있다. 그러나, 기존의 관련 연구는 예측 모형 자체의 성능을 개선시키는 것이 주요 목적이었으며, 전체적인 고객이탈예측 프로세스를 개선하고자 하는 연구는 상대적으로 부족했다. 본 연구는 성공적인 고객이탈관리가 모형 자체의 성능보다는 전체 프로세스의 개선을 통해 더 잘 이루어질 수 있다는 가정하에, 이차원 고객충성도 세그먼트 기반의 고객이탈예측 프로세스 (CCP/2DL: Customer Churn Prediction based on Two-Dimensional Loyalty segmentation)를 제안한다. CCP/2DL은 양방향, 즉 양적 및 질적 로열티 기반의 고객세분화를 시행하고, 고객세그먼트들을 이탈패턴에 따라 2차 그룹핑을 실시한 뒤, 이탈패턴 그룹별 이질적인 이탈예측 모형을 독립적으로 적용하는 일련의 이탈예측 프로세스이다. 제안한 이탈예측 프로세스의 상대적 우수성을 평가하기 위해 기존의 범용이탈예측 프로세스와 클러스터링 기반 이탈예측 프로세스와의 성능 비교를 수행하였다. 글로벌 NGO 단체인 A사의 협력으로 후원자 데이터를 활용한 분석과 검증을 수행했으며, 제안한 CCP/2DL의 성능이 다른 이탈예측 방법론보다 우수한 성능을 보이는 것으로 나타났다. 이러한 이탈예측 프로세스는 이탈예측에도 효과적일 뿐만 아니라, 다양한 고객통찰력을 확보하고, 관련된 다른 퍼포먼스 마케팅 활동을 수행할 수 있는 전략적 기반이 될 수 있다는 점에서 연구의 의의를 찾을 수 있다.