• 제목/요약/키워드: Tree Modeling

검색결과 338건 처리시간 0.028초

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

부품의 중요도를 활용한 3차원 전차 모델 기반 생존성 분석 시스템 개발 (A Development of 3D Modeling-based Survivability Analysis System for Armored Fighting Vehicle using Importance of Components)

  • 황훈규;이재욱;이재웅;이장세
    • 한국정보통신학회논문지
    • /
    • 제19권5호
    • /
    • pp.1269-1276
    • /
    • 2015
  • 전차의 임무 수행 능력은 생존성에 의해 크게 좌우된다. 생존성은 위협에 의한 피해를 예방하거나 피해를 입더라도 이를 감내하는 능력을 의미한다. 전차의 생존성 향상을 위해서는 피격에 의한 부품 손상으로 인한 영향 분석이 이루어져야 하며, 이를 토대로 설계 단계에서 부터의 성능 개선이 이루어져야 한다. 본 논문에서는 전차의 생존성 향상을 위하여 중요도 기반의 전차 생존성 분석 시스템을 개발하는 것에 관한 내용을 다룬다. 중요도는 전차를 구성하는 각 부품이 차지하는 비중을 수치화하여 나타낸 것을 의미하며, 이는 정량적인 전차 생존성 분석의 기초가 될 수 있다. 이를 위해 전차의 주요 부품별 가중치 부여를 통한 가중치 트리 구성 및 중요도 계산식을 적용하였으며, 이를 이용하여 전차의 생존성 분석 및 기능별 피해기준에 따른 분석을 수행하였다. 또한 이를 적용한 부품 구조화 및 가중치 설정 프로그램과 생존성 분석 및 시각화 프로그램을 개발하였으며, 전차 구성 부품을 3차원 CAD 모델을 이용하여 실험하는 것으로 개발한 시스템의 유용성을 검증하였다. 개발한 시스템은 전차를 구성하는 주요 부품의 공간 배치 등에 활용될 수 있을 것이다.

특정 응용을 위한 수중센서네트워크에서 에너지 효율적인 데이터통합 방법 연구 (A Study on the Energy Efficient Data Aggregation Method for the Customized Application of Underwater Wireless Sensor Networks)

  • 김성운;박선영;유흥식
    • 한국멀티미디어학회논문지
    • /
    • 제14권11호
    • /
    • pp.1438-1449
    • /
    • 2011
  • 수중센서네트워크 응용은 적용 대상 및 지역적 범위에 따라 효과적인 모델링이 필요하고 이러한 특정화된 응용 모델 기반에서 에너지 효율적인 데이터통합 방법이 필요하다. 본 논문에서는 수중에 고정된 닻으로 좌우 움직임이 가능한 센서노드들로 구성된 3차원 육각기둥 벌집모델에 기초하여 오염 및 침투 감시용 응용 모델링 및 이를 기초로 한다. 이 모델에서는 층별 구성 셀들의 이벤트 감지 데이터와 해당 층 위치 데이터를 수면기지국까지 효율적으로 전송하면 그 목적이 달성된다. 여기서 기존의 데이터통합 방법을 적용하면 최소 경로나 멀티캐스트 트리에 기반된 관계로 과정이 복잡하여 에너지 비효율적이다. 본 논문에서는 층별 셀들에서 발생되는 이벤트 데이터를 해당 층 헤드노드로 효과적으로 전달하기위한 클러스터 내부에서 클러스터 기반의 에너지 효율적인 세 가지 가능한 데이터통합 방법을 제시한다. 그리고 층별 클러스터 헤드노드에서 수집된 데이터를 기지국까지 효율적으로 전달하기위한 클러스터 간 세 가지 데이터통합 방법도 제시한다. 제시된 데이터통합 방법들은 주어진 영역 침투 감시등과 같은 특정화된 응용 대상으로 동작의 단순성과 에너지 효율화 측면이 주된 고려 요소이다. 마지막으로 시뮬레이션과 성능 비교분석을 통해 제시된 클러스터 층별 및 층간 데이터통합 방법의 조합 중 가장 우수한 에너지 효율적인 데이터통합 방법을 도출한다.

혼합 가우시안 군집화를 이용한 상태공유 음향모델 최적화 (A Study on the Optimization of State Tying Acoustic Models using Mixture Gaussian Clustering)

  • 안태옥
    • 대한전자공학회논문지SP
    • /
    • 제42권6호
    • /
    • pp.167-176
    • /
    • 2005
  • 본 논문은 음성인식에 쓰이는 음향모델의 모델링 방법 중 결정트리 상태공유 모델링(DTST)을 기반으로 출력 확률 분포의 혼합 가우시안 수를 줄여 모델을 최적화하는 방법을 제안한다. DTST는 음성학적 지식을 포함할 수 있는 질의어 집합과 유사도를 기반으로 한 결정 방법을 이용하는 것이다. 이때 상태들의 출력 확률 분포의 혼합 가우시안 수를 늘려 인식률을 증가시킬 수 있게 된다. 본 논문에서는 인식률이 최대가 되는 지점에서 혼합 가우시안들을 군집화 하여 그 수를 줄이고자 한다. 군집화 시에 필요한 거리 측정 방법은 유클리드(Euclidean)와 바타챠랴(Bhattacharyya) 방법을 이용하였고, 새로운 가우시안은 거리가 최소가 되는 두 가우시안으로부터 평균과 분산을 다시 계산하여 생성하였다. 증권상장 회사명(STOCKNAME) 1,680개의 단어 데이터베이스를 구성하여 실험한 결과 바타챠랴 방법은 $97.2\%$의 인식률을 유지하면서 전체 혼합 가우시안 수의 비율을 $1.0\%$로 감소시켰고, 유클리드 방법은 $96.9\%$의 인식률을 유지하면서 혼합 가우시안 수의 비율을 $1.0\%$로 감소시켜 모델을 최적화할 수 있었다.

PDSN 영역내의 여러 RN간 멀티캐스트 그룹 메커니즘 기반의 Seamless 핸드오프 알고리즘 (The Seamless Handoff Algorithm based on Multicast Group Mechanism among RNs in a PDSN Area)

  • 신동진;김수창;임선배;오재천;송병권;정태의
    • 정보처리학회논문지C
    • /
    • 제9C권1호
    • /
    • pp.97-106
    • /
    • 2002
  • 3GPP2가 제안하는 방식에서는 Macro Mobility 지원을 위하여 MIP를 이용하며 PDSN은 FA의 기능을 수행한다. 이때 하나의 PDSN에서 다른 PDSN으로 MS가 이동할 경우 지원되는 이동성을 Macro Mobility라 하며, PDSN 관리 영역 내의 하나의 RN에서 다른 RN으로 이동 시에 지원되는 이동성을 Micro Mobility라 한다. 3GPP2가 제안하는 방식에서는 PDSN이 FA의 역할을 수행하므로 이동성 지원이 가능하지만, 이는 Macro Mobility를 지원하기 위한 메커니즘으로, Micro Mobility를 지원하기엔 빠르고 Seamless한 핸드오프에 취약하다. 본 논문은 Micro Mobility를 지원하기 위한 멀티캐스트 그룹 메커니즘 기반의 Seamless 핸드오프 알고리즘을 제안하고 있다. 제안된 알고리즘은 MS의 이동방향과 속도를 계산하여, 예상 이동경로에 인접한 RN들을 멀티캐스트 그룹으로 구성하고, 그룹 join 시점을 최대한 늦춤으로서 망의 효율성을 높인다. 또한, 기존의 멀티캐스트 연결 방법이 가지고 있는 버퍼 오버헤드에 대한 문제점을 해결하기 위해, RN은 예상 핸드오프 시간 이후의 데이터만을 버퍼링 한다. 제안된 알고리즘의 Deadlock Freeness 및 Liveness를 검증하기 위해 State Transition Diagram을 작성하고, 페트리네트 모델을 이용 도달성 트리를 작성하였다. 또한, 시뮬레이션을 통한 성능분석을 수행하였다.

생활 습관, 주거지 주변 녹지 비율 및 지하수 내 라돈 농도 따른 실내 라돈 농도 영향 모델 (Affected Model of Indoor Radon Concentrations Based on Lifestyle, Greenery Ratio, and Radon Levels in Groundwater)

  • Lee, Hyun Young;Park, Ji Hyun;Lee, Cheol-Min;Kang, Dae Ryong
    • Journal of health informatics and statistics
    • /
    • 제42권4호
    • /
    • pp.309-316
    • /
    • 2017
  • 라돈 및 그 자손은 폐암을 일으키는 환경적 위험인자로, 일상 활동 및 수면 등으로 많은 시간을 보내는 실내 라돈 농도 관리는 필수적이다. 이를 위해서는, 주거지를 둘러싼 개인적, 사회적, 환경적 요소에 대한 총체적 접근이 필요하다. 따라서 본 연구는 실내 라돈 농도에 영향을 미치는 다양한 인자를 찾아내고, 이를 활용한 포괄적 모델을 구축하고자 한다. 건축 자재 및 생활 양식을 포함한 주거 환경에 대한 자료를 얻기 위해 설문을 실시하였고, 의사결정트리 및 구조 방정식 모델링을 활용하였다. 그 결과 주거지 주변 녹지 비율, 불 투과성 층 비율, 주택과 지면의 맞닿은 상태, 매일 환기 습관, 난방 습관, 측정 장치 주위의 균열 및 침실여부는 실내 라돈 농도와 유의한 연관성을 보였다. 매일 환기 습관을 가질 경우 실내 라돈 농도가 $200Bq/m^3$ 이상인 비율이 11.6%로 줄었다. 한편 매일 환기습관이 없는 주거자의 주거지 주변 녹지 비율이 65% 이상이면 매일 환기 습관이 있는 주거자와 비교하여 15.3%의 비율이 증가하였다. 구축된 포괄적 모델의 실내 라돈 농도에 직접 영향을 미치는 인자는 주거지 주변 녹지 비율과 환기율이었다. 제시된 모델로 국내 라돈 농도에 대한 개인의 지리적 특성, 지하수 및 생활 양식 요소의 결합된 영향을 확인할 수 있었다.

재입원 예측 모형 개발에 관한 연구 (A Study on the Development of Readmission Predictive Model)

  • 조윤정;김유미;함승우;최준영;백설경;강성홍
    • 한국산학기술학회논문지
    • /
    • 제20권4호
    • /
    • pp.435-447
    • /
    • 2019
  • 불필요한 재입원을 예방하기 위해서는 재입원 확률이 높은 집단을 집중적으로 관리할 필요가 있다. 이를 위해서는 재입원 예측모형의 개발이 필요하다. 재원예측 모형을 개발하기 위해 1개 대학병원의 2016년에서 2017년의 2년간의 퇴원요약환자 데이터를 수집하였다. 이때 재입원 환자는 연구 기간 내에 2번 이상 퇴원한 환자라 정의 하였다. 재입원환자의 특성을 파악하기 위해 기술통계와 교착분석을 실시하였다. 재입원 예측 모형개발은 데이터마이닝 기법인 로지스틱회귀모형, 신경망, 의사결정모형을 이용하였다. 모형평가는 AUC(Area Under Curve)를 이용하였다. 로지스틱회귀모형이 AUC가 0.81로 가장 우수하게 나옴에 따라 본 연구에서는 로지스틱 회귀모형을 최종 재입원 예측 모형으로 선정을 하였다. 로지스틱회귀모형에서 선정된 재입원에 영향을 끼치는 주요한 변수는 성별, 연령, 지역, 주진단군, Charlson 동반질환지수, 퇴원과, 응급실 경유 여부, 수술여부, 재원일수, 총비용, 보험종류 등이었다. 본 연구에서 개발한 모형은 1개병원의 2년치 자료이므로 일반화하기에는 제한점이 있다. 추후에 여러 병원 장기간의 데이터를 수집하여 일반화 할 수 있는 모형을 개발하는 것이 필요하다. 더 나아가 계획에 없던 재입원 까지 예측을 할 수 있는 모형을 개발하는 것이 필요하다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

점진적 기계학습 기반의 레이더 위협체 역추정 모델 생성 및 갱신 (Managing the Reverse Extrapolation Model of Radar Threats Based Upon an Incremental Machine Learning Technique)

  • 김철표;노상욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권4호
    • /
    • pp.29-39
    • /
    • 2017
  • 다양한 전자전 상황에서 단위 위협체에 대하여 전자전 모델링과 시뮬레이션을 수행할 수 있는 통합 전자전 시뮬레이터의 개발 필요성이 대두되고 있다. 본 논문에서는 전자전 상황에서 전자정보 수집신호의 변수를 기반으로 전자파 신호를 발산하는 레이더 위협을 역추정하기 위한 시뮬레이션 시스템의 구성요소를 분석하고, 역추정 모델을 점진적으로 유지할 수 있는 방법을 제안한다. 또한, 실험을 통하여 점진적 역추정 모델 갱신 기법의 유효성 및 개별 역추정 결과의 통합 기법을 평가한다. 개별 역추정 모델의 생성을 위하여 의사결정트리, 베이지안 분류기, 인공신경망 및 유클리디안 거리 측정방식과 코사인 유사도 측정방식을 활용하는 군집화 알고리즘을 이용하였다. 첫 번째 실험에서 레이더 위협체에 대한 역추정 모델을 구축하기 위한 위협 예제의 크기를 점진적으로 증가시키면 역추정 모델의 정확도는 향상되었으며, 이러한 과정이 반복되면 역추정 모델에 대한 정확도는 일정한 값으로 수렴하였다. 두 번째 실험에서는 개별 역추정 모델의 결과를 통합하기 위하여 투표, 가중투표 및 뎀스터-쉐이퍼 알고리즘을 이용하였으며, 역추정 모델의 통합 결과는 뎀스터-쉐이퍼 알고리즘에 의한 역추정 정확도가 가장 좋은 성능을 보였다.