• Title/Summary/Keyword: 의사결정 정보

Search Result 3,554, Processing Time 0.03 seconds

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

지상파채널의 재전송 동의와 중재 기준에 관한 연구 - 일본의 사례분석을 중심으로 (A Study on the Retransmission Consent and Arbitration for the Retransmission of Terrestrial Broadcasting Signal in Japan)

  • 김경환
    • 한국언론정보학보
    • /
    • 제48권
    • /
    • pp.46-62
    • /
    • 2009
  • 지상파채널의 재전송은 산규매체의 도입 시마다 논쟁거리다. 유일하게 매년 수천억 원의 제작비를 지출하는 지상파채널을 재전송하는 것이야말로 신규매체의 시장안착에 결정적 요인이라는 인식이 지배적이었기 때문이다. 이로 인해 지상파채널을 재전송하는 문제를 놓고 지상파방송사들과 신규매체 사이에는 지상파 재전송에 따른 정당한 대가 지불이 필요하다는 주장과 지상파채널의 재전송은 국민의 시청접근권 확보 차원에서 필수불가결하다는 주장이 팽팽하게 대치해 왔다. 최근 도입이 본격 추진되고 있는 종합편성채널의 의무재전송 가능성이 높아짐에 따라, 지상파채널의 재전송 문제는 콘텐츠사업자인 지상파 사업자와 전송사업자인 케이블SO 간의 대립구도에 지상파계열 채널 사용 사업자와 케이블PP계열의 채널사업자까지 가세되면서 대립구도가 점점 복잡해지고 있는 추세다. 따라서 본 연구에서는 한국처럼 지상파방송의 비중이 높으면서도 다양한 신규 유료방송사업자의 도입이 활발한 일본의 사례를 중심으로 지상파채널의 재전송을 둘러싼 분쟁의 원인과 해결방법을 살펴봄으로써 지상파방송의 디지털전환과 더불어 예상되는 국내 지상파방송사업자와 케이블TV 사업자 간의 지상파 재전송과 관련해 야기될 분쟁의 해결방안을 모색한다. 일본은 지상파채널의 재전송을 위해서는 해당채널사업자로부터 재전송동의가 필요하다. 만약 이 과정에서 사업자 간 협의에 의한 재전송동의에 실패할 경우 규제기관인 일본총무성에 중재 신청이 가능하다. 2009년 현재 지상파채널의 재전송과 관련한 일본총무성의 중재 사례는 6건이다. 중재 신청된 사례는 아날로그 지상파채널의 재전송이 4건, 디지털 지상파채널의 재전송이 2건이며 모두 구역 외 지상파채널의 재전송 관련 건이었다. 중재 결과는 중재 신청을 취하한 1건을 제외하면 전부 케이블TV의 지상파 재전송을 허용하는 판단이 내려졌다. 일본총무성은 재전송 동의제도가 케이블TV사업자의 재전송 행위로 인해 해당 채널 사업자의 방송 의도가 침해되거나 왜곡되는 사태를 방지함으로써 방송 질서를 유지하는 것이 목적임으로 재전송동의를 거부하는 사업자는 재전송으로 인한 방송 의도의 침해 및 왜곡 사실을 구체적으로 입증하도록 요구한다. 일본은 재전송과 관련한 방송 의도의 침해 및 왜곡에 해당하는 기준은 다음과 같은 5가지로 정의하고 있다. 첫째, 방송프로그램이 방송사업자의 의사에 반해, 일부 재편집되어 방송되는 경우다. 둘째, 방송사업자의 의사에 반하여 이시(異時) 재전송되는 경우다. 셋째, 방송시간의 전 후에 재전송되는 동일 채널로 별도 프로그램을 편성함으로써 재전송되는 방송사업자의 프로그램과 혼란을 발생시키는 경우다. 넷째, 케이블TV의 방송시설 설치 및 시설설치에 필요한 자금력이 부족하여 케이블TV 사업자로서 적합성에 문제가 있는 경우다. 다섯째, 케이블TV의 송수신 기술수준이 현저하게 떨어져 양질의 재전송이 기대되지 않는 경우다. 반면, 일본은 재전송으로 인해 지상파 사업자에게 발생하는 재산적 피해 여부는 재전송 거부의 정당한 사유에 포함되지 않는 것으로 나타났다.

  • PDF

사회연결망분석과 인공신경망을 이용한 추천시스템 성능 예측 (Predicting the Performance of Recommender Systems through Social Network Analysis and Artificial Neural Network)

  • 조윤호;김인환
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.159-172
    • /
    • 2010
  • 협업필터링 추천은 다양한 분야에서 활용되고 있지만 트랜잭션 데이터의 성격에 따라 추천 성능에 현저한 차이를 보이고 있다. 기존 연구에서는 이러한 추천 성능의 차이가 나타나는 이유에 대한 설명을 구체적으로 제시하지 못하고 있고 이에 따라 추천 성능의 예측 또한 연구된 바가 없다. 본 연구는 사회네트워크분석과 인공신경망 모형을 이용하여 협업필터링 추천시스템의 성능을 예측하고자 한다. 본 연구의 목적을 달성하기 위해 국내 백화점의 트랜잭션 데이터를 기반으로 형성되는 고객간 사회 네트워크의 구조적 지표를 측정한 후 이를 기반으로 인공신경망 모형을 구축하고 검증한다. 본 연구는 협업필터링 추천 성능을 예측할 수 있는 새로운 모형을 제시하였다는 점에서 그 의의가 있으며 이를 통해 기업들의 협업필터링 추천시스템 도입에 대한 의사결정에 도움을 줄 수 있을 것으로 기대된다.

텍스트 마이닝과 의미 네트워크 분석을 활용한 뉴스 의제 분석: 코로나 19 관련 감정을 중심으로 (Analysis of News Agenda Using Text mining and Semantic Network Analysis: Focused on COVID-19 Emotions)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.47-64
    • /
    • 2021
  • 전 세계적으로 퍼진 코로나 19 상황은 우리의 일상생활의 많은 부분에 영향을 끼쳤을 뿐만 아니라, 경제·사회 등 많은 부분에 걸쳐 막대한 영향력을 미치고 있다. 확진자와 사망자 수가 증가함에 따라 의료진과 대중은 불안, 우울, 스트레스 등 심리적인 문제를 겪고 있다고 한다. 장기적인 부정적인 감정은 사람들의 면역력을 감소시키고 신체적인 균형을 파괴할 수도 있으므로 코로나 19로 인한 심리적인 상태를 이해하는 것이 필수적인 상황이다. 본 연구에서는 코로나 19 감정과 관련된 뉴스 데이터를 수집하여, 텍스트 마이닝을 통해 키워드를 분류하고, 키워드 사이의 의미 네트워크 분석을 통해 단어들의 관계를 시각화하였다. 코로나 감정과 관련된 기사의 키워드에 나타난 단어들의 빈도수를 확인하고 이를 워드 클라우드로 분석하였다. 키워드 빈도 분석 결과 코로나 19 감정과 관련하여 '중국', '불안', '상황', '마음', '사회', '건강'과 같은 단어의 빈도가 높게 나타난 것을 확인할 수 있었다. 각 데이터 간 연결 중심성을 분석한 결과 키워드 중심성 네트워크에서 가장 중심적인 핵심어는 '심리'와 '코로나 19', '블루', '불안'이라는 단어가 높은 연결 중심성을 가지는 것을 확인할 수 있었다. 기사의 헤드라인에 나타난 주요 핵심어 사이의 동시 출현 빈도 네트워크를 그래프로 시각화한 결과, '코로나-블루' 쌍이 가장 굵게 표시되었고, '코로나-감정', '코로나-불안' 쌍이 비교적 굵은 선으로 표시된 것을 알 수 있었다. 코로나와 관련된 '블루'는 우울증을 의미하는 단어로, 코로나와 우울증은 이제 관심을 가져야 할 키워드임을 확인할 수 있었다. 본 연구에서는 장기화한 코로나 19 상황에서 신체적인 방역뿐만 아니라 심리적인 방역에도 힘써야 할 이 시기에 보건 정책담당자가 빠르고 복잡한 의사결정 과정에 도움이 되고자 미디어 뉴스를 모니터링 함으로써, 더욱더 쉬운 소셜 미디어 네트워크 분석 방법을 제시하고자 한다.

AHP 기반의 생활안전지수 모델 및 서비스 활용방안 연구 (A Study of Life Safety Index Model based on AHP and Utilization of Service)

  • 오혜수;이동훈;정종운;장재민;양상운
    • 한국재난정보학회 논문집
    • /
    • 제17권4호
    • /
    • pp.864-881
    • /
    • 2021
  • 연구목적: 본 연구는 빅데이터와 인공지능 기술을 기반으로 다양한 위험 특성과 개개인의 상황을 고려한 맞춤형 예방 솔루션을 제공하는 생활안전 예방서비스 연구개발의 일환으로, 일상 생활안전과 관련하여 개인의 현재 안전수준을 정량적 수치로 나타내는 생활안전지수를 산출하는 방안을 제시하여, 안전사고를 예방하고 대응하기 위한 맞춤형 종합지수 서비스를 제공하는 데 목적이 있다. 연구방법: 본 연구의 핵심이 되는 모델은 AHP(Analysis Hierarchy Process)와 리커트 척도(Likert Scale)를 혼용하는 방법으로, 전문가 그룹의 합의형성 모델을 기반으로 산출된다. 생활안전 예방서비스를 평가할 수 있는 평가항목을 위험지표, 취약지표, 예방지표 등으로 구분하고, 이를 AHP 의사결정 방법론에 따라 AHP 계층구조로 정의하여 각 레벨 항목의 쌍대비교를 통해 평가항목 간 상대적 가중치를 산출하는 방법을 제안한다. 또한 평가항목을 적용한 개별 예방서비스에 대한 평가는 향후 생활안전 예방서비스의 확대를 고려하여 AHP 쌍대비교를 대신하여 리커트 척도 기반으로 절대평가하고 그 결과를 상대비교하는 방법으로 개별서비스 간 가중치를 산출하는 방안도 함께 제시한다. 연구결과: 생활안전 예방서비스에 대한 서비스 가중치를 도출하고, 이를 생활안전 예방서비스의 인공지능 예측모델을 통해 산출된 개별위험지수에 반영하여 종합지수를 산출하였다. 결론: 구현한 모델의 적용을 위하여 생활안전 예방서비스 앱과 플랫폼으로 구성된 테스트 환경을 구축하고, 사용자 시나리오를 바탕으로 기능에 대한 효능을 평가하였다. 이를 통해 본 연구에서 제시된 생활안전지수는 사용자에게 현재 자신의 안전수준을 종합하여 나타냄으로써 안전 위험에 진단과 대응 및 예방 골든타임을 지원하는 것으로 기대된다.

공공디자인에서 스마트 공공시설물의 발전 가능성에 관한 연구 -스마트 도시의 공공시설물 사례를 중심으로- (The Research on the Development Potential of Smart Public Facilities in Public Design - Focusing on examples of public facilities in smart cities -)

  • 손동주
    • 서비스연구
    • /
    • 제13권4호
    • /
    • pp.97-112
    • /
    • 2023
  • 연구 배경: 현대 사회에서 공공디자인의 중요성은 도시 기능과 시민의 삶의 질 향상에 기여하는 데 크게 자리 잡고 있다. 공공시설물은 사용자의 접근성을 높이고, 편리함과 안전성을 제공함으로써 사용자 경험을 풍부하게 하며, 도시의 가치를 높이는 중추적 역할을 해왔다. 이 연구는 공공시설물의 중요성을 인식하고, 도시가 직면한 문제들을 해결하고 지속 가능하며 포용적인 도시로 나아가는 데 있어서 스마트 공공시설물의 발전 가능성을 탐구한 것이다. 연구 방법: 문헌 연구는 스마트 공공시설물에 대한 기존 이론과 연구 결과를 종합적으로 검토한다. 사례 연구는 국내외 도시에서 구현된 스마트 공공시설물의 실제 사례를 분석해 효과, 사용자 만족도, 개선점 등을 도출한다. 분석 및 논의를 통해 사례 연구의 결과를 분석하고, 스마트 공공시설물 발전 가능성에 대해 논의한다. 연구 결과: 스마트 공공시설물이 도시 관리, 에너지 효율성, 안전, 정보 접근성 등 여러 면에서 긍정적인 변화를 불러오고 있음을 확인했다. 또한, 도시 관리 측면에서는 최적화되고, 사회적 포용성, 환경 보호, 시민 참여 촉진, 그리고 기술적 혁신을 촉진하는 중요한 역할을 하고 있다. 이러한 변화는 도시의 물리적 공간과 디지털 기술이 결합한 새로운 도시 형태를 창출하며, 도시의 삶의 질을 향상한다. 결론: 이 연구는 스마트 공공시설물의 서비스 및 디자인 측면의 시사점, 현황과 기능, 그리고 도시환경 및 시민의 삶에 미치는 영향을 탐구했다. 결론적으로, 스마트 공공시설물은 도시 관리의 최적화, 에너지 효율성 향상, 정보 접근성 증진, 사용자 중심의 디자인, 상호작용 증대 및 사회적 포용의 긍정적인 변화를 불러왔다. 기술혁신과 공공시설물의 통합으로 도시를 효율적이고 능동적으로 만들며, 데이터 기반 의사결정과 최적화된 서비스 제공을 가능케 했다. 이러한 발전은 도시의 물리적 공간과 디지털 기술의 결합을 통해 새로운 형태의 도시환경 창출을 가능케 한다. 스마트 공공시설물의 발전은 도시 개발의 방향을 제시하며, 미래의 도시는 더 지능화되고 능동적이며, 사용자 친화적인 공간으로 변화를 꾀할 수 있다. 따라서 공공디자인에서 중추적 역할을 담당할 것이다. 또한, 도시환경과 시민의 삶의 질을 개선하는 데 크게 기여할 수 있다.

Node2vec 그래프 임베딩과 Light GBM 링크 예측을 활용한 식음료 산업의 수출 후보국가 탐색 연구 (A Study on Searching for Export Candidate Countries of the Korean Food and Beverage Industry Using Node2vec Graph Embedding and Light GBM Link Prediction)

  • 이재성;전승표;서진이
    • 지능정보연구
    • /
    • 제27권4호
    • /
    • pp.73-95
    • /
    • 2021
  • 본 연구는 Node2vec 그래프 임베딩 방법과 Light GBM 링크 예측을 활용해 우리나라 식음료 산업의 미개척 수출 후보국가를 탐색한다. Node2vec은 네트워크의 공통 이웃 개수 등을 기반으로 하는 기존의 링크 예측 방법에 비해 상대적으로 취약하다고 알려져 있던 네트워크의 구조적 등위성 표현의 한계를 개선한 방법이다. 따라서 해당 방법은 네트워크의 커뮤니티 탐지와 구조적 등위성 모두에서 우수한 성능을 나타내는 것으로 알려져 있다. 이에 본 연구는 이상의 방법을 우리나라 식음료 산업의 국제 무역거래 정보에 적용했다. 이를 통해 해당 산업의 글로벌 가치사슬 관계에서 우리나라의 광범위한 마진 다각화 효과를 창출하는데 기여하고자 한다. 본 연구의 결과를 통해 도출된 최적의 예측 모델은 0.95의 정밀도와 0.79의 재현율을 기록하며 0.86의 F1 score를 기록해 우수한 성능을 나타냈다. 이상의 모델을 통해 도출한 우리나라의 잠재적 수출 후보국가들의 결과는 추가 조사를 통해 대부분 적절하게 나타난 것을 알 수 있었다. 이상의 내용을 종합하여 본 연구는 Node2vec과 Light GBM을 응용한 링크 예측 방법의 실무적 활용성에 대해 시사할 수 있었다. 그리고 모델을 학습하며 링크 예측을 보다 잘 수행할 수 있는 가중치 업데이트 전략에 대해서도 유용한 시사점을 도출할 수 있었다. 한편, 본 연구는 그래프 임베딩 기반의 링크 예측 관련 연구에서 아직까지 많이 수행된 적 없는 무역거래에 이를 적용했기에 정책적 활용성도 갖고 있다. 본 연구의 결과는 최근 미중 무역갈등이나 일본 수출 규제 등과 같은 글로벌 가치사슬의 변화에 대한 빠른 대응을 지원하며 정책적 의사결정을 위한 도구로써 충분한 유용성이 있다고 생각한다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.