• 제목/요약/키워드: Cluster 기법

검색결과 1,066건 처리시간 0.028초

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

사상체질분류검사지(四象體質分類檢査紙)(QSCC)II에 대(對)한 타당화(妥當化) 연구(硏究) -각(各) 체질집단(體質集團)의 군집별(群集別) Profile 분석(分析)을 중심(中心)으로- (The Validation Study of the Questionnaire for Sasang Constitution Classification (the 2nd edition revised in 1995) - In the field of profile analysis)

  • 이정찬;고병희;송일병
    • 사상체질의학회지
    • /
    • 제8권1호
    • /
    • pp.247-294
    • /
    • 1996
  • 본 논문은 사상채질분류검사지의 표준화 연구와 공동작업으로 행해진 연구로써 최근에 들어 다각도로 행해지고 있는 사상체질분류 객관화 연구의 한 방면이라고 하겠다. 본 논문의 주된 내용은 진단정확률의 확인을 통하여 새로 개발된 검사지의 타당도를 검증해 보고 프로파일 분석이라고 하는 통계분석상의 기법을 활용해서 설문지에 대한 적응도가 다소 떨어지는 집단들을 추출해내고 그들의 특성을 분석연구하자는 것이다. 연구에 사용된 검사지는 기본의 1992년판 검사지를 의학, 문학, 철학 및 심리화분야등 각 방면에서 폭넓은 검토를 거쳐 개정한 것이다. 본 연구의 대상이 되는 집단은 1995년 8월 7일부터 동년 9월 6일까지 경희의료원 동서종합건진센터 및 경희의료원 한방병원의 사상의학과에서 수진하여 전문의의 사상체질변증과정을 거친 외래환자들의 집단과 체질변증 과정이 없이 개방적으로 자료를 모집하되 연령별, 성별, 학력별로 나누어 고르게 분포하도록 한 일반인들의 집단으로 집단내 인원수는 각각 총 274명과 1092명이었다. 이들로부터 채집된 자료중 환자집단의 자료를 가지고 진단정확률을 조사하고, 일반인군 자료의 표준화에서 얻어진 규준(norms)을 환자군의 사상척도점수에 적용하여 T점수를 구하고 다변량군집분석을 시행하여 집단별 특성을 프로파일 그래프로 작성하여 파악해 보는 작업을 거쳐 다음과 같은 결론을 얻었다. 1. 예언집단과 실제 집단간의 비교로 나타나는 진단정확률은 기존의 QSCC에 비하여 대폭 향상된 70.08%로 나타나 검사지의 타당도가 입증되었다. 2. 각 체질집단의 전체 프로파일 특성비교에서 각 체질별로 해당척도에 대한 반응은 모든 척도에서 일정하게 상승되어 체질변증의 측면에서 긍정적인 양상을 보였다. 3. 자기표현의 정도를 중심으로 관찰해 본 전체 프로파일의 분석에서는 소양집단이 가장 뚜렷한 선명성을 보였고 소음집단이 가장 취약하였으며 태음집단은 이중적 속성을 나타냈다. 4. 각 체질별 세 군의 하위집단중에서 소위 이탈집단이라고 할 수 있는 부류의 집단은 나머지 두 집단과 프로파일의 특성에 있어서 확연히 구분되는 양상을 보였는 바 그 내용은 다음과 같다. 가. 소양인의 이탈집단은 소양집단의 일반적 속성과 달리 현저하게 소극적인 양상을 보였으며 소음척도에서 비교적 높은 반응을 보였다. 나. 태음인의 이탈집단은 점수분포가 매우 낮은 소극적 양상을 보였으며 태음집단의 특성인 태양-태음 동반상승과는 반대로 태양척도에서 점수가 급락하는 현상을 나타냈다. 다. 소음인의 이탈집단은 소양집단의 프로파일 형태와 유사한 특성을 보여 소음집단 특유의 소극적이고 표현에 취약한 특성이 대부분 희석된 것으로 나타났다. 이상의 결과로 보아 제작된 검사지의 타당도가 입증되었으며 본 연구의 과정에서 실시한 체질별 이탈집단의 프로파일 분석을 통해 몇가지 방향에서 그들의 특성을 파악할 수 있었다. 이 결과는 추후에 본 검사지의 개선에 하나의 자료로 이용될 수 있을 것으로 기대하며 검사지의 발전을 위해서는 이탈집단과 대조집단의 특성차이에 대한 좀 더 심층적인 연구가 지속되어져야 할 것으로 사료된다.

  • PDF

법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론 (Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System)

  • 김지현;이종서;이명진;김우주;홍준석
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.137-152
    • /
    • 2012
  • 인터넷 환경에서 월드 와이드 웹이 등장한 이후 웹을 통해 수많은 웹 페이지들이 생산됨에 따라 사용자가 원하는 정보를 검색하기 위한 다양한 형태의 검색 서비스가 여러 분야에서 개발되어 활용되고 있다. 특히 법령 검색은 사용자가 현재 자신이 처한 상황에 필요한 법령을 검색하여 법령에 대한 지식을 얻기 위한 창구로써 국민의 편의를 제공하기 위해 반드시 필요한 서비스 중 하나이다. 이에 법제처는 2009년부터 국민 누구나 편리하게 법령에 관련된 정보를 검색할 수 있도록 국가의 법령뿐만 아니라 행정규칙이나 판례 등 모든 법령정보를 검색할 수 있는 검색 서비스를 제공하고 있다. 하지만 현재까지의 검색엔진 기술은 기본적으로 사용자가 입력한 질의어를 문서에 포함하고 있는지의 여부에 따라 해당 문서를 검색 결과로 제시한다. 법령 검색 서비스 또한 해당 법령에 등장하는 키워드를 활용하여 사용자에게 검색 결과를 제공해주고 있다. 따라서 법제처의 이런 노력에도 불구하고 법령이 전문가의 시각에서 작성되었기 때문에 법에 익숙하지 않은 일반 사용자는 자신이 필요한 법령을 검색하기 어려운 한계점을 가지고 있다. 이는 일반적으로 법령에 사용되는 용어들과 일반 사용자가 실생활에 사용하는 단어가 서로 상이하기 때문에 단순히 키워드의 단순 매칭 형태의 검색엔진에서는 사용자들이 주로 사용하는 생활용어를 이용해서 원하는 법령을 검색할 수 없다. 본 연구에서는 법률용어에 관한 사전지식이 부족한 일반 사용자가 일상에서 주로 사용되는 생활용어를 이용하여 키워드 기반의 법령정보 검색 사이트에서 정확한 법령정보 검색이 가능하도록 생활용어와 법률용어 간의 대응관계를 탐색하고 이를 이용하여 법령을 검색할 수 있는 방법론을 제안하고자 한다. 우선 생활용어와 법률용어 간의 대응관계를 발견하기 위해 본 논문에서는 사용자들의 집단지성을 활용한다. 이를 위해 사용자들이 블로그의 분류 및 관리, 검색에 활용하기 위해 작성한 태그 정보를 이용하여 질의어인 생활용어와 관련된 태그들을 수집한다. 수집된 태그들은 K-means 군집분석 기법을 통해 태그들을 클러스터링하고, 생활용어와 가장 가까운 법률용어를 찾기 위한 평가 방법을 통해 생활용어에 대응될 수 있는 적절한 법률용어를 선택한다. 선택된 법률용어는 해당 생활용어와 명시적인 관계성이 부여되며, 이러한 생활용어와 법률용어와의 관계는 온톨로지 기반의 시소러스를 기술하기 위한 SKOS를 이용하여 표현된다. 이렇게 구축된 온톨로지는 사용자가 생활용어를 이용하여 검색을 수행할 경우 생활용어에 대응되는 적절한 법률용어를 찾아 법령 검색을 수행하고 그 결과를 사용자에게 제시한다. 본 논문에서 제시하고자 하는 방법론을 통해 법령 및 법률용어에 관련된 사전 지식이 없는 일반 사용자도 편리하고 효율적으로 법령을 검색할 수 있는 서비스를 제공할 것으로 기대한다.

ICT 인프라 이상탐지를 위한 조건부 멀티모달 오토인코더에 관한 연구 (A Study of Anomaly Detection for ICT Infrastructure using Conditional Multimodal Autoencoder)

  • 신병진;이종훈;한상진;박충식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.57-73
    • /
    • 2021
  • ICT 인프라의 이상탐지를 통한 유지보수와 장애 예방이 중요해지고 있다. 장애 예방을 위해서 이상탐지에 대한 관심이 높아지고 있으며, 지금까지의 다양한 이상탐지 기법 중 최근 연구들에서는 딥러닝을 활용하고 있으며 오토인코더를 활용한 모델을 제안하고 있다. 이는 오토인코더가 다차원 다변량에 대해서도 효과적으로 처리가 가능하다는 것이다. 한편 학습 시에는 많은 컴퓨터 자원이 소모되지만 추론과정에서는 연산을 빠르게 수행할 수 있어 실시간 스트리밍 서비스가 가능하다. 본 연구에서는 기존 연구들과 달리 오토인코더에 2가지 요소를 가미하여 이상탐지의 성능을 높이고자 하였다. 먼저 다차원 데이터가 가지고 있는 속성별 특징을 최대한 부각하여 활용하기 위해 멀티모달 개념을 적용한 멀티모달 오토인코더를 적용하였다. CPU, Memory, network 등 서로 연관이 있는 지표들을 묶어 5개의 모달로 구성하여 학습 성능을 높이고자 하였다. 또한, 시계열 데이터의 특징을 데이터의 차원을 늘리지 않고 효과적으로 학습하기 위하여 조건부 오토인코더(conditional autoencoder) 구조를 활용하는 조건부 멀티모달 오토인코더(Conditional Multimodal Autoencoder, CMAE)를 제안하였다. 제안한 CAME 모델은 비교 실험을 통해 검증했으며, 기존 연구들에서 많이 활용된 오토인코더와 비교하여 AUC, Accuracy, Precision, Recall, F1-score의 성능 평가를 진행한 결과 유니모달 오토인코더(UAE)와 멀티모달 오토인코더(Multimodal Autoencoder, MAE)의 성능을 상회하는 결과를 얻어 이상탐지에 있어 효과적이라는 것을 확인하였다.

코로나 19 하에서 재난문자 내의 정보유형 및 특성: 서울특별시 재난문자를 중심으로 (Information types and characteristics within the Wireless Emergency Alert in COVID-19: Focusing on Wireless Emergency Alerts in Seoul)

  • 윤성욱;남기환
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.45-68
    • /
    • 2022
  • 대한민국 중앙부처, 지방자치단체는 코로나 19가 급속도로 확산하는 팬데믹 상황에서 재난상황 극복을 위해 재난대응에 필요한 정보를 재난문자를 통해 제공하였다. 재난문자는 국민들이 가장 많이 접하는 재난정보 전달수단으로서, 휴대폰에 직접 방송하는 CBS(Cell Broadcast Service) 방식을 채택하고 있어 직접 찾아보는 수고스러움 없이 휴대폰을 통해 쉽게 정보를 접할 수 있다는 장점이 있다. 본 연구는 지난 1년 1개월간(2020년 1월~2021년 1월) 서울특별시에 발송된 재난문자의 특성을 다양한 텍스트마이닝 방법론 등을 통해 도출하고 재난문자에 포함된 다양한 유형의 정보가 국민들의 이동 행태에 어떠한 영향을 미쳤는지를 서울특별시 지역구의 연령별 유동인구의 이동성을 통해 확인하였다. 각 문자에 포함된 주요 단어와 포함된 정보를 분류하는 과정을 거치고 포함된 단어를 기반으로 하는 문서 군집 분석 기법을 적용해 개별 발송 문자를 분석 단위로써 활용할 수 있도록 텍스트 분석을 시행하였다. 이후, 텍스트마이닝을 통해 추출한 재난문자의 특성이 지역별, 연령별 인구이동성에 미친 영향을 규명하였다. 구조화된 모형을 활용하여 재난정보가 인구이동성에 미치는 영향을 기본효과, 누적효과로 구분하여 측정하였다. 지자체가 보유한 재난문자 발송권한으로 인해 재난문자 발송 특성은 지자체별로 상이함을 계량 분석에 활용하였다. 분석 결과 인구이동성에 변화를 유발하는 정보유형은 연령별로 상이함을 확인할 수 있었다. 날짜와 순서에 관련된 정보는 60-70대의 인구이동성을 유의미하게 감소시키는 것을 확인할 수 있었다. 온라인 정보는 20대의 이동성을 감소시켰고, 증상과 관련된 정보는 30대의 인구이동성을 감소시켰다. 한편, 방역 정책 준수를 당부하는 의미를 포함하는 규범적 단어 등은 전 연령의 인구이동성에 유의미한 변화를 불러일으키지 못함을 확인할 수 있었다. 이는 재난대응에 도움이 되는 유의미한 정보들만 재난문자에 포함되어야 함을 의미한다. 한편, 인구이동성에 유의미한 변화를 불러일으키는 정보유형 또한 재난문자가 반복됨에 따라 효과가 상쇄함을 음의 누적효과 추정 결과를 통해 확인할 수 있었다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).