• 제목/요약/키워드: searching performance

검색결과 878건 처리시간 0.023초

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

모바일 랜드마크 가이드 : LOD와 문맥적 장치 기반의 실외 증강현실 (A Mobile Landmarks Guide : Outdoor Augmented Reality based on LOD and Contextual Device)

  • 조비성;누르지드;장철희;이기성;조근식
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.1-21
    • /
    • 2012
  • 최근 스마트폰의 등장으로 인해 사용자들은 시간과 공간의 제약 없이 스마트폰을 이용한 새로운 의사소통의 방법을 경험하고 있다. 이러한 스마트폰은 고화질의 컬러화면, 고해상도 카메라, 실시간 3D 가속그래픽과 다양한 센서(GPS와 Digital Compass) 등을 제공하고 있으며, 다양한 센서들은 사용자들(개발자, 일반 사용자)로 하여금 이전에 경험하지 못했던 서비스를 경험할 수 있도록 지원하고 있다. 그 중에서 모바일 증강현실은 스마트폰의 다양한 센서들을 이용하여 개발할 수 있는 대표적인 서비스 중 하나이며, 이러한 센서들을 이용한 다양한 방법의 모바일 증강현실 연구들이 활발하게 진행되고 있다. 모바일 증강현실은 크게 위치 정보 기반의 서비스와 내용 기반 서비스로 구분할 수 있다. 위치 정보 기반의 서비스는 구현이 쉬운 장점이 있으나, 증강되는 정보의 위치가 실제의 객체의 정확한 위치에 증강되는 정보가 제공되지 않는 경우가 발생하는 단점이 존재한다. 이와 반대로, 내용 기반 서비스는 정확한 위치에 증강되는 정보를 제공할 수 있으나, 구현 및 데이터베이스에 존재하는 이미지의 양에 따른 검색 속도가 증가하는 단점이 존재한다. 본 논문에서는 위치 정보 기반의 서비스와 내용기반의 서비스의 장점들을 이용한 방법으로, 스마트폰의 다양한 센서(GPS, Digital Compass)로 부터 수집된 정보를 이용하여 데이터베이스의 탐색 범위를 줄이고, 탐색 범위에 존재하는 이미지들의 특징 정보를 기반으로 실제의 랜드마크를 인식하고, 인식한 랜드마크의 정보를 링크드 오픈 데이터(LOD)에서 검색하여 해당 정보를 제공하는 랜드마크 가이드 시스템을 제안한다. 제안하는 시스템은 크게 2개의 모듈(랜드마크 탐색 모듈과 어노테이션 모듈)로 구성되어있다. 첫 번째로, 랜드마크 탐색 모듈은 스마트폰으로 인식한 랜드마크(건물, 조형물 등)에 해당하는 정보들을 (텍스트, 사진, 비디오 등) 링크드 오픈 데이터에서 검색하여 검색된 결과를 인식한 랜드마크의 정확한 위치에 정보를 제공하는 역할을 한다. 스마트폰으로부터 입력 받은 이미지에서 특징점 추출을 위한 방법으로는 SURF 알고리즘을 사용했다. 또한 실시간성을 보장하고 처리 속도를 향상 시키기 위한 방법으로는 입력 받은 이미지와 데이터베이스에 있는 이미지의 비교 연산을 수행할 때 GPS와 Digital Compass의 정보를 사용하여 그리드 기반의 클러스터링을 생성하여 탐색 범위를 줄임으로써, 이미지 검색 속도를 향상 시킬 수 있는 방법을 제시하였다. 두 번째로 어노테이션 모듈은 사용자들의 참여에 의해서 새로운 랜드마크의 정보를 링크드 오픈 데이터에 추가할 수 있는 기능을 제공한다. 사용자들은 키워드를 이용해서 링크드 오픈 데이터로에서 관련된 주제를 검색할 수 있으며, 검색된 정보를 수정하거나, 사용자가 지정한 랜드마크에 해당 정보를 표시할 수 있도록 지정할 수 있다. 또한, 사용자가 지정하려고 하는 랜드마크에 대한 정보가 존재하지 않는다면, 사용자는 랜드마크의 사진을 업로드하고, 새로운 랜드마크에 대한 정보를 생성하는 기능을 제공한다. 이러한 과정은 시스템이 카메라로부터 입력 받은 대상(랜드마크)에 대한 정확한 증강현실 컨텐츠를 제공하기 위해 필요한 URI를 찾는데 사용되며, 다양한 각도의 랜드마크 사진들을 사용자들에 의해 협업적으로 생성할 수 있는 환경을 제공한다. 본 연구에서 데이터베이스의 탐색 범위를 줄이기 위해서 랜드마크의 GPS 좌표와 Digital Compass의 정보를 이용하여 그리드 기반의 클러스터링 방법을 제안하여, 그 결과 탐색시간이 기존에는 70~80ms 걸리는 반면 제안하는 방법을 통해서는 18~20ms로 약 75% 정도 향상된 것을 확인할 수 있었다. 이러한 탐색시간의 감소는 전체적인 검색시간을 기존의 490~540ms에서 438~480ms로 약 10% 정도 향상된 것을 확인하였다.

FCA 기반 계층적 구조를 이용한 문서 통합 기법 (Methods for Integration of Documents using Hierarchical Structure based on the Formal Concept Analysis)

  • 김태환;전호철;최종민
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.63-77
    • /
    • 2011
  • 월드와이드웹(World Wide Web)은 인터넷에 연결된 컴퓨터를 통해 사람들이 정보를 공유할 수 있는 매우 큰 분산된 정보 공간이다. 웹은 1991년에 시작되어 개인 홈페이지, 온라인 도서관, 가상 박물관 등 다양한 정보 자원들을 웹으로 표현하면서 성장하였다. 이러한 웹은 현재 5천억 페이지 이상 존재할 것이라고 추정한다. 대용량 정보에서 정보를 효과적이며 효율적으로 검색하는 기술을 적용할 수 있다. 현재 존재하는 몇몇 검색 도구들은 초 단위로 gigabyte 크기의 웹을 검사하여 사용자에게 검색 정보를 제공한다. 그러나 검색의 효율성은 검색 시간과는 다른 문제이다. 현재 검색 도구들은 사용자의 질의에 적합한 정보가 적음에도 불구하고 많은 문서들을 사용자에게 검색해준다. 그러므로 대부분의 적합한 문서들은 검색 상위에 존재하지 않는다. 또한 현재 검색 도구들은 사용자가 찾은 문서와 관련된 문서를 찾을 수 없다. 현재 많은 검색 시스템들의 가장 중요한 문제는 검색의 질을 증가 시키는 것이다. 그것은 검색된 결과로 관련 있는 문서를 증가시키고, 관련 없는 문서를 감소시켜 사용자에게 제공하는 것이다. 이러한 문제를 해결하기 위해 CiteSeer는 월드와이드웹에 존재하는 논문에 대해 한정하여 ACI(Autonomous Citation Indexing)기법을 제안하였다. "Citaion Index"는 연구자가 자신의 논문에 다른 논문을 인용한 정보를 기술하는데 이렇게 기술된 논문과 자신의 논문을 연결하여 색인한다. "Citation Index"는 논문 검색이나 논문 분석 등에 매우 유용하다. 그러나 "Citation Index"는 논문의 저자가 다른 논문을 인용한 논문에 대해서만 자신의 논문을 연결하여 색인했기 때문에 논문의 저자가 다른 논문을 인용하지 않은 논문에 대해서는 관련 있는 논문이라 할지 라도 저자의 논문과 연결하여 색인할 수 없다. 또한 인용되지 않은 다른 논문과 연결하여 색인할 수 없기 때문에 확장성이 용이하지 못하다. 이러한 문제를 해결하기 위해 본 논문에서는 검색된 문서에서 단락별 명사와 동사 및 목적어를 추출하여 해당 동사가 명사 및 목적어를 취할 수 있는 가능한 값을 고려하여 하나의 문서를 formal context 형태로 변환한다. 이 표를 이용하여 문서의 계층적 그래프를 구성하고, 문서의 그래프를 이용하여 문서 간 그래프를 통합한다. 이렇게 만들어진 문서의 그래프들은 그래프의 구조를 보고 각각의 문서의 영역을 구하고 그 영역에 포함관계를 계산하여 문서와 문서간의 관계를 표시할 수 있다. 또한 검색된 문서를 트리 형식으로 보여주어 사용자가 원하는 정보를 보다 쉽게 검색할 수 있는 문서의 구조적 통합 방법에 대해 제안한다. 제안한 방법은 루씬 검색엔진이 가지고 있는 순위 계산 공식을 이용하여 문서가 가지는 중요한 단어를 문서의 참조 관계에 적용하여 비교하였다. 제안한 방법이 루씬 검색엔진보다15% 정도 높은 성능을 나타내었다.

소셜 뉴스를 위한 시간 종속적인 메타데이터 기반의 컨텍스트 공유 프레임워크 (Context Sharing Framework Based on Time Dependent Metadata for Social News Service)

  • 가명현;오경진;홍명덕;조근식
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.39-53
    • /
    • 2013
  • 인터넷의 발달과 SNS의 등장으로 정보흐름의 방식이 크게 바뀌었다. 이러한 변화에 따라 소셜 미디어가 급부상하고 있으며 소셜 미디어와 비디오 콘텐츠가 융합된 소셜 TV, 소셜 뉴스의 중요성이 강조되고 있다. 이러한 환경 속에서 사용자들은 단순히 콘텐츠를 탐색만 하는 것이 아니라 같은 콘텐츠를 이용하고 있는 친구들이나 지인들과 콘텐츠에 대한 정보나 경험들을 공유하고 더 나아가 새로운 콘텐츠를 만들어내기도 한다. 하지만 기존의 소셜 뉴스에서는 이러한 사용자들의 특성을 반영해 주지 못하고 있다. 특히 이용자들의 참여성만을 고려하고 있어서 서비스간의 차별화가 어렵고 뉴스 콘텐츠에 대한 정보나 경험 공유 시 컨텍스트 공유가 어렵다는 문제가 있다. 이를 해결하기 위해 본 논문에서는 뉴스를 내용별로 분할하고 분할된 뉴스에서 추출된 시간 종속적인 메타데이터를 제공하는 프레임워크를 제안한다. 제안하는 프레임워크에서는 스토리 분할 방법을 이용하여 뉴스 대본을 내용별로 분할한다. 또한 뉴스 전체내용을 대표하는 태그, 분할된 뉴스를 나타내는 서브 태그, 분할된 뉴스가 비디오에서 시작하는 위치 즉, 시간 종속적인 메타데이터를 제공한다. 소셜 뉴스 이용자들에게 시간 종속적인 메타데이터를 제공한다면 이용자들은 전체의 뉴스 내용 중에 자신이 원하는 부분만을 탐색 할 수 있으며 이 부분에 대한 견해를 남길 수 있다. 그리고 뉴스의 전달이나 의견 공유 시 메타데이터를 함께 전달함으로써 전달하고자 하는 내용에 바로 접근이 가능하며 프레임워크의 성능은 추출된 서브 태그가 뉴스의 실제 내용을 얼마나 잘 나타내 주느냐에 따라 결정된다. 그리고 서브 태그는 스토리 분할의 정확성과 서브 태그를 추출하는 방법에 따라 다르게 추출된다. 이 점을 고려하여 의미적 유사도 기반의 스토리 분할 방법을 프레임워크에 적용하였고 벤치마크 알고리즘과 성능 비교 실험을 수행하였으며 분할된 뉴스에서 추출된 서브 태그들과 실제 뉴스의 내용을 비교하여 서브 태그들의 정확도를 분석하였다. 결과적으로 의미적 유사도를 고려한 스토리 분할 방법이 더 우수한 성능을 보였으며 추출된 서브 태그들도 컨텍스트와 관련된 단어들이 추출 되었다.

웹검색 트래픽 정보를 활용한 지능형 브랜드 포지셔닝 시스템 : 태블릿 PC 사례를 중심으로 (Intelligent Brand Positioning Visualization System Based on Web Search Traffic Information : Focusing on Tablet PC)

  • 전승표;박도형
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.93-111
    • /
    • 2013
  • 최근 독감 예측이나 부동산가격 예측 등 다양한 분야에서 웹검색 트래픽이나 소셜 네트워크 등의 방대한 고객 데이터를 통해 사회 현상, 소비 트렌드 등을 분석하고자 하는 시도가 증가하고 있다. 최근 구글이나 네이버 등의 인터넷 포털서비스 업체들은 온라인 사용자들의 웹검색 트래픽 정보를 구글 트렌드, 네이버 트렌드 등의 서비스로 공개하고 있는데, 이들이 제공하는 웹검색 트래픽 정보를 기반으로 온라인 사용자들의 정보 검색 행태에 대한 연구들이 학계 업계 등에서 주목받고 있다. 웹검색 정보를 기반으로 사회 현상이나, 소비 동향, 정치 투표 결과 등을 예측해 볼 수 있음을 실증하고 있는 분야는 많은 연구가 수행되고 있지만, 웹검색 트래픽 정보를 이용하여, 소비자의 제품에 대한 중요한 속성 도출 및 소비자의 기대 변화 관측 등의 온라인 사용자 행태에 초점을 맞추어 연구되고 있는 분야는 상대적으로 많은 연구가 수행되고 있지는 않다. 따라서, 본 연구에서는 구글이나 네이버가 제공하는 소비자의 웹검색 트래픽을 활용해서 소비자가 생각하는 제품 포지션을 가시화할 수 있는 방법을 제안한다. 브랜드 간의 관계를 확인하기 위해, 동시 검색 트래픽 정보를 활용하여 네트워크 모델링의 방법을 사용한 시스템을 제안하고 있으며, 이를 통해 소비자들이 제품 간의 유사성을 어떻게 인지하고 형성하며, 새로운 혁신 제품 카테고리 내에서 제품 브랜드들이 소비자의 마음 속에서 어떻게 자리 잡고 있는지의 브랜드 포지셔닝을 확인할 수 있는 방법론을 제안하였다. 또한 이를 태블릿 PC의 사례를 통해서, 미시적인 관점에서 소비자의 마음속에 위치한 태블릿 PC 개별 브랜드들의 위치 및 관계를 보여주었다. 기업은 소비자의 제품에 대한 인식 및 중요 속성 도출을 위해 많은 비용과 시간을 소요하여 소비자 조사를 행하게 되는데, 본 연구의 방법론을 활용하여 소비자의 제품에 대한 인식, 제품간 유사도, 제품에 대한 중요 속성의 변화 등을 일반에게 공개된 검색 트래픽 정보를 활용하여 비교적 쉽고 추가적인 비용 없이 도출할 수 있을 것이다.

쇼핑 웹사이트 탐색 유형과 방문 패턴 분석 (Analysis of shopping website visit types and shopping pattern)

  • 최경빈;남기환
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.85-107
    • /
    • 2019
  • 온라인 소비자는 쇼핑 웹사이트에서 특정 제품군이나 브랜드에 속한 제품들을 둘러보고 구매를 진행할 수 있고, 혹은 단순히 넓은 범위의 탐색 반경을 보이며 여러 페이지들을 돌아보다 구매를 진행하지 않고 이탈할 수 있다. 이러한 온라인 소비자의 행동과 구매에 관련된 연구는 꾸준히 진행되어왔으며, 실무에서도 소비자들의 행동 데이터를 바탕으로 한 서비스 및 어플리케이션이 개발되고 있다. 최근에는 빅데이터 기술의 발달로 소비자 개인 단위의 맞춤화 전략 및 추천 시스템이 활용되고 있으며 사용자의 쇼핑 경험을 최적화하기 위한 시도가 진행되고 있다. 하지만 이와 같은 시도에도 온라인 소비자가 실제로 웹사이트를 방문해 제품 구매 단계까지 전환될 확률은 매우 낮은 실정이다. 이는 온라인 소비자들이 단지 제품 구매를 위해 웹사이트를 방문하는 것이 아니라 그들의 쇼핑 동기 및 목적에 따라 웹사이트를 다르게 활용하고 탐색하기 때문이다. 따라서 단지 구매가 진행되는 방문 외에도 다양한 방문 형태를 분석하는 것은 온라인 소비자들의 행동을 이해하는데 중요하다고 할 수 있다. 이러한 관점에서 본 연구에서는 온라인 소비자의 탐색 행동의 다양성과 복잡성을 설명하기 위해 실제 E-commerce 기업의 클릭스트림 데이터를 기반으로 세션 단위의 클러스터링 분석을 진행해 탐색 행동을 유형화하였다. 이를 통해 각 유형별로 상세 단위의 탐색 행동과 구매 여부가 차이가 있음을 확인하였다. 또한 소비자 개인이 여러 방문에 걸친 일련의 탐색 유형에 대한 패턴을 분석하기 위해 순차 패턴 마이닝 기법을 활용하였으며, 같은 기간 내에 제품 구매까지 완료한 소비자와 구매를 진행하지 않은 채 방문만 진행한 소비자들의 탐색패턴에 대한 차이를 확인할 수 있었다. 본 연구의 시사점은 대규모의 클릭스트림 데이터를 활용해 온라인 소비자의 탐색 유형을 분석하고 이에 대한 패턴을 분석해 구매 과정 상의 행동을 데이터 기반으로 설명하였다는 점에 있다. 또한 온라인 소매 기업은 다양한 형태의 탐색 유형에 맞는 마케팅 전략 및 추천을 통해 구매 전환 개선을 시도할 수 있으며, 소비자의 탐색 패턴의 변화를 통해 전략의 효과를 평가할 수 있을 것이다.

기업정보 기반 지능형 밸류체인 네트워크 시스템에 관한 연구 (A Study on Intelligent Value Chain Network System based on Firms' Information)

  • 성태응;김강회;문영수;이호신
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.67-88
    • /
    • 2018
  • 최근까지도 중소기업의 지속성장 및 경쟁력 확보에 대한 중요함을 인식함에 따라, 정부 차원에서의 유형 자원(R&D 인력, 자금 등)에 대한 지원이 주로 투입되어 왔다. 그러나 사업지원의 적절성이나 효과성, 효율성 면에서 서로 상충되는 정책부분이 존재하여 과소 지원이나 중복 지원 등 지원체계의 비효율성 문제가 제기되어온 것도 사실이다. 정부나 기업 관점에서는 중소기업의 한정된 자원으로 인해, 외부와의 협력을 통한 기술개발 및 역량강화가 기업의 경쟁우위를 창출하는 근간이라 보고 있으며, 이를 위한 가치창출 활동을 강조하고 있다. 기업 레벨에서의 지식생태계 구축을 통해 일련의 가치사슬로부터 기업거래 관계를 분석하고 결과를 가시화할 수 있는 밸류체인 네트워크 분석이 필요한 것도 이 때문이다. 특허/제품/기업명 검색을 통해 관련 제품의 정보나 특허 보유 기업의 기술(제품) 현황 정보를 제공하는 기술기회발굴시스템(Technology Opportunity Discovery system), 기업(재무)정보와 신용정보을 열람하게 해주는 CRETOP이나 KISLINE 등은 존재하고 있으나 밸류체인 네트워크 분석기반으로 유사(경쟁)기업의 리스트나 향후 거래 가능한 잠재 거래처 정보를 제공해주는 시스템은 부재한 실정이다. 따라서, 본 고에서는 KISTI에서 개발 운영중인 기업 비즈니스 전략수립 지원 파트너인 '밸류체인 네트워크 시스템(Value Chain Network System : VCNS)'을 중심으로, 탑재된 네트워크 기반 분석모듈의 유형, 이를 지원하는 참조정보 및 데이터베이스(D/B)의 구성 로직과 시스템 활용방안을 고찰하며, 산업구조를 이해하고 기업의 신제품 개발을 위한 핵심정보가 되고 있는 지능형 밸류체인 분석 시스템의 네트워크 가시화 기능을 살펴보기로 한다. 한 기업이 다른 기업 대비 경쟁우위를 확보하기 위해서는 보유 특허 또는 현재 생산하고 있는 제품에 대한 경쟁자 식별이 필요하며, 세부 업종별 유사(경쟁)기업을 탐색하는 일은 대상기업의 사업화 경쟁력 확보에 핵심이 된다. 또한 기업간 비즈니스 활동인 거래정보는 유사 분야로 진출할 경우 잠재 거래처 정보를 제공하는 중요한 역할을 수행한다. 이러한 기업간 판매정보를 기반으로 구축된 네트워크 맵을 활용하여 기업 또는 업종 수준의 경쟁자를 식별하는 일은 밸류체인 분석의 핵심모듈로 탑재될 수 있다. 밸류체인 네트워크 시스템(VCNS)은 단순 수집된 종래의 기업정보에 밸류체인(value chain) 및 산업구조 분석개념을 접목하여 개별 기업의 시장경쟁 상황은 물론 특정 산업의 가치사슬 관계를 파악할 수 있다. 특히 업종구조 파악, 경쟁사 동향 파악, 경쟁사 분석, 판매처 및 구매처 발굴, 품목별 산업동향, 유망 품목 발굴, 신규 진입기업 발굴, VC별 핵심기업 및 품목 도출, 해당 기업별 보유 특허 파악 등 기업 레벨에서의 유용한 정보분석 툴로 활용 가능하다. 또한, 거래처 정보 및 재무데이터로부터 분석된 결과의 객관성 및 신뢰성을 기반으로, 현재 국내에서 이용 중인 15,000여개 회원기업과 연구개발서비스업 종사자, 출연(연) 및 공공기관 등에서 사업평가 정보지원, R&D 의사결정 지원 및 중 단기 수요예측 전망 등 다양한 목적(용도)에 밸류체인 네트워크 시스템을 활용할 수 있을 것으로 기대된다. 기업의 사업경쟁력 강화를 위해 정부기관 및 민간 연구개발서비스 기업을 중심으로 기술(특허) 및 시장정보가 제공되어 왔으며, 이는 특허분석(등급, 계량분석 위주) 또는 시장분석(시장보고서 기반 시장규모 및 수요예측 위주)의 형태로 지원되어 왔다. 그러나 기업이 사업화진출 단계에서 겪게 되는 애로요인의 하나인 정보부족을 해결하는데 한계가 있었으며, 특히 경쟁기업 및 거래가능 기업 후보군에 대한 탐색정보는 입수하기 어려웠다. 본 연구를 통해 제안된 네트워크맵 및 보유 데이터 기반의 실시간 밸류체인 가시화 서비스모듈이 중견 중소기업이 당면한 신규시장 진출시 경쟁기업 대비 예상점유율, (예상)매출액 수준, 어느 기업을 컨택하여 유통망(원자재/부품에 대한 공급처, 완제품/모듈에 대한 수요처)을 확보할 지에 대한 핵심정보를 제공할 수 있을 것으로 기대된다. 향후 연구에서는 대체기업(또는 대체품목) 경쟁지표의 개발과 연구주체의 참여를 통한 경쟁요인별 지표의 고도화 연구, VCNS의 성능향상을 위한 데이터마이닝 기술 및 알고리즘을 추가 반영하도록 수행하고자 한다.

웹검색 트래픽 정보를 활용한 유커 인바운드 여행 수요 예측 모형 및 유커마이닝 시스템 개발 (Development of Yóukè Mining System with Yóukè's Travel Demand and Insight Based on Web Search Traffic Information)

  • 최유지;박도형
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.155-175
    • /
    • 2017
  • 최근 독감 예측이나 당선인 예측, 구매 패턴, 투자 등 다방면에서 웹검색 트래픽 정보. 소셜 네트워크 내용 등 거대한 데이터를 통해 사회적 현상, 소비 패턴을 분석하는 시도가 이전보다 늘어났다. 구글, 네이버, 바이두 등 인터넷 포털 업체들의 웹검색 트래픽 정보 공개 서비스와 함께 웹검색 트래픽 정보를 활용하여 소비자나 사용자와 관련된 연구가 실시되기 시작했다. 웹검색 트래픽 정보를 활용한 사회 현상, 소비 패턴 분석을 연구는 많이 수행되었으나, 그에 비해서 도출된 여행 수요 모델을 토대로 의사결정을 위한 실질적 대책 수립으로 이어지는 연구는 많이 진행되지 않은 실정이다. 관광산업은 상대적으로 많은 고용을 가능하게 하고 외자를 유치하는 등 고부가가치를 창출하여 경제 전체에 선순환 효과를 일으키는 중요한 산업이다. 그 중에서도 국내 입국외래객중 수년간 2위와의 큰 차이로 1위를 차지해왔던 중국 국적의 관광객 '유커' 및 그들이 지출하는 1인당 평균 관광 수지는 한국 경제에 매우 중요한 한 부분이다. 관광 수요의 예측은 효율적인 자원 배분과 합리적인 의사 결정에 있어서 공공부문 및 민간부문 모두 중요하다. 적절한 관광 수요 예측을 통해서 한정된 자원을 더욱 효과적으로 활용하여 더욱 많은 부가가치를 창출하기 위한 것이다. 본 연구는 중국인 인바운드를 예측하는 방법에 있어, 이전보다 더 최신의 트렌드를 즉각적으로 반영하고 개인들의 집합의 관심도가 포함되어 예측 성능이 개선된 방법을 제안한다. 해외여행은 고관여 소비이기 때문에 잠재적 여행객들이 입국하기 전 웹검색을 통해 적극적으로 자신의 여정과 관련된 정보를 취득하기 위한 활동을 한다. 따라서 웹검색 트래픽 수치가 중국인 여행객의 관심정도를 대표할 수 있다고 보았다. 중국인 여행객들이 한국 여행을 준비하는 단계에서 검색할만한 키워드를 선정해 실제 중국인 입국자 수와 상관관계가 있음을 검증하고자 하였다. 중국 웹검색 엔진 시장에서 80%의 점유율을 가지는 중국 최대 웹검색 엔진 '바이두'에서 공개한 웹검색 데이터를 활용하여 그 관심 정도를 대표할 수 있을 것이라 추정했다. 수집에 필요한 키워드의 선정 단계에서는 잠재적 여행객이 여정을 계획하고 구체화하는 단계에서 일반적으로 검색하게 되는 키워드 후보군을 선정하였다. 키워드의 선정에는 중국 국적의 잠재적 여행객 표본과의 인터뷰를 거쳤다. 트래픽 대소 관계 확인 결과에 따라서 최종 선정된 키워드들을 한국여행이라는 주제와 직접적인 연관을 가지는 키워드부터, 간접적인 연관을 가지는 키워드까지 총 세 가지 레벨의 카테고리로 분류하였다. 분류된 카테고리 내의 키워드들은 바이두'가 제공하는 웹검색 트래픽 데이터 제공 서비스 '바이두 인덱스'를 통해 웹검색 트래픽 데이터를 수집했다. 공개된 데이터 페이지 특성을 고려한 웹 크롤러를 직접 설계하여 웹검색 트래픽 데이터를 수집하였고, 분리되어 수집된 변수에는 필요한 변수 변환 과정을 수행했다. 자동화 수집된 웹검색 트래픽 정보들을 투입하여 중국 여행 인바운드에 대한 유의한 영향 관계를 확인하여 중국인 여행객의 한국 인바운드 여행 수요를 예측하는 모형을 개발하고자 하였다. 정책 의사결정 및 관광 경영 의사결정 같은 실무적 활용을 고려하여 각 변수의 영향력을 정량적으로 설명할 수 있고 설득이 명료한 방법인 다중회귀분석방법을 적용해 선형 식을 도출하였다. 수집된 웹검색 트래픽 데이터를 기존 검증된 모형 독립변인들에 추가적으로 투입함으로써 전통적인 독립변인으로만 구성된 연구 모형과 비교하여 가장 뛰어난 성능을 보이는 모형을 확인하였다. 본 연구에서 검증하려는, 웹검색 트래픽으로 대표되는 독립변인을 투입한 최종 도출된 모형을 통해 중국인 관광 수요를 예측할 때 유의한 영향을 끼치는 웹검색 트래픽 변수를 확인할 수 있다. 최적 모형 설명력을 가지는 모형을 기반으로 최종 회귀 식을 만들었고 이를 '유커마이닝' 시스템 내부에 도입하였다. 데이터 분석에서 더 나아가 도출된 모형을 직관적으로 시각화하고, 웹검색 트래픽 정보를 활용하여 도출할 수 있는 인사이트를 함께 보여주는 데이터 분석 기반의 '유커마이닝' 솔루션의 시스템 알고리즘과 UX를 제안하였다. 본 연구가 제안하는 모형과 시스템은 관광수요 예측모형 분야에서 웹검색 트래픽 데이터라는 정보 탐색을 하는 과정에 놓인 개인들의 인터랙티브하고 즉각적인 변수를 활용한 새로운 시도이다. 실무적으로 관련 정책결정자나 관광사, 항공사 등이 활용 가능한 실제적인 가치를 가지고, 정책적으로도 효과적인 관광 정책 수립에 활용될 수 있다.