• 제목/요약/키워드: Intelligence Based Society

검색결과 2,875건 처리시간 0.033초

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

K-Means Clustering 알고리즘과 헤도닉 모형을 활용한 서울시 연립·다세대 군집분류 방법에 관한 연구 (A Study on the Clustering Method of Row and Multiplex Housing in Seoul Using K-Means Clustering Algorithm and Hedonic Model)

  • 권순재;김성현;탁온식;정현희
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.95-118
    • /
    • 2017
  • 최근 도심을 중심으로 연립 다세대의 거래가 활성화되고 직방, 다방등과 같은 플랫폼 서비스가 성장하고 있다. 연립 다세대는 수요 변화에 따른 시장 규모 확대와 함께 정보 비대칭으로 인해 사회적 문제가 발생 되는 등 부동산 정보의 사각지대이다. 또한, 서울특별시 또는 한국감정원에서 사용하는 5개 또는 25개의 권역 구분은 행정구역 내부를 중심으로 설정되었으며, 기존의 부동산 연구에서 사용되어 왔다. 이는 도시계획에 의한 권역구분이기 때문에 부동산 연구를 위한 권역 구분이 아니다. 이에 본 연구에서는 기존 연구를 토대로 향후 주택가 격추정에 있어 서울특별시의 공간구조를 재설정할 필요가 있다고 보았다. 이에 본 연구에서는 연립 다세대 실거래가 데이터를 기초로 하여 헤도닉 모형에 적용하였으며, 이를 K-Means Clustering 알고리즘을 사용해 서울특별시의 공간구조를 다시 군집하였다. 본 연구에서는 2014년 1월부터 2016년 12월까지 3년간 국토교통부의 서울시 연립 다세대 실거래가 데이터와 2016년 공시지가를 활용하였다. 실거래가 데이터에서 본 연구에서는 지하거래 제거, 면적당 가격 표준화 및 5이상 -5이하의 실거래 사례 제거와 같이 데이터 제거를 통한 데이터 전처리 작업을 수행하였다. 데이터전처리 후 고정된 초기값 설정으로 결정된 중심점이 매번 같은 결과로 나오게 K-means Clustering을 수행한 후 군집 별로 헤도닉 모형을 활용한 회귀분석을 하였으며, 코사인 유사도를 계산하여 유사성 분석을 진행하였다. 이에 본 연구의 결과는 모형 적합도가 평균 75% 이상으로, 헤도닉 모형에 사용된 변수는 유의미하였다. 즉, 기존 서울을 행정구역 25개 또는 5개의 권역으로 나뉘어 실거래가지수 등 부동산 가격 관련 통계지표를 작성하던 방식을 속성의 영향력이 유사한 영역을 묶어 16개의 구역으로 나누었다. 따라서 본 연구에서는 K-Means Clustering 알고리즘에 실거래가 데이터로 헤도닉 모형을 활용하여 연립 다세대 실거래가를 기반으로 한 군집분류방법을 도출하였다. 또한, 학문적 실무적 시사점을 제시하였고, 본 연구의 한계점과 향후 연구 방향에 대해 제시하였다.

시계열 군집분석을 통한 디지털 음원의 순위 변화 패턴 분류 (Derivation of Digital Music's Ranking Change Through Time Series Clustering)

  • 유인진;박도형
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.171-191
    • /
    • 2020
  • 본 연구는 현대 사회에서 가장 가치 있는 문화자산이자 한류의 흐름에서 특히 중요한 위치를 차지하는 디지털 음악에 초점을 두었다. 디지털 음악에 대하여 공신력 있는 음원 차트인 '가온 차트'에 진입한 음원들의 73주간 순위 변화를 수집하였으며 유사한 특징을 가지는 패턴들로 분류하였다. 이후 각 순위 변화 패턴으로부터 주목할 만한 특징에 대한 설명적 분석을 수행하였다. 구체적으로 음원에 대한 신뢰도 이슈가 발생하기 이전 기간의 국내 발매된 디지털 음원들로 한정하여 시점을 일치시킨 후 시계열 군집분석을 통해 패턴을 도출하고자 하였다. 데이터 수집과 전처리를 통하여 742건의 중복되지 않는 음원들을 확보하였고, 시계열 순위 변화에 대한 시계열 군집분석 결과 16개의 패턴들이 도출되었다. 이후 도출된 패턴들을 기반으로 '스테디셀러'와 '원 히트 원더'의 두 가지 유형의 대표적인 패턴을 확인하였다. 나아가 두 패턴에 대하여 차트 내에서 음원의 생존 기간과 음원 순위에 관점에서 다섯 가지의 세분화된 패턴으로 분류하였다. 각 패턴들이 가지는 중요한 특징들은 다음과 같다. 원 히트 원더형 패턴에서 아티스트의 슈퍼스타 효과와 편승효과가 강하게 나타났으며, 소비자들의 디지털 음원 선택에 강한 영향을 미친다는 것을 확인하였다. 나아가 스테디셀러형 패턴을 통해서 매우 오랜시간 소비자들의 선택을 받는 음원들을 확인하였고, 소비자의 니즈를 관통하며 가장 많은 선택을 받는 음원들이 오히려 원 히트 원더형 패턴이 아니라 스테디셀러: 중기 패턴에 포진하고 있음을 확인하였다. 특히 주목할 만한 점은 스테디셀러형 패턴을 통해 기존의 패턴과는 상반되는 '차트 역주행' 현상을 확인했다는 것이다. 본 연구는 디지털 음원을 중심으로 상대적으로 소외되었던 분야인 시간의 흐름에 따른 음원의 순위 변화에 초점을 두었고, 음원의 흥행과 순위를 예측하는 것이 아니라 순위 변화의 패턴을 세분화함으로써 음원 연구에 대한 새로운 접근을 시도하였다는 점에서 의의가 있다.

트윗 데이터를 활용한 IT 트렌드 분석 (An Analysis of IT Trends Using Tweet Data)

  • 이진백;이충권;차경진
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.143-159
    • /
    • 2015
  • 불확실한 환경변화에 대처하고 장기적 전략수립을 위해 기업에게 있어서 IT 트렌드에 대한 예측은 오랫동안 중요한 주제였다. IT 트렌드에 대한 예측을 기반으로 새로운 시대에 대한 인식을 하고 예산을 배정하여 빠르게 변화하는 기술의 추세에 대비할 수 있기 때문이다. 해마다 유수의 컨설팅업체들과 조사기관에서 차년도 IT 트렌드에 대해서 발표되고는 있지만, 이러한 예측이 실제로 차년도 비즈니스 현실세계에서 나타났는지에 대한 연구는 거의 없었다. 본 연구는 현존하는 빅데이터 기술을 활용하여 서울지역을 중심으로 지난 8개월동안(2013년 5월1일부터 2013년12월31까지) 정보통신산업진흥원과 한국정보화진흥원에서 2012년 말에 발표한 IT 트렌드 토픽이 언급된 21,589개의 트윗 데이터를 수집하여 분석하였다. 또한 2013년에 나라장터에 올라온 프로젝트들이 IT트렌드 토픽과 관련이 있는지 상관관계분석을 실시하였다. 연구결과, 빅데이터, 클라우드, HTML5, 스마트홈, 테블릿PC, UI/UX와 같은 IT토픽은 시간이 지날수록 매우 빈번하게 언급되어졌으며, 이 같은 토픽들은 2013년 나라장터 공고 프로젝트 데이터와도 매우 유의한 상관관계를 가지고 있는 것을 확인할 수 있었다. 이는 전년도(2012년)에 예측한 트렌드들이 차년도(2013년)에 실제로 트위터와 한국정부의 공공조달사업에 반영되어 나타나고 있는 것을 의미한다. 본 연구는 최신 빅데이터툴을 사용하여, 유수기관의 IT트렌드 예측이 실제로 트위터와 같은 소셜미디에서 생성되는 트윗데이터에서 얼마나 언급되어 나타나는지 추적했다는 점에서 중요한 의의가 있고, 이를 통해 트위터가 사회적 트랜드의 변화를 효율적으로 추적하기에 유용한 도구임을 확인하고자 할 수 있었다.

기업정보 기반 지능형 밸류체인 네트워크 시스템에 관한 연구 (A Study on Intelligent Value Chain Network System based on Firms' Information)

  • 성태응;김강회;문영수;이호신
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.67-88
    • /
    • 2018
  • 최근까지도 중소기업의 지속성장 및 경쟁력 확보에 대한 중요함을 인식함에 따라, 정부 차원에서의 유형 자원(R&D 인력, 자금 등)에 대한 지원이 주로 투입되어 왔다. 그러나 사업지원의 적절성이나 효과성, 효율성 면에서 서로 상충되는 정책부분이 존재하여 과소 지원이나 중복 지원 등 지원체계의 비효율성 문제가 제기되어온 것도 사실이다. 정부나 기업 관점에서는 중소기업의 한정된 자원으로 인해, 외부와의 협력을 통한 기술개발 및 역량강화가 기업의 경쟁우위를 창출하는 근간이라 보고 있으며, 이를 위한 가치창출 활동을 강조하고 있다. 기업 레벨에서의 지식생태계 구축을 통해 일련의 가치사슬로부터 기업거래 관계를 분석하고 결과를 가시화할 수 있는 밸류체인 네트워크 분석이 필요한 것도 이 때문이다. 특허/제품/기업명 검색을 통해 관련 제품의 정보나 특허 보유 기업의 기술(제품) 현황 정보를 제공하는 기술기회발굴시스템(Technology Opportunity Discovery system), 기업(재무)정보와 신용정보을 열람하게 해주는 CRETOP이나 KISLINE 등은 존재하고 있으나 밸류체인 네트워크 분석기반으로 유사(경쟁)기업의 리스트나 향후 거래 가능한 잠재 거래처 정보를 제공해주는 시스템은 부재한 실정이다. 따라서, 본 고에서는 KISTI에서 개발 운영중인 기업 비즈니스 전략수립 지원 파트너인 '밸류체인 네트워크 시스템(Value Chain Network System : VCNS)'을 중심으로, 탑재된 네트워크 기반 분석모듈의 유형, 이를 지원하는 참조정보 및 데이터베이스(D/B)의 구성 로직과 시스템 활용방안을 고찰하며, 산업구조를 이해하고 기업의 신제품 개발을 위한 핵심정보가 되고 있는 지능형 밸류체인 분석 시스템의 네트워크 가시화 기능을 살펴보기로 한다. 한 기업이 다른 기업 대비 경쟁우위를 확보하기 위해서는 보유 특허 또는 현재 생산하고 있는 제품에 대한 경쟁자 식별이 필요하며, 세부 업종별 유사(경쟁)기업을 탐색하는 일은 대상기업의 사업화 경쟁력 확보에 핵심이 된다. 또한 기업간 비즈니스 활동인 거래정보는 유사 분야로 진출할 경우 잠재 거래처 정보를 제공하는 중요한 역할을 수행한다. 이러한 기업간 판매정보를 기반으로 구축된 네트워크 맵을 활용하여 기업 또는 업종 수준의 경쟁자를 식별하는 일은 밸류체인 분석의 핵심모듈로 탑재될 수 있다. 밸류체인 네트워크 시스템(VCNS)은 단순 수집된 종래의 기업정보에 밸류체인(value chain) 및 산업구조 분석개념을 접목하여 개별 기업의 시장경쟁 상황은 물론 특정 산업의 가치사슬 관계를 파악할 수 있다. 특히 업종구조 파악, 경쟁사 동향 파악, 경쟁사 분석, 판매처 및 구매처 발굴, 품목별 산업동향, 유망 품목 발굴, 신규 진입기업 발굴, VC별 핵심기업 및 품목 도출, 해당 기업별 보유 특허 파악 등 기업 레벨에서의 유용한 정보분석 툴로 활용 가능하다. 또한, 거래처 정보 및 재무데이터로부터 분석된 결과의 객관성 및 신뢰성을 기반으로, 현재 국내에서 이용 중인 15,000여개 회원기업과 연구개발서비스업 종사자, 출연(연) 및 공공기관 등에서 사업평가 정보지원, R&D 의사결정 지원 및 중 단기 수요예측 전망 등 다양한 목적(용도)에 밸류체인 네트워크 시스템을 활용할 수 있을 것으로 기대된다. 기업의 사업경쟁력 강화를 위해 정부기관 및 민간 연구개발서비스 기업을 중심으로 기술(특허) 및 시장정보가 제공되어 왔으며, 이는 특허분석(등급, 계량분석 위주) 또는 시장분석(시장보고서 기반 시장규모 및 수요예측 위주)의 형태로 지원되어 왔다. 그러나 기업이 사업화진출 단계에서 겪게 되는 애로요인의 하나인 정보부족을 해결하는데 한계가 있었으며, 특히 경쟁기업 및 거래가능 기업 후보군에 대한 탐색정보는 입수하기 어려웠다. 본 연구를 통해 제안된 네트워크맵 및 보유 데이터 기반의 실시간 밸류체인 가시화 서비스모듈이 중견 중소기업이 당면한 신규시장 진출시 경쟁기업 대비 예상점유율, (예상)매출액 수준, 어느 기업을 컨택하여 유통망(원자재/부품에 대한 공급처, 완제품/모듈에 대한 수요처)을 확보할 지에 대한 핵심정보를 제공할 수 있을 것으로 기대된다. 향후 연구에서는 대체기업(또는 대체품목) 경쟁지표의 개발과 연구주체의 참여를 통한 경쟁요인별 지표의 고도화 연구, VCNS의 성능향상을 위한 데이터마이닝 기술 및 알고리즘을 추가 반영하도록 수행하고자 한다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

ICT 기반 다중 가치사슬의 동적 플랫폼에서의 공존 모형: 의료서비스를 중심으로 (A Coexistence Model in a Dynamic Platform with ICT-based Multi-Value Chains: focusing on Healthcare Service)

  • 이현정;장용식
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.69-93
    • /
    • 2017
  • ICT는 제조기반 산업사회에서 가치사슬의 효율성/효과성의 지원을 목적으로 도입되었으나 정보기반 산업사회에서는 ICT가 시장 가치 창출의 주체가 되어 다중 가치사슬의 형성 가능성을 기대하게 하였다. 즉, ICT의 발전은 공급 및 수요의 다변화와 다양성의 동인이 되면서 가치를 창출하기 시작했고, 이를 중심으로 하는 신 가치 사슬의 등장은 구 가치사슬과의 충돌의 문제를 야기하였다. 즉, 다중 가치사슬이 존재 가능한 플랫폼에서는 가치사슬 간의 충돌, 중첩, 생성, 상실 등의 동적 상황 등에 따른 신/구 가치의 창출과 소멸 등이 발생하게 된다. 예를 들어, ICT에 기반을 둔 우버택시 서비스는 신 가치사슬을 형성하여 택시서비스 시장에서 신/구 가치사슬간의 충돌을 야기했다. 제조기반 산업사회에서는 단일 가치사슬의 시장 선점이 중요하였으나, ICT 기반 융합 제품/서비스/정보가 유통되는 플랫폼에서는 시장 상황 변수의 동적 변화에 따라 다중의 가치사슬이 존재하면서 서로 충돌과 공존을 야기하게 되었다. 따라서 ICT에 기반을 둔 지능형 정보사회의 발전과 함께 시장가치 최대화를 위해 다중 가치사슬 간 충돌 최소화와 공존의 최대 가능성을 높일 수 있는 모형의 제시가 중요하다. 본 연구에서는 먼저 의료서비스 시장을 중심으로 하는 다중 가치사슬의 동적 플랫폼 형성에 대해 논의한다. 즉, 의료서비스 시장에 ICT 기반 원격 및 지능형 의료서비스 등이 구 시장에 진입함으로써 발생하는 가치사슬 간의 충돌을 최소화하고 공존 가능성을 높이기 위한 공존 요인 변수에 대해 논의 한다. 이를 위해 다중의 공급과 소비 및 서비스가 존재 가능한 다중 가치사슬이 충돌 및 중첩하는 과정에서 공존 요인 변수 등에 기반하여 가치 사슬들을 동적으로 생성/변화/소멸 및 공존하기까지 의료서비스 플랫폼에 대해 논의한다. 또한 플랫폼 내의 각 가치사슬의 생산가치의 증가와 가치사슬 간의 상호 작용에 의한 부가가치의 창출 등에 의해 플랫폼의 총 가치가 증가 될 수 있음을 논의한다. 마지막으로 공존 모형을 제안하고 실험을 통해 가치사슬 간의 공존 가능성을 제시한다.

전자 팔찌를 이용한 전자 출석부.어린이 보호 장치 시스템 (Electronic Roll Book using Electronic Bracelet.Child Safe-Guarding Device System)

  • 문승진;김태남;김판수
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.143-155
    • /
    • 2011
  • 본 논문에서는 RFID 기반의 전자 팔찌를 이용한 전자 출석부 및 어린이 보호팔찌 시스템을 제안한다. 제안된 시스템에서는 임베디드시스템 기반의 RFID 기술을 응용한 전자 출석부가 필요하며, 위치 추적과 동시에 범인의 전자 팔찌와 반응할 수 있는 GPS 시스템이 있어야 한다. 또한 이동 통신 모듈을 이용한 RFID 전자 팔찌와 임베디드시스템 기반의 RFID 출입 통제 시스템이 필요하며 상황정보를 전송 받을 수 있는 스마트폰 등의 모바일 시스템이 있어야 한다. 이렇게 동시에 연동될 수 있는 장비와 시스템들을 융합하여 사용한다면 아이들이 안전하게 유치원이나 학교를 다닐 수 있을 것이다. 본 논문의 구성은 RFID 리더기와 임베디드시스템 기반의 전자 출석부(고정용 리더기) 및 출입 통제 시스템, RFID 태그와 리더기, GPS 및 이동 통신 모듈(CELL 방식)를 활용한 추적 시스템을 가진 전자 팔찌로 이루어져 있다.

SNS에서의 개선된 소셜 네트워크 분석 방법 (Improved Social Network Analysis Method in SNS)

  • 손종수;조수환;권경락;정인정
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.117-127
    • /
    • 2012
  • 최근 온라인 소셜 네트워크 서비스(SNS)의 사용자가 크게 늘어나고 있으며 다양한 분야에서 SNS의 사용자 관계 구조 및 메시지를 분석하기 위한 연구를 진행하고 있다. 그러나 대부분의 소셜 네트워크 분석 방법들은 노드 사이의 최단 거리를 기초로 하고 있으므로 계산 시간이 오래 걸린다. 이는 점차 대형화 되어가는 SNS의 데이터를 여러 분야에서 활용하는데 걸림돌이 되고 있다. 이에 따라 본 논문에서는 SNS의 사용자 그래프에서 사용자간 최단거리를 빠르게 찾기 위한 휴리스틱 기반의 최단 경로 탐색 방법을 제안한다. 제안하는 방법은 1) 트리로 표현된 소셜 네트워크에서 시작 노드와 목표 노드를 설정한다. 그리고 2) 만약 목표 노드가 경사 트리의 단말에 있다면 경사 트리가 시작하는 노드를 임시 골 노드로 설정한다. 마지막으로 3) 연결의 차수를 평가값으로 하는 휴리스틱 기반 최단거리 탐색을 수행한다. 이렇게 최단거리를 탐색한 후 매개 중심성 분석(Betweenness Centrality) 및 근접 중심성(Closeness Centrality)를 계산한다. 제안하는 방법을 사용하면 소셜 네트워크 분석에서 가장 많은 시간이 필요한 최단거리 탐색을 빠르게 수행할 수 있으므로 소셜 네트워크 분석의 효율성을 기대할 수 있다. 본 논문에서 제안하는 방법을 검증하기 위하여 약 16만 명으로 구성된 SNS에서의 실제 데이터를 이용하여 매개 중심성 분석과 근접 중심성 분석을 수행하였다. 실험 결과, 제안하는 방법은 전통적 방식에 비하여 매개 중심성, 근접 중심성의 계산 시간이 각각 6.8배, 1.8배 더 빠른 결과를 보였다. 본 논문에서 제안한 방법은 소셜 네트워크 분석의 시간을 향상시켜 여러 분야에서 사회 현상 및 동향을 분석하는데 유용하게 활용될 수 있다.

온라인 쇼핑몰에서 상품 설명 이미지 내의 키워드 인식을 위한 딥러닝 훈련 데이터 자동 생성 방안 (The way to make training data for deep learning model to recognize keywords in product catalog image at E-commerce)

  • 김기태;오원석;임근원;차은우;신민영;김종우
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.1-23
    • /
    • 2018
  • E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문에 컴퓨터가 인지할 수 있는 텍스트 기반 검색 시스템에 반영될 수 없다는 한계가 존재한다. 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할 수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는 지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다. 본 연구는 이러한 문제점을 해결하기 위해 '훈련 데이터 자동 생성 프로그램'을 함께 개발하였다. 훈련 데이터 자동 생성 프로그램을 통해 수작업으로 데이터를 만드는 것에 비하여 시간과 비용을 대폭 절감할 수 있었으며, 생성된 훈련용 데이터를 통해 모형의 인식 성능을 높일 수 있었다. 더 나아가 실험연구를 통해 자동으로 생성된 훈련 데이터의 특징별로 인식기 모형의 성능에 얼마나 큰 영향을 끼치는지 알아보고, 성능 향상에 효과적인 데이터의 특징을 분석하였다. 본 연구를 통해서 개발된 상품 카탈로그 내 텍스트 인식모형과 훈련 데이터 자동 생성 프로그램은 온라인 쇼핑몰 판매자들의 상품 정보 등록 수고를 줄여줄 수 있으며, 구매자들의 상품 검색 시 결과의 정확성을 향상시키는 데 기여할 수 있을 것으로 기대한다.