• 제목/요약/키워드: Intelligent information systems

검색결과 4,260건 처리시간 0.032초

인터넷 검색기록 분석을 통한 쇼핑의도 포함 키워드 자동 추출 기법 (A Methodology for Extracting Shopping-Related Keywords by Analyzing Internet Navigation Patterns)

  • 김민규;김남규;정인환
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.123-136
    • /
    • 2014
  • 최근 온라인 및 다양한 스마트 기기의 사용이 확산됨에 따라 온라인을 통한 쇼핑구매가 더욱 활성화 되었다. 때문에 인터넷 쇼핑몰들은 쇼핑에 관심이 있는 잠재 고객들에게 한 번이라도 더 자사의 링크를 노출시키기 위해 키워드에 비용을 지불할 용의가 있으며, 이러한 추세는 검색 광고 시장의 광고비를 증가시키는 원인을 제공하였다. 이 때 키워드의 가치는 대체로 검색어의 빈도수에 기반을 두어 산정된다. 하지만 포털 사이트에서 검색어로 자주 입력되는 모든 단어가 쇼핑과 관련이 있는 것은 아니며, 이들 키워드 중에는 빈도수는 높지만 쇼핑몰 관점에서는 별로 수익과 관련이 없는 키워드도 다수 존재한다. 그렇기 때문에 특정 키워드가 사용자들에게 많이 노출된다고 해서, 이를 통해 구매가 이루어질 것을 기대하여 해당 키워드에 많은 광고비를 지급하는 것은 매우 비효율적인 방식이다. 따라서 포털 사이트의 빈발 검색어 중 쇼핑몰 관점에서 중요한 키워드를 추출하는 작업이 별도로 요구되며, 이 과정을 빠르고 효과적으로 수행하기 위한 자동화 방법론에 대한 수요가 증가하고 있다. 본 연구에서는 이러한 수요에 부응하기 위해 포털 사이트에 입력된 키워드 중 쇼핑의도를 포함하고 있을 가능성이 높을 것으로 추정되는 키워드만을 자동으로 추출하는 방안을 제시하고, 구체적으로는 전체 검색어 중 검색결과 페이지에서 쇼핑과 관련 된 페이지로 이동한 검색어만을 추출하여 순위를 집계하고, 이 순위를 전체 검색 키워드의 순위와 비교하였다. 국내 최대의 검색 포털인 'N'사에서 이루어진 검색 약 390만 건에 대한 실험결과, 제안 방법론에 의해 추천된 쇼핑의도 포함 키워드가 단순 빈도수 기반의 키워드에 비해 정확도, 재현율, F-Score의 모든 측면에서 상대적으로 우수한 성능을 보이는 것으로 나타남을 확인할 수 있었다.

모바일 앱 사용에 영향을 미치는 요인에 관한 연구: 앱 카테고리 간 상관관계를 중심으로 (Determinants of Mobile Application Use: A Study Focused on the Correlation between Application Categories)

  • 박상규;이동원
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.157-176
    • /
    • 2016
  • 스마트폰, 태블릿PC와 같은 모바일 기기의 확산과 더불어 앱의 보급도 크게 늘어나면서 우리 일상의 다양한 분야에서 활용되고 있다. 게임, 생활, 엔터테인먼트, 정보, 전자상거래 등 다양한 종류의 수많은 앱이 생겨나고 있으나, 그들 중 대부분이 사용자의 구매 선택조차 받지 못하고 있으며, 구매가 이루어진 이후에도 많은 수는 오랫동안 사용되지 않고 외면당하고 있다. 사용자가 앱을 선택하고 사용하는 데에 영향을 미치는 요인을 찾는 연구는 사용자에게 적합한 앱을 선별적으로 추천하는 데에 활용됨으로써 마케팅 효과를 높일 수 있다는 점에서 앱 개발자나 배포자 및 사용자 모두에게 기여하는 실무적 가치가 크다고 할 수 있을 것이다. 이런 관점에서, 본 연구는 앱의 사용에 영향을 미치는 요인이 앱 유형별로 어떻게 달라지는지를 파악하려는 목적에서 수행되었다. 앱 사용에 영향을 미치는 요인으로서 사용자의 인구통계학적 특성뿐만 아니라 사용자가 앱을 구매하고 사용한 경험, 구매 시 참고한 앱에 대한 객관적 평가인 별점, 마케팅의 수단으로서 상품의 소개 화면에 노출되는 배지(Badge)의 영향을 살펴보았다. 사용자의 앱 선택에 영향을 미치는 요인에 대한 기존 연구들은 대부분 설문에 대한 응답 결과를 분석에 사용함으로써 사용기록이 정확히 반영하지 못하는 한계점을 갖는 반면, 본 연구는 특정한 기간 동안 사용자의 실제 사용기록 전체를 측정하고 수집하여, 이 데이터를 기반으로 분석을 실시했다는 점에서 큰 의의를 갖는다고 할 수 있다. 사용자가 자신의 모바일 기기에 설치된 다양한 앱을 설치해놓고 이들 중 자신의 필요에 적합한 것을 선택하여 사용하게 되는데, 이 선택에 영향을 미치는 요인이 카테고리 별로 다를 것이라는 점을 고려하여, 다변량 프로빗 모형을 활용하여 분석을 실시하였다. 분석결과로 앱 사용에 영향을 미치는 요인이 앱 카테고리 별로 달라지는 것과 앱 카테고리 선택 간의 상관관계를 제시하였으며, 사용자의 앱사용 목적에 따라 쾌락성(Hedonic)과 실용성(Utilitarian)으로 구분지어 설명하였다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

오피니언 분류의 감성사전 활용효과에 대한 연구 (A Study on the Effect of Using Sentiment Lexicon in Opinion Classification)

  • 김승우;김남규
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.133-148
    • /
    • 2014
  • 최근 다양한 정보채널들의 등장으로 인해 빅데이터에 대한 관심이 높아지고 있다. 이와 같은 현상의 가장 큰 원인은, 스마트기기의 사용이 활성화 됨에 따라 사용자가 생성하는 텍스트, 사진, 동영상과 같은 비정형 데이터의 양이 크게 증가하고 있는 것에서 찾을 수 있다. 특히 비정형 데이터 중에서도 텍스트 데이터의 경우, 사용자들의 의견 및 다양한 정보를 명확하게 표현하고 있다는 특징이 있다. 따라서 이러한 텍스트에 대한 분석을 통해 새로운 가치를 창출하고자 하는 시도가 활발히 이루어지고 있다. 텍스트 분석을 위해 필요한 기술은 대표적으로 텍스트 마이닝과 오피니언 마이닝이 있다. 텍스트 마이닝과 오피니언 마이닝은 모두 텍스트 데이터를 입력 데이터로 사용할 뿐 아니라 파싱, 필터링 등 자연어 처리기술을 사용한다는 측면에서 많은 공통점을 갖고 있다. 특히 문서의 분류 및 예측에 있어서 목적 변수가 긍정 또는 부정의 감성을 나타내는 경우에는, 전통적 텍스트 마이닝, 또는 감성사전 기반의 오피니언 마이닝의 두 가지 방법론에 의해 오피니언 분류를 수행할 수 있다. 따라서 텍스트 마이닝과 오피니언 마이닝의 특징을 구분하는 가장 명확한 기준은 입력 데이터의 형태, 분석의 목적, 분석의 결과물이 아닌 감성사전의 사용 여부라고 할 수 있다. 따라서 본 연구에서는 오피니언 분류라는 동일한 목적에 대해 텍스트 마이닝과 오피니언 마이닝을 각각 사용하여 예측 모델을 수립하는 과정을 비교하고, 결과로 도출된 모델의 예측 정확도를 비교하였다. 오피니언 분류 실험을 위해 영화 리뷰 2,000건에 대한 실험을 수행하였으며, 실험 결과 오피니언 마이닝을 통해 수립된 모델이 텍스트 마이닝 모델에 비해 전체 구간의 예측 정확도 평균이 높게 나타나고, 예측의 확실성이 강한 문서일수록 예측 정확성이 높게 나타나는 일관적인 성향을 나타내는 등 더욱 바람직한 특성을 보였다.

기업용 마이크로블로그의 사용행태에 대한 사례연구: 지식경영전략을 중심으로 (Case Study on the Enterprise Microblog Usage: Focusing on Knowledge Management Strategy)

  • 강민수;박아름;이경전
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.47-63
    • /
    • 2015
  • 지식경영전략은 코드화(Codification) 전략과 대인화(Personalization) 전략으로 대별할 수 있으며(Hansen et al., 1999), 성공적인 지식경영의 도입과 활용을 위한 두 전략의 운영 방안에 대한 연구가 계속되어 왔다. 그리고 지식경영 시스템에 대한 기존 연구는 주로 대기업의 일부 조직에서 활용한 사례를 대상으로 하고 있어, 중소 규모의 기업 전체를 대상으로 하는 연구는 미비한 실정이다. 본 논문은 중소 규모의 기업에 적합한 지식경영 시스템으로 기업용 마이크로블로그를 특정하고, 기업용 마이크로블로그를 활용한 중소기업의 지식경영전략을 코드화 전략과 대인화 전략의 관점에서 검토한다. 지식경영전략과 기업용 마이크로블로그에 대한 선행연구를 통하여 "기업의 성장에 따라 기업용 마이크로블로그의 활용은 코드화 전략에서 대인화 전략 중심으로 변화한다"는 가설을 설정하였다. 이 가설을 확인하기 위하여 창업 초기부터 현재까지 '야머'(Yammer)라는 기업용 마이크로블로그를 사용하고 있는 소규모 기업을 대상으로 사례연구를 진행하였다. 사례연구는 기업용 마이크로블로그의 사용 기간을 창업 '초기', 현재의 조직 형태를 갖추게 된 '중기', 그리고 연구가 진행된 '현재' 등 세 시점으로 나누고 콘텐츠를 분석하는 종단 분석을 실시하였다. 그리고 각 시점별 야머에 등록된 콘텐츠의 커뮤니케이션 유형을 분석하여 사례기업의 기업용 마이크로블로그 사용행태를 분석하고, 지식경영전략의 변화를 확인하는 방법을 사용하였다. 연구의 결과로 소규모 기업에서 지식경영전략의 운영과 그에 적합한 지식경영 시스템의 활용에 대한 실질적인 시사점을 제시하고자 한다.

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

영역별 맞춤형 감성사전 구축을 통한 영화리뷰 감성분석 (Sentiment analysis on movie review through building modified sentiment dictionary by movie genre)

  • 이상훈;최정;김종우
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.97-113
    • /
    • 2016
  • 인터넷상의 데이터가 급속하게 증가함에 따라 막대한 양의 데이터를 목적에 맞게 적절히 활용하는 빅데이터 분석이 활발하게 진행되고 있다. 최근에는 기존의 정형 데이터분석이 가진 한계점을 보완하는 방법으로 비정형 데이터 분석 분야 중 하나인 텍스트마이닝 기법에 대한 연구들이 다수 이루어지고 있으며, 특히 텍스트를 기반으로 문장의 긍정, 부정을 판별하고 분류하는 감성분석과 관련된 연구들이 활발하게 이루어지고 있다. 이러한 연구의 연장선 상에서, 본 연구는 감성분석에 사용되는 감성사전을 데이터의 특성에 맞게 적절하게 변형하여 구축하는 방법을 시도하였다. 데이터가 속한 영역의 특성을 고려하지 않은 기존의 범용 감성사전을 감성분석에 사용할 경우, 해당 영역에서 쓰이는 단어 또는 감정 표현을 반영하지 못하므로 감성분석의 정확성이 떨어질 수 있다. 따라서 감성분석에 있어서 영역 맞춤형 감성사전의 사용 시 데이터 영역의 특성을 정확하게 반영해 분석의 정확성을 높여줄 것으로 기대할 수 있다. 본 연구에서는 영화 리뷰 데이터를 분석 대상으로 선정하였으며, 대표적 영화정보 사이트 IMDb에서 발생된 약 2년간의 영화리뷰 데이터를 수집 분석하였다. 분석에 앞서 영화 장르별 사용되는 단어의 의미가 각각 다를 것을 고려하여 영화를 '액션', '애니메이션', '코메디', '드라마', '공포', '과학공상' 6개 장르로 분류했다. 맞춤형 감성사전 구축을 위한 핵심 기법으로 SO-PMI(Semantic Orientation from Point-wise Mutual Information)를 활용하였으며, 어휘 간 극성이 뚜렷하게 구분되는 형용사에 한정하여 연구를 진행했다. 분석결과 맞춤형사전을 활용한 감성분석 예측정확도는 영화 장르별로 상이했다. '애니메이션'을 제외한 5개 장르에서 기존의 범용 감성사전대비 맞춤형 감성사전의 예측정확도가 통계적으로 유의한 수준의 성능 향상을 보였다. 본 연구에서는 데이터 영역의 특성에 맞는 맞춤형 사전 구축을 통한 감성분석의 예측의 성능 향상을 확인하였다. 향후 감성사전 구축 시 동사, 부사 등 다양한 품사의 어휘를 추가하여 감성분석 예측정확도를 높이는 방안을 모색할 수 있을 것이다.

사용자 니즈 기반의 챗봇 개발 프로세스: 디자인 사고방법론을 중심으로 (Development Process for User Needs-based Chatbot: Focusing on Design Thinking Methodology)

  • 김무성;서봉군;박도형
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.221-238
    • /
    • 2019
  • 최근, 기업 및 공공기관에서는 고객 상담과 응대 분야에 챗봇(Chatbot)서비스를 적극적으로 도입하고 있다. 챗봇 서비스의 도입은 기업이나 기관에게 있어서 인건비 절감 효과를 가져올 뿐만 아니라 고객과의 빠른 커뮤니케이션 효과를 기대할 수 있다. 데이터 분석 기술의 발전과 인공지능 기술의 고도화는 이런 챗봇 서비스의 성장을 견인하고 있다. 하지만 기술중심으로 개발된 챗봇은 사용자가 내재적으로 원하는 바와 괴리가 있을 수 있으므로, 챗봇이 단순히 기술의 영역이 아닌 사용자 경험의 영역에서 다루어질 필요가 있다. 본 연구는 사용자 경험 분야의 대표적 방법론인 디자인 사고 접근법을 챗봇 개발에 적용하여, 사용자 니즈 기반의 챗봇 개발 프로세스를 제안하고자 한다. 사용자 관찰을 통해 팩트(Fact) 수집을 시작으로, 인사이트(Insight)를 도출하고 기회영역(Opportunity)을 발굴하는 추상화의 과정을 수행한다. 이어서 사용자의 멘탈모델에 맞는 기능을 제공하고 원하는 정보를 구조화하는 구체화의 과정을 통해, 사용자의 니즈에 부합하는 챗봇을 개발할 수 있을 것으로 기대한다. 본 연구에서는 제안한 프로세스의 실효성을 확인하기 위하여 국내 화장품 시장을 대상으로 실제 구축 사례를 함께 제시한다. 본 연구는 챗봇 개발 프로세스에 사용자 경험을 접목한 점에서 이론적 시사점을 가지며, 기업이나 기관이 바로 적용 가능한 현실적인 방법을 제안한다는 면에서 실무적 시사점을 가진다.

증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용한 공모주의 상장 이후 주가 등락 예측 (The prediction of the stock price movement after IPO using machine learning and text analysis based on TF-IDF)

  • 양수연;이채록;원종관;홍태호
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.237-262
    • /
    • 2022
  • 본 연구는 개인투자자들의 투자의사결정에 도움을 주고자, 증권신고서의 TF-IDF 텍스트 분석과 기계학습을 이용해 공모주의 상장 5거래일 이후 주식 가격 등락을 예측하는 모델을 제시한다. 연구 표본은 2009년 6월부터 2020년 12월 사이에 신규 상장된 691개의 국내 IPO 종목이다. 기업, 공모, 시장과 관련된 다양한 재무적 및 비재무적 IPO 관련 변수와 증권신고서의 어조를 분석하여 예측했고, 증권신고서의 어조 분석을 위해서 TF-IDF (Term Frequency - Inverse Document Frequency)에 기반한 텍스트 분석을 이용해 신고서의 투자위험요소란의 텍스트를 긍정적 어조, 중립적 어조, 부정적 어조로 분류하였다. 가격 등락 예측에는 로지스틱 회귀분석(Logistic Regression), 랜덤 포레스트(Random Forest), 서포트벡터머신(Support Vector Machine), 인공신경망(Artificial Neural Network) 기법을 사용하였고, 예측 결과 IPO 관련 변수와 증권신고서 어조 변수를 함께 사용한 모델이 IPO 관련 변수만을 사용한 모델보다 높은 예측 정확도를 보였다. 랜덤 포레스트 모형은 1.45%p 높아진 예측 정확도를 보였으며, 인공신공망 모형과 서포트벡터머신 모형은 각각 4.34%p, 5.07%p 향상을 보였다. 추가적으로 모형간 차이를 맥니마 검정을 통해 통계적으로 검증한 결과, 어조 변수의 유무에 따른 예측 모형의 성과 차이가 유의확률 1% 수준에서 유의했다. 이를 통해, 증권신고서에 표현된 어조가 공모주의 가격 등락 예측에 영향을 미치는 요인이라는 것을 확인할 수 있었다.

분리학습 모델을 이용한 수출액 예측 및 수출 유망국가 추천 (Export Prediction Using Separated Learning Method and Recommendation of Potential Export Countries)

  • 장영진;원종관;이채록
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.69-88
    • /
    • 2022
  • 최근 코로나19 팬데믹으로 인해 전 세계 경제와 외교 상황에 급격한 변화가 일어나고 있으며, 수출 의존도가 높은 한국은 이러한 변화에 큰 영향을 받고 있다. 본 연구에서는 기업의 수출전략 수립 및 의사결정 지원을 위해 차년도 수출액 예측 모델을 구축하고, 모델의 예측 결과를 바탕으로 수출 유망국가 추천 방식을 제안한다. 본 연구에서는 모델이 다양한 정보를 학습할 수 있도록 국가별, 품목별, 거시경제 변수 등 선행 연구에서 중요하게 사용된 변수를 다방면으로 수집하였다. 수집한 데이터를 분석한 결과, 국가와 품목에 따라서 수출액의 분포가 매우 비대칭적인 것을 확인할 수 있었다. 따라서, 모델의 예측 성능을 향상시키고 설명력을 확보하기 위해서 분리학습 방식을 사용하였다. 분리학습은 전체 데이터를 동질적인 하위 그룹으로 분리하고 개별 모델을 구축하는 방식으로, 본 연구에서는 수출액을 기준으로 5개 구간으로 데이터를 분리하였다. 모델 학습 과정에서 구간별 특성을 반영하여 구간1부터 구간4까지는 LightGBM을 사용하고, 구간5는 지수이동평균을 사용하였으며 이를 통해 모델의 예측 성능을 향상시킬 수 있었다. 모델의 설명력 확보를 위해서 추가로 구간별 모델의 SHAP-value를 계산하고 중요도가 높은 변수를 제시했다. 또한, 본 연구에서는 예측 모델을 기반으로 2단계 수출 유망국가 추천 방식을 제안했다. 효율적인 수출 전략 수립을 위해서 BCG 매트릭스와 국가별 점수 산출 방식을 사용하였고, 품목별 유망 국가 순위와 수출 관련 주요 정보들을 제공하였다. 본 연구는 다양한 정보를 학습한 머신러닝 모델로 여러 국가와 품목에 대한 예측을 실시하고, 이 과정에서 분리학습 방식으로 예측 성능을 향상시켰다는 점에서 의의가 있다. 또한, 현재 무역 관련 서비스들이 과거 데이터에 기반한 정보를 제공하고 있음을 고려할 때, 본 연구에서 제안한 예측 모델과 유망국가 추천 방식은 기업들의 미래 수출 전략 수립 및 동향 파악에 유용하게 사용될 수 있을 것으로 기대된다.