• 제목/요약/키워드: 웹 사용 마이닝

검색결과 159건 처리시간 0.025초

프로세스 마이닝을 이용한 쇼핑몰 웹로그 데이터 분석 (Analyzing the weblog data of a shopping mall using process mining)

  • 김채영;용혜련;황현석
    • 한국산학기술학회논문지
    • /
    • 제21권11호
    • /
    • pp.777-787
    • /
    • 2020
  • 인터넷의 발전과 모바일 기기 보급의 확산으로 온라인 시장이 급속하게 성장하였다. 특히 쇼핑몰 이용이 폭발적으로 증가함에 따라 데이터를 활용한 이용자 행태 분석, 개인화된 상품 추천 및 서비스 개발 등의 연구가 이루어지고 있다. 이에 본 논문은 프로세스 마이닝을 통해 온라인 쇼핑몰의 전반적인 프로세스를 분석하고, 사용자의 구매에 영향을 미치는 요소를 파악하고자 하였다. 분석에는 대형 온라인 쇼핑몰인 모 기업의 데이터를 사용하였으며 분석 도구로는 R을 활용하였다. 분석 결과 파격세일, 월경품행사와 같은 이벤트 요소를 가진 카테고리에서의 고객 활동이 가장 두드러졌다. 이에 반해 검색, 로그인, 캠페인 액티비티는 중요도에 비해 적절한 활동이 이루어지지 않은 것으로 나타났다. 해당 액티비티는 고객의 정보와 니즈를 파악할 수 있는 단서가 될 수 있어 매우 중요하다. 따라서 연관검색어 추천의 정교화, 로그인 시 제공되는 쿠폰 등의 액티비티 관리가 필요하다고 사료된다. 본 논문에서는 앞서 논의된 내용 이외에도 쇼핑몰의 경쟁력 제고 및 이윤 증대를 위한 다양한 비즈니스 전략을 제안한다.

텍스트 마이닝 기반의 미국 국방 표준 동향 분석을 통한 한국 국방 표준의 발전 방안 연구 (A Study on the Development of Korean Defense Standards through Text Mining-Based Trend Analysis of United States Defense Standards)

  • 채수환;심보현;염슬기;홍성돈
    • 한국산학기술학회논문지
    • /
    • 제22권3호
    • /
    • pp.651-660
    • /
    • 2021
  • 본 연구는 국방 분야 선진국인 미국의 표준에 대한 제정 동향을 파악하고, 한국 국방 표준에 적용 가능한 방안을 검토하였다. 이를 위해 웹에 등록된 MIL-STD를 비롯하여 다양한 미국 국방 문서에 대해 제목을 중심 데이터를 수집한 후, 텍스트 마이닝을 이용하여 단어 빈도를 분석하고 그 결과를 워드클라우드 형태로 생성하였다. 그 결과, 시대별로 MIL-STD에 등장하는 단어의 동향을 파악할 수 있었다. 문서 자체의 형식으로 인해 많이 등장하는 단어, 전 시대에 걸쳐 많이 등장하는 단어도 있는 반면, 과거에는 자주 쓰이다 현재는 많이 쓰이지 않는 단어나 과거에는 주목을 받지 못하다가 현재에 와서야 많이 등장하는 단어도 파악이 가능하였다. 또한 MIL-STD를 포함한 다양한 국방 문서를 대상으로 생성한 워드클라우드를 통해 그 특징을 도출하였다. 결론적으로 한국 국방 표준도 재료의 안전한 사용 및 다양한 화물 운반 기준을 마련하는 것에 대한 고민이 필요한 것을 확인하였다. 더 나아가 국방 분야 표준 및 규격에 4차 산업혁명 등과 관련된 최신 기술을 반영하여 표준을 선점하고 규격을 마련하는 것이 중요할 것이다. 또한 국방표준 문서체계를 명확하게 정립하고 효율적인 관리에 투자한다면, 국방 분야 표준의 질 향상을 기대할 수 있을 것이다.

텍스트마이닝 기반의 효율적인 장소 브랜드 이미지 강도 측정 방법 (An Efficient Estimation of Place Brand Image Power Based on Text Mining Technology)

  • 최석재;전종식;비스워스 수브르더;권오병
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.113-129
    • /
    • 2015
  • 장소 브랜딩은 특정 장소에 대한 의미 부여를 통해 장소성의 정체성 및 공동가치를 생성하며 가치 창출을 하는데 중요한 활동이며, 장소 브랜드에 대한 이미지 파악을 통해 이루어진다. 이에 마케팅, 건축학, 도시건설학 등 여러 분야에서는 인상적인 장소 브랜드의 이미지를 구축하기 위하여 많은 노력을 기울이고 있다. 하지만 설문조사를 포함한 대면조사 방법은 대부분 주관적인 작업이며 측정에 많은 인력 또는 고도의 전문 인력이 소요되어 고비용을 발생시키므로 보다 객관적이면서도 비용효과적인 브랜드 이미지 조사 방법이 필요하다. 이에 본 논문은 텍스트마이닝을 통하여 장소 브랜드의 이미지 강도를 객관적이고 저비용으로 얻는 방법을 찾는 것을 목적으로 한다. 제안하는 방법은 장소 브랜드 이미지를 구성하고 있는 요인과 그 키워드들을 관련 웹문서에서 추출하며, 추출된 정보를 통해 특정 장소의 브랜드 이미지 강도를 측정하는 방법이다. 성능은 안홀트 방법에서 평가에 사용하는 전세계 50개 도시 이미지 인덱스 순위와의 일치도로 검증하였다. 성능 비교를 위해 임의로 순위를 매기는 방법, 안홀트의 설문방식대로 일반인이 평가하는 방법, 본 논문의 방법을 사용하되 안홀트의 방법으로 학습한 것으로 유의한 것으로 추정되는 평가 항목만을 반영하는 방법과 비교하였다. 그 결과 제안된 방법론은 정확성, 비용효율성, 적시성, 확장성, 그리고 신뢰성 측면에서 우수함을 보일 수 있었다. 따라서 본 연구에서 제안한 방법론은 안홀트 방식에 상호 보완적으로 사용될 수 있을 것이다. 향후에는 장소 브랜드 이미지를 형성하는 속성 별로 등장횟수를 계산 한 후에 장소 브랜드에 대한 태도, 연상, 그리고 브랜드 자산과의 인과관계를 자동으로 파악할 수 있는 부분까지 구현하고 실증적 실험을 할 예정이다.

공공 빅데이터의 시각화를 위한 InfograaS의 아이디어 제안 (Idea proposal of InfograaS for Visualization of Public Big-data)

  • 차병래;이형호;심수정;김종원
    • 한국항행학회논문지
    • /
    • 제18권5호
    • /
    • pp.524-531
    • /
    • 2014
  • 본 논문에서는 클라우드 컴퓨팅 자원을 이용하여 빅데이터의 일종인 LOD (linked open data)를 가공 및 분석하는 방법을 제안한다. LOD는 공공 데이터를 공유 및 재활용하기 위한 웹기반의 오픈 데이터이다. 특히 BA(business analytics)와 Info-graphic을 위한 시각화 (visualization) 기술을 제공하는 새로운 SaaS (software as a service) 비즈니스 영역을 InforgraaS (Info-graphic as a service)라고 정의한다. 본 연구의 목표는 시각화 및 비즈니스 전문가 없이 비전문가 또는 초보자가 사용할 수 있도록 하는 것이다. 데이터 시각화 (data visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. 데이터 시각화의 목적은 챠트와 그래프를 통해 정보를 명확하고 효과적으로 전달하는 것이다. 공공기관의 빅데이터를 클라우드 컴퓨팅 자원과 오픈 소스인 하둡, R, 기계학습, 데이터 마이닝 등을 이용하여 다양한 처리 결과를 이해하기 쉬운 그래픽 또는 챠트로 표현하고 공유한다.

빅데이터 분석을 활용한 인공지능 인식에 관한 연구 (A Study on Recognition of Artificial Intelligence Utilizing Big Data Analysis)

  • 남수태;김도관;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.129-130
    • /
    • 2018
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터 분석을 2011년 이래로 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 새로운 가치 창출을 위해 노력을 하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석 도구인 소셜 매트릭스를 활용하여 분석하였다. 2018년 5월 19일 시점 1개월 기간을 설정하여 "인공지능" 키워드에 대한 대중들의 인식을 분석하였다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 인공지능에 대한 1위 연관 검색어는 중국(4,122)인 것으로 나타났다. 결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.789-792
    • /
    • 2004
  • 웹 마이닝, 바이오정보학, 통계적 자료 분석 등 여러 분야에서 매우 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 가장 기본적인 평균과 최빈수뿐만 아니라 조건부 평균, 나무 모형, 그리고 마코프체인 몬테칼로 기법과 같은 결측치 대체 기법들을 적용하여 추정된 값에 의해 대체된다. 그런데 주어진 데이터의 결측치 비율이 크게 되면 기존의 결측치 대체 방법들의 예측의 정확도는 낮아지는 특성을 보인다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 결측치 대체 방법들의 수는 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 통계적 학습 이론 중에서 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형하여 적용하였다. 제안 방법을 이용하여 결측치 비율이 큰 희소 데이터의 전처리도 가능할 수 있도록 하였다 UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

전자상거래에서의 협업 추천을 위한 고객 프로필 모델 (A Customer Profile Model for Collaborative Recommendation in e-Commerce)

  • 이석기;조현;천성용
    • 한국콘텐츠학회논문지
    • /
    • 제11권5호
    • /
    • pp.67-74
    • /
    • 2011
  • 협업 추천은 전자상거래 기업들이 고객별로 개인화 된 상품추천을 하기 위하여 널리 활용하는 추천기법이다. 추천 행위는 고객들이 상품에 대해 가지고 있는 선호도를 분석하고 이를 프로필화 하는 것을 전제로 한다. 전통적인 명시적 평가법은 취급하는 상품이 매우 다양한 전자상거래 기업의 고객들에게 구매활동외에 추가적 부담을 준다는 점에서 한계를 가진다. 따라서 고객의 개입 없이 간접적으로 선호도를 파악할 수 있는 묵시적 평가법이 보다 바람직하다고 볼 수 있는데, 여기에도 추정된 선호도의 지표화에 주로 사용하는 카디널 척도가 추정 오차를 증가 시킨다는 점에서 문제점이 있다. 따라서 본 연구에서는 이러한 문제의 개선을 위해 웹 마이닝과 사전식 컨센서스 기법에 근간하여 서열 척도 기반의 고객 프로필을 생성, 활용하는 협업 추천 기법을 제안하고자 한다. 실제 온라인 쇼핑몰의 거래 데이터를 이용한 실험을 통해 제안된 기법의 우수성을 입증 하였다.

빅데이터 분석을 활용한 사물인터넷 키워드에 관한 조망 (An Insight Study on Keyword of IoT Utilizing Big Data Analysis)

  • 남수태;김도관;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.146-147
    • /
    • 2017
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터 분석을 2011년 이래로 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 새로운 가치 창출을 위해 노력을 하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석 도구인 소셜 매트릭스를 활용하여 분석하였다. 2017년 10월 8일 시점 1개월 기간을 설정하여 "사물인터넷" 키워드에 대한 대중들의 인식을 분석하였다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 사물인터넷 키워드에 대한 1위 연관 검색어는 기술(995)인 것으로 나타났다. 결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

R 언어 기반의 REST API 구현 및 보안문제의 해결 방안 (Implementation of R-language-based REST API and Solution for Security Issues)

  • 강동훈;오세종
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제9권1호
    • /
    • pp.387-394
    • /
    • 2019
  • 최근 빅 데이터의 중요성이 부각되면서 데이터 분석에 대한 수요가 증가하고 있다. R 언어는 데이터 분석을 목적으로 고안된 언어로서, 사용자들은 R언어의 다양한 통계, 머신러닝, 데이터 마이닝 패키지의 알고리즘을 활용하여 데이터를 효과적으로 분석 할 수 있다. 그러나 R 언어는 분석 결과를 어플리케이션으로 만들어 활용하기 어렵다는 단점이 있다. 이를 보완하기 위해 PHP, Java등과 같은 다른 언어를 통해 R 스크립트를 호출하는 법이 제안되었다. 그러나 이러한 개발 방식은 R 이외에도 다른 언어를 혼용해서 작성해야 하는 번거로움이 있다. 본 연구에서는 R 언어의 Plumber 패키지를 활용하여 다른 언어를 사용하지 않고 오직 R 언어만을 이용하여 API를 작성하는 방법을 제안하였다. 또한 API를 구현할 때 고려해야할 보안 이슈와 해결 방안에 대해서도 제시하였다. 본 연구에서 제안한 기술을 이용하여 웹 응용 프로그램을 개발 한다면 높은 생산성과 개발의 편리성, 운영의 효율성을 기대할 수 있다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.