• 제목/요약/키워드: 웹 사용 마이닝

검색결과 159건 처리시간 0.025초

구글 애널리틱스를 활용한 웹 사이트의 개선방안 연구 : 앱팩토리를 대상으로 (Research in the Direction of Improvement of the Web Site Utilizing Google Analytics)

  • 김동림;임영환
    • 만화애니메이션 연구
    • /
    • 통권36호
    • /
    • pp.553-572
    • /
    • 2014
  • 인터넷을 이용한 서비스와 정보제공이 활성화 되면서 사용자들은 서비스 품질 및 컨텐츠 품질에 대해 관심 갖기 시작했으며 이러한 변화에 따라 서비스 제공자 또한 사용자의 욕구를 만족 시키는 서비스 및 다수의 사용자가 참여하는 사이트 활성화를 목적으로 하게 되었다. 사용자에게 최상의 서비스를 제공하기 위해 대부분의 서비스 제공자는 이용자 피드백 분석 및 운영시스템 분석 등 자료 분석에 노력하지만 제한된 이용자와의 커뮤니케이션과 자료 수집 및 분석에 상당한 시간과 비용을 들임으로써 사용자들에게 개선된 서비스 제공까지 너무 많은 시간이 소요된다. 본 논문에서는 이러한 이유로 특정 웹 사이트(www.appbelt.net)의 운영현황 분석을 위해 웹 마이닝 기법을 적용한 로그 파일 분석 방식을 채택하였는데 로그 데이터를 가져와 분석하고 별도의 리포트를 만들어 판단하는 번거로움 없이 구글 애널리틱스 툴을 활용하여 정량평가를 시행하였다. 또한 웹 표준 평가(Coolcheck)서비스를 이용한 웹 사이트의 전반적인 품질평가를 통해 해당 웹 사이트의 문제점을 진단하고 개선 방안을 연구하였다. 로그분석이란 사용자가 웹 사이트 이용하면 이에 대한 기록이 로그라는 형태로 흔적이 남게 되는데 이 데이터를 기반으로 사용자가 웹 사이트를 방문하여 행동하는 다양한 정보를 추출해 내는 것이라 할 수 있다. 또한 로그 분석을 통하여 대다수 이용자의 전반적인 이용행태를 분석할 수 있으므로 로그 분석방법은 이용자 계층이 다양하고 이질적인 웹 검색 분야의 연구에 적합한 방법이라고 할 수 있다. 본 논문에서는 로그분석 방법으로 구글 애널리틱스 로그 추적 코드를 웹사이트에 직접 삽입하여 데이터를 수집, 데이터 평가, 리포트 분석 단계를 거쳐 전반적인 웹 사이트의 운영현황을 진단하고 평가한 후 웹 사이트에서 예상하는 사용자의 행동패턴과 실제 방문자의 경로가 일치 하는지 판단하여 문제점 및 개선사항을 도출하였다. 이 판단은 곧 기업의 목표 값 도달 경로의 우선순위(중요도)에 영향을 미치고 사용성이 너무 낮을 경우 경로 설정의 부적절함 등을 웹 사이트의 개선 요소에 포함시키게 된다. 이러한 연구방법은 기업에서 하고자 하는 비즈니스의 방향이 제대로 설정되었는지, 사용자의 요구 및 행태와 일치하는지 분석하여 향 후 비즈니스 방향 재설정 및 웹 사이트 개선에 도움이 될 것으로 보인다.

인공신경망 기반 웹서비스 분류체계 생성 프레임워크의 실증적 평가 (Facilitating Web Service Taxonomy Generation : An Artificial Neural Network based Framework, A Prototype Systems, and Evaluation)

  • 황유섭
    • 지능정보연구
    • /
    • 제16권2호
    • /
    • pp.33-54
    • /
    • 2010
  • 월드와이드웹(WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근의 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스를 서비스 중심 컴퓨팅환경으로서 운용하기 위해서는 웹서비스 저장소가 완성도 높게 조직화되어 있어야 할 뿐 아니라, 사용자들의 필요에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 중심 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스의 분류체계를 효율적으로 제공할수 있는 기법의 수요 또한 증대된다. 다수의 웹서비스 저장소들은 웹서비스 분류체계를 제안하여 왔지만, 대부분의 분류체계는 활용하기에는 제대로 발달하지 못하였거나 관리하기에 너무 어려운 단점을 갖고 있다. 이 논문에서는 인공신경망 기반 군집화 기법과 XML 기반의 웹서비스 기술표준인 WSDL의 의미적가치를 활용하여 웹서비스 분류체계 생성 프레임워크를 제안한다. 이 논문에서 인공신경망을 활용하여 제안하는 웹서비스 분류체계 생성 프레임워크를 프로토타입 시스템로 개발하였으며, 실제 운용되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 분류체계 생성 프레임워크를 실증적으로 평가하였다. 또한 제안하는 방식의 효용성을 보여주는 실험결과를 보고한다.

XMLA를 사용한 OLAP과 데이타 마이닝 분석이 가능한 리포팅 툴의 구현 (Implementation of Reporting Tool Supporting OLAP and Data Mining Analysis Using XMLA)

  • 최지웅;김명호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권3호
    • /
    • pp.154-166
    • /
    • 2009
  • 기업 운영에서 발생하는 데이타의 수집과 통합에서부터 의사결정을 위한 정보의 분석 및 그 결과로의 접근을 제공하기 위한 BI 환경에서 최종 사용자들을 위한 프론트-엔드 툴로서는 데이터베이스 쿼리 및 리포팅 툴, OLAP 툴, 데이타 마이닝 툴이 대표적이다. 데이타베이스 쿼리 및 리포팅 툴은 SQL 쿼리 결과 셋을 반영하는 워드프로세서가 생성하는 문서 수준의 정교한 동적 문서의 생성과 웹 환경을 통한 문서 배포 능력이 장점이지만 데이타 소스가 RDBMS로 제한되어 있다. 반면, OLAP 툴과 데이타 마이닝 툴은 각기 고유한 방식으로 데이타를 분석할 수 있는 능력은 강력하지만 차트와 표 등의 제한적인 컴포넌트들만으로 분석 결과를 제공할 수 있다는 한계를 가지고 있다. 본 논문에서는 상호 보완적으로 사용될 수 있는 BI 환경을 위한 프론트-엔드 툴들을 통합하였다. 본 논문에서 제안하는 리포팅 툴은 RDBMS에서 데이타를 추출하기 위한 SQL 기반의 쿼리 편집기만을 내장한 기존의 리포팅 툴과 달리 OLAP과 데이타 마이닝을 위한 쿼리 편집기를 추가하여 OLAP과 데이타 마이닝 서버로부터도 데이터를 추출할 수 있다. 그리고 기존의 리포팅 툴은 동일한 문서를 다수의 사용자들이 조회하는 상황에서 반복된 문서 생성을 피하기 위하여 서버 측에서 문서를 생성하는 구조를 갖지만 이 시스템은 다수의 사용자들을 위한 문서배포 목적이 아닌 사용자들이 데이타 분석 목적으로 서로 다른 문서를 생성하는 상황에 적합하도록 서버 측에 비해 제한된 리소스 환경을 갖는 클라이언트 측에서 동작하는 리포트 뷰어에서 대량의 데이타를 포함하는 문서를 생성할 수 있는 구조와 처리방식을 갖고 있다. 또한 이 시스템에서 접근하는 세가지 종류의 데이타 소스에서 추출한 데이타들을 연계하여 하나의 문서에서 통합할 수 있도록 하는 자료구조를 갖추고 있다. 마지막으로 이 시스템은 특정 벤더의 OLAP과 데이타 마이닝 서버에 종속적으로 동작하지 않기 위하여 웹 서비스 기반의 XMLA를 이들 서버와의 통신 프로토콜로써 선택하였다.

빅데이터 분석을 활용한 4차 산업혁명 키워드에 대한 통찰 (A Insight Study on Keyword of 4th Industrial Revolution Utilizing Big Data)

  • 남수태;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.153-155
    • /
    • 2017
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터를 2011년 이래로 최근 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 가치 창출을 위한 노력을 기하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석도구인 소셜 매트릭스를 활용하여 2017년 5월, 1개월 시점을 설정하고 "4차 산업혁명" 키워드에 대한 소비자들의 인식들을 살펴보았다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 4차 산업혁명 키워드에 대한 연관 검색어 1위는 "후보"가 빈도수(7,613)인 것으로 나타났다. 둘째, 연관 검색어 2위는 "안철수"가 빈도수(7,297), 3위는 "문재인"이 빈도수(5,183)로 각각 나타났다. 다음으로 "4차 산업혁명" 키워드에 대한 검색어 긍정적 여론 빈도수 1위는 새로운(895)으로 나타났고, 부정적 여론 빈도수 1위는 위기(516)가 차지하였다. 이러한 결과 분석결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

웹 데이터 마이닝을 위한 정보 추출패턴의 기계학습 (Machine Learning of Information Extract ion Patterns for Web Data Mining)

  • 김동석;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-122
    • /
    • 2001
  • 정보추출 기법을 논의할 때 핵심 역할을 차지하는 것이 추출 패턴(규칙)을 표현하는 종류와 규칙을 만들어 내는 기계학습의 방법이다. 본 논문에서는 mDTD(modified Document Type Definition)라는 새로운 추출패턴을 제안한다. mDTD는 SGML에서 사용되는 DTD를 구문과 해석 방식을 변형하여 일반적인 HTML에서의 정보추출에 활용되도록 설계하였다. 이러한 개념은 DTD가 문서에 나타나는 객체를 지정하는 역할을 하는 것을 역으로 mDTD를 이용하여 문서에 나타는 객체를 식별하는데 사용하는 것이다. mDTD 규칙을 순차기계학습으로 확장시켜서 한국어와 영어로된 인터넷 쇼핑몰 중에서 AV(Audio and Visual product) 도메인에 적용하여 실험하였다 실험 결과로 정보추출의 평균 정확도은 한국어와 영어에 대해서 각각 91.3%와 81.9%를 얻었다.

  • PDF

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

라벨 트리 데이터의 빈번하게 발생하는 정보 추출 (Frequently Occurred Information Extraction from a Collection of Labeled Trees)

  • 백주련;남정현;안성준;김응모
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-78
    • /
    • 2009
  • 트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터 집합을 대상으로 했을 때는 더 심각해진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신 pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다.

  • PDF

데이터 베이스 특성에 따른 효율적인 데이터 마이닝 알고리즘 (An Efficient Data Mining Algorithm based on the Database Characteristics)

  • 박지현;고찬
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제10권1호
    • /
    • pp.107-119
    • /
    • 2006
  • 인터넷과 웹 기술 발전에 따라 데이터베이스에 축적되는 자료의 양이 급속히 늘어나고 있다. 데이터베이스의 응용 범위가 확대되고 대용량 데이터베이스로부터 유용한 지식을 발견하고자 하는 데이터 마이닝(Data Mining) 기술에 대한 연구가 활발하게 진행되고 있다. 기존의 알고리즘들은 대부분 후보 항목 집합들을 줄임과 동시에 데이터베이스의 크기를 줄이는 방법으로 발전해 오고 있다. 그러나 후보 항목집합들을 줄이는 노력이나 데이터베이스의 크기를 줄이는 방법들이 빈발 항목집합들을 생성하는 전 과정에서 필요로 하지는 않는다. 그러한 방법들이 어느 과정에서는 시간을 줄이는데 효과가 있지만 다른 과정에서는 오히려 그러한 방법들을 적용하는데 더 많은 시간이 소요되기 때문이다. 본 논문에서는 트랜잭션들의 길이가 짧거나 데이터베이스를 이루는 항목들의 수가 비교적 적은 트랜잭션 데이터베이스에서 해슁 기법을 사용하여 데이터베이스를 한 번 스캔하고 동시에 각 트랜잭션에서 발생 가능한 모든 부분집합들을 해쉬 테이블에 저장함으로써 최소 지지도에 영향을 받지 않고 기존의 알고리즘보다 더 짧은 시간에 빈발항목집합을 발견할 수 있는 효과적인 연관 규칙 탐사 알고리즘을 제안하고 실험하였다.

  • PDF

딜리셔스에서 유사태그 추출에 관한 연구 (Mining Semantically Similar Tags from Delicious)

  • 이관
    • 정보관리학회지
    • /
    • 제26권2호
    • /
    • pp.127-147
    • /
    • 2009
  • 자연언어에서 유사어의 처리는 사람과 컴퓨터간의 의사소통에 적지 않은 장애가 되어왔고, 이는 사용자의 임의적 단어사용에 기반을 두고 있는 웹 2.0 애플리케이션, 특히 소셜태깅 분야에 있어서 그 장애의 정도가 더 심각해질 수 있다. 본 연구는 한 대표적인 웹 2.0 애플리케이션에서 자동 유사어 추출에 관한 문제를 다루고 있다. 더 구체적으로, 가장 널리 사용되는 소셜북마킹 애플리케이션인 딜리셔스를 기반으로, 유사태그를 추출하는 방법(FolkSim)을 제시하고자 한다. 제시한 방법의 평가를 위하여, 문서유사도의 측정을 위해서 쓰여진 고전적 벡터모델에 의거한 유사태그를 추출하는 방법(CosSim)과 그 결과들을 서로 비교분석하여 보았다. 몇 가지 면에서 FolkSim가 더 나은 결과 산출해내는 증거들이 관찰되어졌다. 또한, FolkSim 방법에 의한 유사태그가 만들어지지 않는 경우에 대비하여, 그 대안 또한 제시하고 있다.

연구 개발 트렌드 분석을 위한 기술 지식 온톨로지 구축 (Ontology Construction of Technological Knowledge for R&D Trend Analysis)

  • 황미녕;이승우;조민희;김순영;최성필;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권12호
    • /
    • pp.35-45
    • /
    • 2012
  • 과학기술 분야 연구자들은 이전 연구와 개발 결과에 대한 조사 연구에 많은 시간을 소비한다. 또한, 연구자들은 유리한 입지를 성공적으로 차지하기 위해 일반적으로 학술 논문, 특허, 최근 연구 동향에 대한 웹 문서 등의 다양한 학술 자원을 분석하여 새롭게 등장하는 연구 주제를 선점하려고 한다. 하지만 키워드 기반의 정보 검색이나 참고문헌 정보에 근거한 연관 문서 추출 방법을 사용해서는 방대한 문헌에서 투자 가능한 연구 주제를 효율적으로 찾는 일이 쉽지 않다. 본 논문에서는 대규모 기술 문헌 자료에서 추출되는 기술, 제품, 연구 주체 간의 의미론적으로 연결된 정보를 효율적으로 생성, 저장하고 활용할 수 있는 방법을 제안한다. 세부적으로 텍스트 마이닝 기술을 활용하여 문헌에서 나타나는 주요 개체들과 연관 관계를 추출하여 시맨틱 웹 환경에 적용 가능한 기술 지식으로 생성하는데 적합한 온톨로지를 구축한다. 이렇게 구축된 온톨로지는 연관 관계를 가진 기술 지식 탐색을 지원하기에 연구 개발 트렌드 예측 및 분석 서비스인 InSciTe Adaptive에 사용되었다.