• 제목/요약/키워드: 웹 데이터

검색결과 3,399건 처리시간 0.03초

비즈니스 인텔러전스를 위한 지능적 웹 로거 (An Intelligent Web Logger for Business Intelligence)

  • 임윤선;정안모;김명
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.271-273
    • /
    • 2001
  • 웹 로그는 웹 서버를 통해 이루어지는 작업들에 관한 기록으로써, OLAP이나 데이터 마이닝과 같은 비즈니스 인텔리전스 기술로 분석되어 고부가가치 창출에 사용되는 중요한 자료이다. 웹 로그에는 파일 이름과 같은 물리적인 데이터가 저장되는데 이러한 데이터는 분석에 사용되기 전에 정제과정을 통해 의미 있는 데이터로 변환되거나 불필요한 경우에는 삭제된다. 웹 로그 데이터의 분량을 적정선으로 유지하면서 데이터 정제 작업의 일부가 해결되도록 하는 방법으로 웹로그 생성단계에서 시스템이 제공하는 필터를 쓸 수 있다. 그러나, 필터로는 웹 페이지의 내용이 동적으로 변경되는 경우 그 상황을 즉시 반영하기가 쉽지 않다. 본 연구에서는 웹 로그가 ‘지능적 웹 로거’를 통해 생성되도록 하여 이러한 문제를 해결하였다. ‘지능적 웹 로거’를 통해 불필요한 데이터의 생성을 막고, 물리적인 데이터를 신속하게 의미 있는 데이터로 변환하도록 하였다. 웹 페이지의 변경 내용을 웹 로그 생성에 즉시 반영하여 의미 있는 데이터 생성에 이용함으로써, 웹 로그 생성 후에 실행되던 데이터 정제작업 자체를 단순화시켰고, 웹사이트 관리자가 편리한 사용자 인터페이스로 로그 규칙을 만들어 적용할 수 있도록 하였다.

  • PDF

데이터웹하우스 시스템에서 메타데이터 스키마의 설계 및 활용 (Design and Application of Metadata Schema in Datawebhouse System)

  • 박종모;조경산
    • 정보처리학회논문지D
    • /
    • 제14D권6호
    • /
    • pp.701-706
    • /
    • 2007
  • 고객관리에 중요한 정보로 활용되는 웹로그 분석과 의사결정을 지원하기 위한 데이터웨어하우스를 결합하여 데이터웹하우스가 등장하였다. 그러나 시스템에 분산되어 저장된 정보를 통합하는 데이터웹하우스는 다양하고 이질적인 정보를 포함하므로 관리적 측면에서 복잡한 작업을 필요로 한다. 본 연구는 데이터웹하우스 환경에서 데이터를 효과적으로 관리하고 통합하기 위한 메타데이터 스키마를 제안한다. 제안된 스키마는 데이터웹하우스 개발을 지원하고 기업의 정보 자산에 대한 통합 관리를 가능케 한다. 또한 데이터웹하우스의 웹로그 추출을 위한 ETL 메타데이터를 사용하여 웹로그 데이터 처리시간을 향상시킬 수 있다.

빅데이터 기반 대용량 시맨틱 웹 검색 기술 동향

  • 윤석찬;남궁현;양성권;김홍기
    • 정보와 통신
    • /
    • 제29권11호
    • /
    • pp.24-29
    • /
    • 2012
  • 시맨틱 웹 기술은 웹의 초창기부터 다양한 연구와 표준이 개발되었지만 이를 활용한 데이터 서비스 분야는 그 역사에 비해 성공 사례가 부족한 것이 현실이다. 최근 웹 2.0을 시초로 링크드 데이터의 성장, 정부의 개방형 데이터 서비스, 소셜 웹 서비스의 등장으로 인해 웹의 구조적 데이터는 폭발적으로 성장해 왔으며, 대용량 시맨틱 웹 기반 서비스에 대한 요구와 연구가 진행되고 있다. 본 고에서는 킬러 애플리케이션으로서 기존 시맨틱 웹 기반 검색 기술의 문제점들을 알아보고 이를 해결하기 위해 최근 화두로 떠오르는 빅데이터(Big Data) 기술 요소인 하둡(Hadoop) 및 NoSQL을 활용하여 대용량 시맨틱 웹 데이터를 활용한 Daum의 영화/음악/인물 기반 의미 검색 및 의학 LOD를 기반한 검색 서비스 개발 사례를 제시한다. 이를 토대로 이종 모델 데이터간 연결 및 실시간 데이터 리비전 관리 등 한계점들을 살펴보고 향후 대용량 공공 데이터 활용을 위한 방향을 모색해 본다.

웹 환경에서 공간 데이터 변경 기법에 관한 연구 (A Study of Updata Scheme of Spatial Data on Web Environment)

  • 안성우;서영덕;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.308-310
    • /
    • 2000
  • 웹 환경의 성장으로 현재 GIS 응용은 기존의 랜 환경에서의 서비스를 웹에서도 할 수 있게 함으로써 보다 쉽게 다양한 사용자들이 서비스를 제공받도록 하고 있다. 이런 이유로 웹 환경에서의 GIS 응용은 다양한 사용자 층에 대한 요구를 만족시키기 위하여 다양한 서비스 데이터를 필요로 하고, 이 데이터들은 빠른 시간 내에 지속적으로 사용자의 요구를 만족시키기 위하여 변경되어야 한다. 그러나 이러한 데이터 변경을 서버에서 모두 한다는 것은 불가능하기 때문에 클라이언트가 데이터 변경이 필요할 때 적절히 변경을 할 수 있는 방법이 제시되어야 한다. 랜 환경에서의 공간 데이터 변경과는 달리 웹 환경에서의 공간 데이터 변경은 현재까지 환경의 차이와 이로 인한 프로토콜의 복잡함 등의 이유로 연구가 거의 이루어지지 않았다. 이 논문에서는 웹 환경에서 웹 클라이언트가 서버측의 공간 데이터를 변경하는 문제에 대해서 다루고 있다. 웹 환경에서 공간 데이터를 변경할 때 가장 문제가 되는 HTTP 프로토콜의 연결 해제(Connectioness)와 상태 비유지(Stateless)에 대한 해결책을 제시한다. 그리고 비정상적인 상황의 발생을 고려하여 잠금과 서버 데이터의 불일치를 해결하는 프로토콜을 설계하고 이에 대한 구현을 통하여 검증을 한다.

  • PDF

다중 에이전트 기반 웹 웨어하우징 (Web Warehousing based on Multi-Agent)

  • 김현희;박승수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.274-276
    • /
    • 2000
  • 본 연구에서는 기존의 데이터 웨어하우징 기술과 웹 기반 기술을 통합한 웹 웨어하우징 기법에 다중 에이전트 패러다임을 적용하여 다중 에이전트 기반 웹 웨어하우징 시스템을 설계, 구현하였다. 시스템은 정보 검색 에이전트, 정보 통합 에이전트, 웹하우스 구축 에이전트로 구성된다. 정보 검색 에이전트는 여러 종류의 웹 자원을 수집한다. 정보 통합 에이전트는 정보 검색 에이전트에 의해 수집된 이형질적인 데이터를 일정한 형식으로 변환한다. 웹하우스 에이전트는 생성된 데이터를 사용하여 웹하우스를 구축하고 관리한다. 웹 데이터를 통합하기 위해 새로운 데이터 모델을 제안하였다. 의미를 갖는 지능적 객체를 생성하기 위해 여러 종류의 추론 에이전트들이 추론작업을 수행하고, 이들은 블랙보드 시스템을 통하여 작업을 통합한다. 본 시스템은 의미 정보 데이터를 사용하므로 웹 정보의 의미적 검색과 정보추출이 가능하다.

  • PDF

새로운 웹 환경과 웹 서비스와의 관련성에 대한 연구 (A Study of Relationship with New Web Environment and Web Service)

  • 서진형;이현창
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.31-33
    • /
    • 2010
  • 웹 사용 환경에서의 새로운 웹 환경의 적용은 이전의 정적인 웹 환경에서 동적인 웹 사용 환경으로 움직이고 있다는 것을 의미하며, 새로이 생성된 데이터에 의하여 모든 것이 움직이게 됨을 의미되며, 이에 따라 정적인 웹과 동적인 웹에서 사용되는 웹 페이지의 일반적인 성격을 분석하면 단순한 정적 및 동적 페이지의 성격만을 보여주지 않는다. 이러한 관점에서 새로운 웹 운영 환경은 읽기만 하는 웹부터 메타웹까지의 기본적인 개념을 모두 적용하며, 이 과정에서 가장 중요하게 여겨지는 것이 바로 웹뷰로 새로운 웹 사용 환경을 통하여 만들어진 데이터가 웹 인터페이스를 통하여 사용자에게 결과를 전송하게 되며, 새로운 웹 사용 환경에서는 주변에서의 끊임없는 데이터의 갱신을 통하여 다양한 사용자 요구에 따른 결과를 생성, 전송하게 된다. 그러나 웹은 데이터 모델의 사용과 질의어 정의 등에 대한 서비스를 제공하지 않으며, 데이터베이스의 운용에 대한 개념도 존재하지 않아 처리되는 데이터에 대한 소유권에 대한 주장 등이 명확하지 않다. 이러한 문제점을 해결하기 위하여 본 연구에서는 새로운 웹 사용 환경과 웹 서비스의 관련성을 확인하여 추후의 응용에 대비하고자 한다.

  • PDF

데이터마이닝을 이용한 웹 데이터 분석 (Analysis of Web Data Applying Data Mining)

  • 채승경;서용무
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.345-361
    • /
    • 2001
  • 인터넷의 확산으로 웹 구조, 웹 로그 등을 분석하는 웹마이닝(Web Mining)에 대한 연구가 활발히 진행되고 있다. 그러나 웹에서 발생하는 데이터에 대한 분석은 아직 미약한 상태이다. 웹에서 획득된 데이터는 신뢰도가 낮아 통계와 같은 기존의 분석 방법을 적용하기에 많은 어려움이 따른다. 또한 대용량 데이터와 실제 데이터에 유연한 분석을 제공하는 데이터 마이닝은 아직까지 적용 분야가 매우 한정되어 있다. 본 논문에서는 인터넷 사이트의 실제 데이터를 이용하여 데이터마이닝 과정에 따라 데이터 정제, 데이터 선택, 데이터 변환 등 효과적인 데이터 전처리 방법을 제시한다. 또한 이렇게 전처리된 데이터로 고객 세분화, 우수 고객 분류를 위한 데이터마이닝 기법을 적용한 후 수행 결과를 분석한다. 마지막으로 분석의 한계점을 지적하고 보다 양질의 데이터마이닝을 위한 시스템 및 사이트 설계 방안을 제시한다.

  • PDF

수난 발생 및 규모 예측을 위한 웹 크롤러 및 네트워크 분석기술 개발 (Development of Web Crawler and Network Analysis Technology for Occurrence and Prediction of Flooding)

  • 서동민;김호용;이정하;황석환
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.5-6
    • /
    • 2019
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 데이터의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서, 최근 웹 데이터는 재난대응 미디어로써 매우 중요한 역할을 하고 있다. 또한, 빅데이터 분석에 활용되는 원천 데이터는 네트워크 형태이며, 최근 소셜 네트워크 분석을 통한 효과적인 상품 광고, 핵심 유전자 발굴, 신약 재창출 등 다양한 영역에서 네트워크 분석 기술이 사회와 인류에게 가치 있는 정보를 제공할 수 있는 가능성을 제시하면서 네트워크 분석 기술의 중요성이 부각되고 있다. 본 논문에서는 웹에서 제공하는 뉴스와 SNS 데이터를 이용해 수난 발생 및 규모 예측을 지원하는 웹 크롤러 및 네트워크 분석기술을 제안한다.

  • PDF

시맨틱 웹 기반 분산 아키텍쳐 설계

  • 김정석
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.451-456
    • /
    • 2003
  • 기존 웹 서비스에서 구현하고 있는 n-Tier 분산 아키텍쳐에 대한 시맨틱 웹 서비스를 제공하기 위해 변화되는 내용을 살펴본다. 시맨틱 웹에서는 사람만이 알아보고 분석할 수 있는 형태의 데이터가 아닌 컴퓨터가 이해할 수 있도록 데이터를 표현하게 된다. 컴퓨터가 이해하기 위한 데이터는 단순히 RDBMS에 대한 질의로 이루어지는 것이 아니라 온톨로지에 의한 표현이 필요하게 된다. 기존의 웹은 대부분 데이터를 저장하기 위해 RDBMS를 이용하고 있으며 온톨로지 표현은 이러한 데이터를 기반으로 적성된다면 시맨틱 웹 구성에 많은 도움이 된다. 또 다른 기존의 웹과 시맨틱 웹의 차이점으로 들 수 있는 것은 에이전트가 활용된다는 점이며 이러한 에이전트의 등장으로 인해 각 에이전트의 통신, 지식의 공유와 같은 여러 가지 다른 요소가 고려되어야 한다. 이 논문에서는 시맨틱 웹을 구현하기 위해 에이전트 간의 통신 방법과 지식 표현을 위한 방법에 중점을 두어 시맨틱 웹 분산 아키텍쳐를 제안한다.

  • PDF

웹 마이닝 시스템 설계 및 유용한 접근 패턴 정의 (Design of the web data mining system and definition of useful access patterns)

  • 김종달;김성민;남도원;이동하;이전영
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 춘계정기학술대회 e-Business를 위한 지능형 정보기술 / 한국지능정보시스템학회
    • /
    • pp.283-291
    • /
    • 2000
  • 인터넷 서비스 제공자들이 관심을 가지고 있는 것 중 하나는 인터넷 사용자들의 서비스 이용 패턴과 경향을 분석하는 것이다. 이를 통해 매출 증대와 실제 경영에 도움이 되는 사용자의 특성을 이해할 수 있기 때문이다. 이와 관련된 기본적인 접근방법은 사용자가 웹 서버에 접근했을 때 서버에 남는 웹 로그를 분석하여 사용자 패턴을 분석하는 것이다. 웹 로그 분석에 전형저인 통계기법이 사용되고 있다. 그러나 단순 통계 기법만으로는 알려지지 않는 데이터들 사이에 숨겨진 유용한 정보를 찾는 데에는 한계가 있다. 최근에는 이러한 한계를 극복하기 위해 데이터 마이닝 기술을 이용한 새로운 접근 방법이 시도되고 있다. 그러나 실제로 웹 로그에서부터 데이터 마이닝 기술을 이용하는 데에는 전처리 과정의 어려움과 실제 유용한 패턴을 어떻게 정의하는 가가 어려운 문제이다. 본 연구에서는 로(raw) 데이터인 웹 로그에서 유용한 패턴을 찾기 위한 전처리 과정을 알아보고, 웹 마이닝 시스템에 적합한 트랜잭션의 데이터 구조를 제시한다. 그리고 정의된 데이터 구조를 통한 패턴 발견 과정인 웹 사이트의 개념계층을 이용한 통계 기법과 연관규칙(Association Rules) 탐사에 대해 알아본다. 마지막으로 정의된 데이터 구조를 통한 새로운 유용한 패턴을 정의한ㄷ.

  • PDF