• 제목/요약/키워드: 웹정보시스템

검색결과 5,824건 처리시간 0.031초

반복적 부스팅 학습을 이용한 문서 여과 (Text Filtering using Iterative Boosting Algorithms)

  • 한상윤;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.270-277
    • /
    • 2002
  • 문서 여과 문제 (text filtering)는 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 따라서 증가하고 있는 추세이다. 이 논문에서는 새로운 학습 방법인 에이다부스트 학습 방법을 문서 여과 문제에 적용하여 기존의 방법들보다 우수한 분류 결과를 나타내는 문서 여과 시스템을 생성하고자 한다. 에이다 부스트는 간단한 가설의 집합을 생성하고 묶는 기법인데, 이 때 각각의 가설들은 문서가 특정 단어를 포함하고 있는지 검사하여 이에 따라 문서의 적합성을 판별한다. 먼저 최종 여과 시스템을 구성하는 각 가설의 출력이 1 또는 -1이 되는 이진 가설을 사용하는 기존의 에이다부스트 알고리즘에서 출발하여 좀 더 최근에 제안된 확신 정도 (실수값)를 출력하는 가설을 이용하는 에이다부스트 알고리즘을 적용함으로써 오류 감소 속도와 최종 오류율을 개선하고자 하였다. 또 각 데이타에 대한 초기 가중치를 연속 포아송 분포에 따라 임의로 부여하여 여러 번의 부스팅을 수행한 후 그 결과를 결합하는 방법을 사용함으로써 적은 학습 데이타로 인해 발생하는 과도학습의 문제를 완화하고자 하였다. 실험 데이터로는 TREC-8 필터링 트랙 데이타셋을 사용하였다. 이 데이타셋은 1992년도부터 1994년도 사이의 파이낸셜 타임스 기사로 이루어져 있다. 실험 결과, 실수값을 출력하는 가설을 사용했을 때 이진값을 갖는 가설을 사용했을 때 보다 좋은 결과를 보였고 임의 가중치를 사용하여 여러번 부스팅을 하는 방법이 더욱 향상된 성능을 나타내었다. 다른 TREC 참가자들과의 비교결과도 제시한다.

무선 인터넷 프록시 서버 클러스터 시스템에서 라운드 로빈을 이용한 해싱 기법 (A Hashing Scheme using Round Robin in a Wireless Internet Proxy Server Cluster System)

  • 곽후근;정규식
    • 정보처리학회논문지A
    • /
    • 제13A권7호
    • /
    • pp.615-622
    • /
    • 2006
  • 무선 인터넷 프록시 서버 클러스터 환경에서의 캐싱은 인터넷 트래픽, 웹 유저의 요청 및 응답 시간을 줄여주는 효과를 가진다. 이때, 캐시의 히트율(Hit ratio)을 증가시키는 한 가지 방법은 해쉬 함수를 이용하여 동일 요청 URL을 동일 캐시에 할당하는 방법이다. 해싱을 이용한 방법의 문제점은 해쉬의 특성으로 인해 클라이언트의 요청이 일부 캐시 서버로 집중되고 전체 시스템의 성능이 일부 캐시 서버에 종속된다는 점이다. 이에 본 논문에서는 해싱과 라운드 로빈 방식의 장점을 결합하여 클라이언트의 요청을 일부 캐시 서버가 아닌 전체 캐시 서버에 균일하게 분포시키는 개선된 부하 분산 방법을 제안한다. 기존 해싱 방법에서는 요청 URL에 대한 해쉬값이 계산되면 캐시 서버가 컴파일 시간에 정적으로 할당되는 반면, 제안된 방법에서는 라운드 로빈 방법을 사용하여 실행 시간에 동적으로 할당된다. 제안된 방법은 무선 인터넷 프록시 서버 클러스터 환경에서 구현되었고, 16대의 컴퓨터를 이용하여 실험을 수행하였다. 실험 결과는 기존 해싱 방법에 비해 클라이언트의 요청을 캐시 서버들 사이로 균일하게 분포시키고, 이에 따라 전체 무선 인터넷 프록시 서버의 성능이 52%에서 112%까지 향상됨을 확인하였다.

시간 데이타마이닝 프레임워크 (Temporal Data Mining Framework)

  • 이준욱;이용준;류근호
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.365-380
    • /
    • 2002
  • 시간 데이타마이닝은 기존 데이타마이닝에 시간 개념을 추가하여 "시간값을 가진 대용량 데이타로부터 이전에 잘 알려지지는 않았지만, 묵시적이고 잠재적으로 유용한 시간 지식을 탐사하는 기술"로 정의된다. 시간 지식이란 주기적 패턴, 캘린더 패턴, 경향 등과 같이 시간 의미와 시간 관계를 가진 지식을 말한다. 실세계에서는 환자의 병력, 상품 구매 이력, 웹 로그 등과 같은 다양한 시간 데이타가 존재하며 이로부터 여러 형태의 유용한 시간 지식을 찾아낼 수 있다. 데이타마이닝에 대한 연구가 진행되면서 순차 패턴, 유사 시계열 탐사, 주기적 연관규칙 탐사 등과 같이 시간 지식을 탐사하고자 하는 시간 데이타마이닝에 대한 부분적인 연구가 수행되었다. 그러나 기존 연구는 단순히 데이타의 발생 순서 및 유사한 패턴을 찾아내는데 중점을 두고 있어 데이타가 포함하고 있는 시간 의미와 시간 관계를 탐사하는데 부족하며, 시간 지식의 전체적인 측면보다는 연관 규칙과 같은 일부분만을 다루고 있다는 문제점을 가지고 있다. 따라서 이 논문에서는 시간 데이타마이닝에 대한 체계적인 연구를 위하여 시간 데이타마이닝에 대한 기존 연구 내용과 해결해야 할 문제점을 분석하고 이를 바탕으로 전체적인 프레임워크를 제시하였다. 또한 그 구현 방안 및 적용평가를 수행하였다. 프레임워크에서는 시간 데이타마이닝 모델을 제안하고, 이를 바탕으로 시간 데이타마이닝 질의어와 시간 지식을 탐사할 수 있는 시간 데이타마이닝 시스템을 설계하였다.

부분매칭 경로질의를 위한 포스트픽스 공유에 기반한 스트리밍 XML 데이타 필터링 기법 (A Filtering Technique of Streaming XML Data based Postfix Sharing for Partial matching Path Queries)

  • 박석;김영수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권1호
    • /
    • pp.138-149
    • /
    • 2006
  • 센서 네트워크나 유비쿼터스 환경이 보급되면서 최근에는 저장되어 있는 데이타가 아닌 계속적으로 빠르게 지나가는 스트리밍 데이타에 대한 연구가 활발하게 이루어지고 있다. 기존의 Publish-Subscribe 시스템도 인터넷의 발달로 데이타가 실시간으로 빠르게 들어오는 스트리밍 데이터의 형태를 가지게 되면서 스트리밍 데이타 연구에 관심을 가지게 되었고 이 중에서도 웹 환경의 표준으로 많이 사용되는 XML에 관심을 가지게 되었다. Publish-Subscribe 시스템에서 서버에 들어오는 스트리밍 XML 데이타에 대해서 질의에 빠르게 매치(match)되는 것을 찾기 위한 스트리밍 XML 데이타 필터링 기법이 오토마타를 이용해서 연구되었으며, 이중에서 비결정적 오토마타를 사용한 방법이 YFilter이다. 비결 정적 오토마타를 사용하는 YFilter의 경우 질의 앞부분의 공통된 오퍼레이터를 한번에 계산하기 위해서 XPath 질의의 공통된 앞부분을 공유하고 질의의 루트부터 처리하는 하향식 방식을 사용하고 있다. 하지만, 부분매칭 경로질의의 경우에는 질의의 앞부분 공유를 방해하고 질의를 루트에서부터 처리할 필요가 없기 때문에 YFilter에서 부분매칭 경로질의가 증가하면 처리량이 떨어지는 문제가 발생한다. 본 논문에서는 이 문제 대해 XPath 질의의 공통된 뒷부분 공유에 기반한 상향식 방식을 사용하는 PoSFilter를 한가지 해결책으로 제시한다. 그리고 YFilter와 PoSFilter의 처리량을 비교를 통해서 PoSFilter의 경우 부분매칭 경로질의가 증가할 때 YFilter보다 좋은 처리량을 나타내는 것을 검증한다.

하이브리드 앱 기반의 퍼스널 트레이닝 제안 시스템 (Personal Training Suggestion System based Hybrid App)

  • 계민석;이혜수;박성현;김동옥;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.665-667
    • /
    • 2014
  • Wellness는 IT와 융합하여 사용자의 건강을 관리하고 유지하는데 도움을 주는 서비스를 말한다. 기존의 경우 Fitness 센터 이용자들은 자신에게 맞지 않은 기구를 선택함으로써 부상의 위험이 존재 했고 효율적인 운동 방법을 익히기 위해서는 오랜 시간이 필요했다. 이를 해결하기 위해 사람들은 퍼스널 트레이닝을 이용하지만 값비싼 비용의 문제가 발생하고 혼자 운동하는 습관을 기르는데 어려움을 갖게 했다. 본 논문에서는 다양한 스마트 폰 플랫폼과 호환성을 가진 하이브리드 앱 기반으로 개인화된 트레이닝 마켓 시스템을 구축하였다. 사용자들은 Fitness 센터에서 자신의 운동 기록을 스마트 폰에 내장되어 있는 센서를 이용하거나 직접 입력하여 웹으로 전송한다. 이를 기반으로 사용자들에게 맞는 운동 프로그램을 트레이닝 마켓을 통해 제공하게 된다. 퍼스널 트레이닝 마켓에는 다양한 사용자들이 운동 기록을 확인하여 그에 대한 운동 프로그램을 추천할 수 있고 스스로 선택하여 적용할 수 있다. 이를 통해 사용자는 자신에게 맞는 운동 프로그램으로 장기간 운동할 수 있는 습관을 기를 수 있고 능동적인 목표 설정이 가능하다.

  • PDF

한류문화콘텐츠의 기록화를 위한 AtoM 활용 방안에 관한 연구 K-Food 콘텐츠를 중심으로 (A Study on Availability of AtoM for Recording Korean Wave Culture Contents : A Case of K-Food Contents)

  • 심갑용;유현경;문상훈;이윤용;이정현;김용
    • 기록학연구
    • /
    • 제43호
    • /
    • pp.5-42
    • /
    • 2015
  • 한류3.0은 기존의 문화콘텐츠 뿐만 아니라 전통문화, 문화예술을 포괄하는 'K-Culture'를 핵심어로 내세우며 한국적인 모든 것을 한류문화콘텐츠의 재료로 삼고 있다. 한류문화콘텐츠는 현재 우리 사회상을 반영하는 중요한 증거적 가치를 지닌 기록물로써 보존할 필요성이 있다. 이러한 사회적 환경과 함께, 본 연구에서는 다양한 한류문화콘텐츠들에 대한 현황분석을 통하여 체계적인 기록관리를 위한 AtoM 기반의 기록관리시스템을 제안하고자 하였다. 최근 한류문화콘텐츠 관리는 K-Pop, K-Food, K-Movie 등 특정분야의 단체가 개별적으로 진행하고 있지만 해당 분야 내에서도 관련 기관간의 연계가 부족하여 정보 축적이 제한적이며 콘텐츠에 대한 재생산 또한 미흡한 실정이라고 할 수 있다. 이에 본 연구는 한류문화콘텐츠의 기록화를 위해 오픈소스 소프트웨어인 Access to Memory(AtoM)를 사용하였다. AtoM은 기록의 수집에서부터 축적 및 분류, 기술, 목록관리, 검색 등의 기록관리 기능을 지원하며 무료로 사용가능한 웹 기반의 소프트웨어라는 장점이 있다. 한류문화콘텐츠의 기록화를 위해 기록관리시스템의 기능요건에 따라 AtoM을 적용하였다. 특히 K-Food와 관련된 기록콘텐츠를 모델로 선정하여 관련 기록물을 수집 및 분류하였으며 ISAD(G) 표준에 맞추어 기술하였다. 마지막으로 AtoM을 이용한 한류문화콘텐츠 기록화에 대한 기대효과와 한계 및 연구의 의의를 밝혔다.

도서관 서비스 품질평가 도구로서 LibQUAL+TM에 대한 재평가 (Toward an Evaluation Framework of Library Services: Re-examination of LibQUAL+TM)

  • 박지홍
    • 정보관리학회지
    • /
    • 제24권2호
    • /
    • pp.5-27
    • /
    • 2007
  • 도서관 서비스 품질평가 도구인 $LibQUAL+^{TM}$에 대한 많은 연구논문이 발표되었으나, $LibQUAL+^{TM}$ 요인과 도서관 서비스 이용의도 사의의 관계를 연구한 사례는 매우 드물다. 본 논문은 Icek Ajzen의 계획적 행위이론을 적용하여 도서관 서비스 이용의도에 영향을 미치는 요인을 추출하고자 하였다. 이러한 요인을 추출하기 위하여 미국 대학생을 대상으로 웹 설문을 실시하였고, 요인분석 및 다중회귀분석을 통하여 수집된 데이터를 분석하였다. 분석결과, 도서관 서비스 이용의도는 도서관에서 제공되는 서비스 품질에 대한 이용자의 태도와 관련이 있었다. 통계분석결과 유의미하게 나타난 태도요인은 이용자가 지각한 (1) 정보원 및 시스템 이용시의 주도성, (2) 서비스 제공 의향정도, (3) 제공되는 정보의 포괄성이었다. $LibQUAL+^{TM}$ 요인간의 상대적 중요도를 측정하였다. 반면에, 이용의도에 유의미한 영향을 미치지 않는 요인으로는 정보접근의 적시성과 물리적인 공간으로서의 도서관을 지각하는 부분이었다. 본 연구의 의의는 도서관 서비스 품질평가에 대한 연구의 영역을 확장시키고 이용의도를 고려한 새로운 평가 체계를 제시한 점이다.

토픽맵과 카산드라를 이용한 그래프 구조와 트랜잭션 동시 처리 기법 (Technique for Concurrent Processing Graph Structure and Transaction Using Topic Maps and Cassandra)

  • 신재현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권3호
    • /
    • pp.159-168
    • /
    • 2012
  • SNS, 클라우드, Web3.0과 같은 새로운 IT환경은 '관계(relation)'가 중요한 요소가 되고 있다. 그리고 이들 관계(relation)는 거래, 즉, 트랜잭션을 발생시킨다. 그러나 우리가 사용하고 있는 관계형 데이터베이스(RDBMS)나 그래프 데이터베이스는 관계(relation)를 나타내는 그래프 구조와 트랜잭션을 동시에 처리하지 못한다. 본 논문은 확장 가능한 복잡 네트워크 시스템에서 활용할 수 있는 그래프 구조와 트랜잭션을 동시에 처리할 수 있는 방법을 제안한다. 제안 기법은 토픽맵의 데이터 모델을 응용하여 그래프 구조와 트랜잭션을 동시에 저장하고 탐색한다. 토픽맵은 시멘틱 웹(Web3.0)을 구현하는 온톨로지 언어 중 하나로써, 정보자원들 사이의 연관 '관계(relation)'를 통해 정보의 네비게이터로써 활용되고 있다. 또한 본 논문에서는 컬럼형 데이터베이스인 카산드라를 이용하여 제안 기법의 아키텍처를 설계, 구현하였다. 이는 분산처리를 이용하여 빅데이터 레벨의 데이터까지 처리할 수 있도록 하기 위함이다. 마지막으로 대표적인 RDBMS인 오라클과 제안 기법을 동일한 데이터 소스, 동일한 질문에 대해 저장 및 질의를 하는 과정을 실험으로 보였다. 이는 조인(join) 없이 관계(relation)를 표현함으로써 RDBMS의 역할까지 충분히 대체 가능함을 보이고자 한다.

이미지 인식을 이용한 비마커 기반 모바일 증강현실 기법 연구 (Non-Marker Based Mobile Augmented Reality Technology Using Image Recognition)

  • 조휘준;김대원
    • 융합신호처리학회논문지
    • /
    • 제12권4호
    • /
    • pp.258-266
    • /
    • 2011
  • 증강현실 기술이 많이 보편화 되고 사용 양태가 다양화됨에 따라 적용되는 분야 및 범위 또한 우리 생활 곳곳에서 쉽게 나타나고 볼 수 있게 되었다. 기존의 카메라 비전 기반 증강현실 기법들은 현실 세계의 실제 정보 이용 보다는 마커를 이용한 기술을 더 많이 사용하였다. 이러한 마커 인식을 통한 증강현실 기법은 그 응용 범위가 제한적이고 사용자가 해당 서비스 응용 프로그램에 몰입하는데 적절한 환경을 제공하는데 한계가 존재한다. 본 논문에서 스마트 모바일 단말 기반 증강현실 기술 구현을 위해 단말 장치에 내장된 카메라와 이미지 처리 기술을 활용하여 어떠한 마커도 없는 상태에서 사용자가 현실세계의 영상으로부터 객체를 인식하고 해당 객체에 연결된 3D 컨텐츠와 관련 정보를 현실 세계의 영상에 추가되게 함으로써 서비스가 구현되는 증강현실 가술을 제시하였다. 이미지로부터의 객체 인식은 미리 등록되어 있는 창조용 정보와 비교하는 과정을 통해 진행되었으며 이 과정에서 스마트 모바일 장치의 특성을 고려하여 구동 속도 향상을 목표로 유사도 측정을 위한 연산량을 줄이도록 하였다. 또한 3D 컨텐츠가 단말 화면상에 출력된 후 사용자는 스마트 모바일 장치를 이용한 터치 이벤트를 통해 상호작용이 가능하도록 설계되었다. 이 후 사용자의 선택에 따라 웹 브라우저를 통하여 객체와 연관된 정보를 얻을 수 있도록 하였다. 본 논문에 묘사된 시스템을 이용하여 기존 기술과의 객체 인식 및 동작 속도, 정확도, 인식 오류 검출 정도 등의 성능 차이를 비교 분석하였고 그 결과를 제시함으로써 스마트 모바일 환경에 적합한 증강현실 기법을 소개하고 실험을 통해 검증하고자 하였다.

순차 데이터 스트림에서 발생 간격 제한 조건을 활용한 빈발 순차 패턴 탐색 (Mining Frequent Sequential Patterns over Sequence Data Streams with a Gap-Constraint)

  • 장중혁
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권9호
    • /
    • pp.35-46
    • /
    • 2010
  • 순차 패턴 탐색은 데이터 마이닝의 주요 기법 중의 하나로서 웹기반 시스템, 전자상거래, 생물정보학 및 USN 환경 등과 같은 여러 컴퓨터 응용 분야에서 생성되는 데이터를 효율적으로 분석하기 위하여 널리 활용되고 있다. 한편 이들 응용 분야에서 생성되는 정보들은 근래들어 한정적인 데이터 집합이 아닌 구성요소가 지속적으로 생성되는 데이터 스트림 형태로 생성되고 있다. 이러한 상황을 고려하여 데이터 스트림에서 순차패턴 탐색에 대한 연구들도 활발히 진행되고 있다. 하지만 이전의 연구들은 주로 분석 대상 데이터 스트림에서 단순 순차패턴을 구하는 과정에서 마이닝 수행 시간이나 메모리 사용량 등을 줄이는데 초점을 맞추고 있으며, 따라서 해당 데이터 스트림의 특성을 효율적으로 표현할 수 있는 보다 중요하고 의미있는 패턴들을 탐색하기 위한 연구는 거의 진행되지 못하고 있다. 본 논문에서는 데이터 스트림에서 보다 의미있는 순차패턴을 탐색하기 위한 방법으로 구성요소의 발생 간격 제한 조건을 활용한 빈발 순차패턴 탐색 방법을 제안한다. 먼저 발생 간격 정의 기준 및 발생 간격제한 빈발 순차패턴의 개념을 제시하고, 이어서 데이터 스트림에서 발생 간격 제한 조건을 적용하여 빈발 순차패턴을 효율적으로 탐색할 수 있는 마이닝 방법을 제안한다.