• 제목/요약/키워드: Query Patterns

검색결과 104건 처리시간 0.028초

Travel mode classification method based on travel track information

  • Kim, Hye-jin
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.133-142
    • /
    • 2021
  • 이동 패턴 인식은 사용자 궤적 질의, 사용자 행동 예측, 사용자 위치에 기초한 흥미요소 추천, 사용자 개인 정보 보호 및 지자체 교통 계획과 같은 여러 측면에서 널리 사용된다. 현재 인식 정확도는 응용 요건을 충족할 수 없기 때문에 이동 패턴 인식 연구는 궤적 데이터 연구의 초점이라 할 수 있다. GPS 내비게이션 기술과 지능형 모바일 기기의 대중화로 많은 사용자 모바일 데이터 정보를 얻을 수 있고, 이를 바탕으로 많은 의미 있는 연구가 이루어질 수 있다. 현재의 이동 패턴 연구 방법에서 궤적의 특징 추출은 궤도의 기본 속성(속도, 각도, 가속도 등)으로 제한된다. 본 논문에서 순열 엔트로피는 궤적 분류 연구에 참여하기 위한 궤적의 고유값으로 사용되었으며 시계열의 복잡성을 측정하기 위한 속성으로도 사용되었다. 속도 순열 엔트로피와 각도 순열 엔트로피가 이동 패턴 분류에 참여하기 위한 궤적의 특성으로 사용되었으며, 본 논문에서 사용된 순열 엔트로피를 기반으로 한 속성 분류의 정확도는 81.47%에 달했다.

Factors Clustering Approach to Parametric Cost Estimates And OLAP Driver

  • JaeHo, Cho;BoSik, Son;JaeYoul, Chun
    • 국제학술발표논문집
    • /
    • The 3th International Conference on Construction Engineering and Project Management
    • /
    • pp.707-716
    • /
    • 2009
  • The role of cost modeller is to facilitate the design process by systematic application of cost factors so as to maintain a sensible and economic relationship between cost, quantity, utility and appearance which thus helps in achieving the client's requirements within an agreed budget. There are a number of research on cost estimates in the early design stage based on the improvement of accuracy or impact factors. It is common knowledge that cost estimates are undertaken progressively throughout the design stage and make use of the information that is available at each phase, through the related research up to now. In addition, Cost estimates in the early design stage shall analyze the information under the various kinds of precondition before reaching the more developed design because a design can be modified and changed in all process depending on clients' requirements. Parametric cost estimating models have been adopted to support decision making in a changeable environment, in the early design stage. These models are using a similar instance or a pattern of historical case to be constituted in project information, geographic design features, relevant data to quantity or cost, etc. OLAP technique analyzes a subject data by multi-dimensional points of view; it supports query, analysis, comparison of required information by diverse queries. OLAP's data structure matches well with multiview-analysis framework. Accordingly, this study implements multi-dimensional information system for case based quantity data related to design information that is utilizing OLAP's technology, and then analyzes impact factors of quantity by the design criteria or parameter of the same meaning. On the basis of given factors examined above, this study will generate the rules on quantity measure and produce resemblance class using clustering of data mining. These sorts of knowledge-base consist of a set of classified data as group patterns, of which will be appropriate stand on the parametric cost estimating method.

  • PDF

소비자 키워드광고 탐색패턴에 나타난 촉진지향성이 온라인 여행상품 구매확률에 미치는 영향 (The Effect of Deal-Proneness in the Searching Pattern on the Purchase Probability of Customer in Online Travel Services)

  • 김현교;이동일
    • 한국경영과학회지
    • /
    • 제39권1호
    • /
    • pp.29-48
    • /
    • 2014
  • The recent keyword advertising does not reflect the individual customer searching pattern because it is focused on each keyword at the aggregate level. The purpose of this research is to observe processes of customer searching patterns. To be specific, individual deal-proneness is mainly concerned. This study incorporates location as a control variable. This paper examines the relationship between customers' searching patterns and probability of purchase. A customer searching session, which is the collection of sequence of keyword queries, is utilized as the unit of analysis. The degree of deal-proneness is measured using customer behavior which is revealed by customer searching keywords in the session. Deal-proneness measuring function calculates the discount of deal prone keyword leverage in accordance with customer searching order. Location searching specificity function is also calculated by the same logic. The analyzed data is narrowed down to the customer query session which has more than two keyword queries. The number of the data is 218,305 by session, which is derived from Internet advertising agency's (COMAS) advertisement managing data and the travel business advertisement revenue data from advertiser's. As a research result, there are three types of the deal-prone customer. At first, there is an unconditional active deal-proneness customer. It is the customer who has lower deal-proneness which means that he/she utilizes deal-prone keywords in the last phase. He/she starts searching a keyword like general ones and then finally purchased appropriate products by utilizing deal-prone keywords in the last time. Those two types of customers have the similar rates of purchase. However, the last type of the customer has middle deal-proneness; who utilizes deal-prone keywords in the middle of the process. This type of a customer closely gets into the information by employing deal-prone keywords but he/she could not find out appropriate alternative then would modify other keywords to look for other alternatives. That is the reason why the purchase probability in this case would be decreased Also, this research confirmed that there is a loyalty effect using location searching specificity. The customer who has higher trip loyalty for specificity location responds to selected promotion rather than general promotion. So, this customer has a lower probability to purchase.

전사적 응용시스템 테스트를 위한 DB이미지 생성에 관한 연구 (Automatic Generation of DB Images for Testing Enterprise Systems)

  • 권오승;홍사능
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.37-58
    • /
    • 2011
  • 데이터베이스를 사용하는 프로그램을 테스트하는 것은 일반 소프트웨어의 경우보다 훨씬 더 복잡하고 어렵다. 테스트 데이터에 더하여 데이터베이스 상태가 테스트의 절차와 결과에 결정적인 영향을 미치는 것이 주요 원인이다. 테스트에 적합한 데이터베이스 상태를 만들어주려면 많은 시간과 노력이 필요한 것은 물론이거니와 IT와 업무에 대한 상당한 지식이 있어야 한다. 이러한 어려움에도 불구하고 데이터베이스 응용 프로그램의 테스트에 대한 연구와 지원은 매우 부족하다. 이 논문은 테스트에 알맞은 데이터베이스 상태의 생성과 유지에 관한 연구 결과를 보고한다. 연구의 핵심은 프로그램에서 사용하는 SQL을 로그파일에서 추출하여 분석한 결과와 데이터베이스 스키마와 테이블, 로그, 전문 등의 다양한 원천(source)에서 수집한 정보를 결합하여 프로그램의 테스트에 적합한 사전, 사후 상태를 자동으로 만들어주는 테스트 지원도구의 개발이다. 연구에서 제시한 절차와 도구는 단위 테스트와 통합 테스트의 지원과 더불어 회귀 테스트의 수행에 따르는 어려움을 극복하는데 큰 도움이 될 것이다. 실무적으로는 연구의 결과가 데이터베이스 상태의 생성과 유지에 소요되는 시간과 노력을 줄여 개발인력의 생산성을 제고하고, 다양한 케이스의 테스트와 회귀 테스트를 지원하여 대상 프로그램의 품질 향상에 기여할 것으로 기대한다. 학문적으로는 프로그램에서 사용하는 SQL의 패턴을 분석할 수 있는 상태 전이 도형과, 패턴의 표현 및 추론이 가능한 문법을 정의하여 전사적 응용 프로그램 테스트에 대한 폭 넓은 이해와 새로운 접근 방식을 가능하게 하였다.

내용 기반 음악 정보 검색에서 주제 선율의 변화 패턴을 이용한 색인 및 검색 기법 (Indexing and Retrieval Mechanism using Variation Patterns of Theme Melodies in Content-based Music Information Retrievals)

  • 구경이;신창환;김유성
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권5호
    • /
    • pp.507-520
    • /
    • 2003
  • 본 연구에서는 내용 기반 음악 정보 검색 시스템의 검색 속도를 증진하기 위해 음악의 대표 선율인 주제 선율을 추출하여 주제 선율 색인을 구성하고 이를 이용한 효율적인 내용 기반 음악 정보 검색 기법을 제안하였다. 추출된 주제 선율을 다차원 공간 색인 기법인 M-tree를 이용하여 주제 선율 색인으로 구성하기 위해 주제 선율의 평균 음 높이 변화량과 평균 음 길이 변화량을 이용하였으며 검색의 정확도를 증진하기 위해 음 높이 변화 패턴을 요약한 높이 시그니처와 음 길이 변화 패턴을 요약한 길이 시그니처를 이용하였다. 또한 제안된 내용 기반 음악 정보 검색 기법에서는 사용자의 질의 선율로부터 질의 선율의 패턴 정보를 구성하고 M-tree의 k-근접 검색 및 범위 검색 기법을 이용하여 사용자의 질의 선율과 유사한 주제 선율을 포함하고 있는 음악 정보를 검색한다. 검색된 결과로부터 순위 부여한 후 사용자 피드백을 하여 사용자의 만족도를 증진하기 위한 특성을 포함하도록 하였다. 또한, 본 논문에서 제안된 주제 선율 색인 기법 및 내용 기반 검색 기법을 포함한 내용 기반 음악 정보 검색 시스템의 프로토타입을 구현하여 제안된 기법의 실효성을 입증하였다.

주가 예측을 위한 규칙 탐사 및 매칭 (Rule Discovery and Matching for Forecasting Stock Prices)

  • 하유민;김상욱;원정임;박상현;윤지희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.179-192
    • /
    • 2007
  • 본 논문에서는 주식 데이타베이스로부터 과거 주가 변화 패턴에 대한 규칙을 탐사함으로써 투자자에게 주식 투자 유형을 추천해 주는 방안에 관하여 논의한다. 먼저, 본 논문에서는 주식 투자 유형의 추천을 위한 새로운 규칙 모델을 정의한다. 제안된 모델에서는 빈번하게 발생하는 주가 변화 패턴의 이후의 주가 변화 경향이 투자자의 투자 조건과 매치하는 경우, 이 종목에 대한 투자 유형을 추천하도록 하는 방식을 사용한다. 이때, 빈번하게 발생하는 패턴을 규칙의 헤드로 간주하며, 이후의 주가 변화 경향을 규칙의 바디로 간주한다. 본 연구에서는 규칙 헤드는 투자자의 특성에 별다른 영향을 받지 않는 반면, 규칙 바디에 대한 조건은 투자자마다 다르다는 점에 착안하여 규칙 탐사 과정에서 전체 규칙이 아닌 규칙 헤드들만을 탐사하여 저장해 두는 새로운 방식을 제안한다. 이 결과, 투자자 별로 달라질 수 있는 규칙 바디에 대한 조건을 유연하게 정의하는 것을 허용하며, 규칙의 수를 줄임으로써 전체 규칙 탐사 성능을 개선할 수 있다. 효율적인 규칙 탐사와 매칭을 위하여 빈번 패턴들을 효과적으로 탐사하는 방법, 빈번 패턴 베이스를 구축하는 방법, 그리고 이들을 인덱싱 하는 방법을 제안한다. 또한, 투자자의 질의가 발생하는 경우, 빈번 패턴 베이스로부터 이와 매치되는 규칙을 발견하고, 이 결과를 이용하여 투자자에게 투자 유형을 추천해 주는 방법을 제안한다. 실제 주식 데이타를 이용한 다양한 실험을 통하여 제안된 기법의 우수성을 규명한다.

타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색 (Index-based Searching on Timestamped Event Sequences)

  • 박상현;원정임;윤지희;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.468-478
    • /
    • 2004
  • 시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

시계열 데이타베이스에서 서브시퀀스 매칭의 성능 병목 : 관찰, 해결 방안, 성능 평가 (The Performance Bottleneck of Subsequence Matching in Time-Series Databases: Observation, Solution, and Performance Evaluation)

  • 김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.381-396
    • /
    • 2003
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이타베이스로부터 검색하는 연산이다. 본 논문에서는 서브시퀀스 매칭 처리의 성능 병목을 파악하고, 이를 해결함으로써 전체 서브시퀀스 매칭의 성능을 크게 개선하는 방안에 관하여 논의한다. 먼저, 사전 실험을 통하여 전체 서브시퀀스 매칭의 처리 시간 중 인덱스 검색 단계와 후처리 단계에서 디스크 액세스 시간 및 CPU 처리 시간이 차지하는 비중을 분석한다. 이를 바탕으로 후처리 단계가 서브시퀀스 매칭의 성능 병목이며, 후처리 단계의 최적화가 기존의 서브시퀀스 매칭 기법들이 간과한 매우 중요한 이슈임을 지적한다. 이러한 서브시퀀스 매칭의 성능 병목을 해결하기 위하여 후처리 단계를 최적으로 처리할 수 있는 간단하면서도 매우 효과적인 기법을 제안한다. 제안된 기법은 후처리 단계에서 후보 서브시퀀스들이 질의 시퀀스와 실제로 유사한가를 판단하는 순서를 조정함으로써 기존의 후처리 단계의 처리에서 발생하는 많은 디스크 액세스의 중복과 CPU 처리의 중복을 완전히 제거한 수 있다 제안된 기법이 착오 기각을 발생시키지 않음과 후처리 단계를 처리하기 위한 최적의 기법임을 이론적으로 증명한다. 또한, 실제 데이타와 생성 데이타를 이용한 다양한 실험들을 통하여 제안된 기법의 성능 개선 효과를 정량적으로 검증한다. 실험 결과에 의하면, 제안된 기법은 기존 기법의 후처리 단계 수행 시간을 실제 주식 데이타를 이용한 실험의 경우 ,3.91 배에서 9.42배까지, 대규모의 생성 데이터를 이용한 실험의 경우 4.97 배에서 5.61배까지 개선시키는 것으로 나타났다. 또한, 제안된 기법을 채택함으로써 전체 서브시퀀스 매칭 처리 시간의 90%에 이르던 후처리 단계의 비중을 70%이하로 내릴 수 있었다. 이것은 제안된 기법이 서브시퀀스 매칭의 성능 병목을 성공적으로 해결하였음을 보여주는 것이다. 이 견과, 제안된 기법은 전체 서브시퀀tm 매칭의 성능을 실제 주식 데이타를 사용한 실험의 경우 3.05 배에서 5.60 배까지, 대규모의 생성 데이타를 이용한 실험의 경우 3.68 배에서 4.21 배까지 개선시킬 수 있었다.

실내공간 이동객체 궤적 생성기 (Synthetic Trajectory Generation Tool for Indoor Moving Objects)

  • 류형규;김수진;이기준
    • 대한공간정보학회지
    • /
    • 제24권4호
    • /
    • pp.59-66
    • /
    • 2016
  • 이동객체에 관한 연구를 위하여서는 이동객체 데이터가 필요하다. 예를 들어 이동객체 질의처리 방법의 성능연구를 위하여서는 이동객체의 벤치마크 데이터가 있어야 실험이 가능하다. 이러한 이유로 도로나 실외 공간을 움직이는 가상의 이동객체를 성성하는 도구가 만들어졌다. 반면에 실내공간은 실외공간과 달리 독특한 특징을 가지고 있으며, 실내공간 이동객체 데이터 생성기는 이를 반영하여 만들어져야 한다. 지금까지 몇 개의 실내공간에 대한 이동객체 생성기가 개발되었으나, 이동궤적이 사실적이지 않은 문제점이 있다. 이러한 배경에서 본 논문에서는 실내공간의 가상적 이동객체를 생성하는 도구를 소개한다. 이 도구는 다음과 같은 특징을 가지고 있다. 첫번째, 이동객체는 보행자를 위하여 설정하였다. 두 번째로 다양한 이동객체의 요소를 변수모델로 표현할 수 있도록 하였다. 보행자의 수, 보행자 평균속도와 같이 단순한 것에서 보행자 사이의 최소거리, 이동 패턴과 같은 복잡한 내용을 사용자가 변수로 설정할 수 있도록 하였다. 세 번째로, 보행자의 현실적인 특징을 반영하도록 노력하였다. 그리고, 마직막으로 데이터의 상호운영성을 위하여 국제공간정보 표준인 IndoorGML로 표현된 실제 대규모 쇼핑몰의 실내공간을 대상으로 이동객체 데이터의 생성을 적용하여보았다.

정보검색 성능 향상을 위한 단어 중의성 해소 모형에 관한 연구 (Improving the Retrieval Effectiveness by Incorporating Word Sense Disambiguation Process)

  • 정영미;이용구
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.125-145
    • /
    • 2005
  • 이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 $92\%$의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 $67\%$ 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 $39.6\%$의 정확률을 보였고, EM 알고리즘 통합 검색이 약 $36\%$의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 $37\%$와 비교하면 나이브 베이즈 통합 검색은 약 $7.4\%$의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 $3\%$의 성능 저하율을 보였다.