• 제목/요약/키워드: 구간트리

검색결과 68건 처리시간 0.024초

트라이와 구간트리를 이용한 사전기반 전문용어 인식 속도 향상 (Improving Speed for Dictionary-Based Term Recognition Using Trie and Interval Tree)

  • 김형철;김재훈;최윤수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.191-193
    • /
    • 2010
  • 전문용어는 특정 분야의 문서들에서 그 분야 특징을 반영하는 용어를 지칭하는 말로 최근 이러한 전문용어를 자동으로 인식하는 연구들이 활발하게 이루어지고 있다. 본 논문에서는 전문용어 인식의 방법 중 규칙 기반 방법의 한 종류인 사전 기반 방법을 이용하여 전문용어를 인식한다. 사전 기반 방법의 보통 다음과 같은 문제점이 있다. 첫째 같은 의미를 가지지만 형태가 다른 전문용어의 인식이 어려우며, 둘째 정확한 경계를 인식하기 위해서는 모든 단어에 대해 사전에 존재하는 가장 긴 단어의 크기만큼 매칭을 시도해야하며, 셋째 인식된 경계가 겹칠 수 있다는 문제점이 있다. 본 논문에서는 사전 매칭시 정규표현을 이용하여 첫 번째 문제를 해결하며, 트라이를 이용하여 사전을 구축하고, 매칭시 스택을 이용한 병렬구조를 사용하여 두 번째 문제를 해결하였으며, 구간트리라는 자료구조를 이용하여 세 번째 문제를 해결하였다.

  • PDF

데이터 스트림 환경에서 임의 시간 구간에 대한 효율적 클러스터링 알고리즘 (Effective Time Interval Clustering Algorithm of Data Stream Environment)

  • 장주현;문양세;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (C)
    • /
    • pp.43-45
    • /
    • 2006
  • 최근에 데이터의 양이 방대하게 늘어남에 따라 이러한 데이터의 처리를 위한 여러 연구들이 진행되어지고 있다. 이 중에 데이터들 간의 군집 관계를 파악하기 위하여 사용되는 클러스터링에 관한 연구가 많이 수행되었는데, 이중 BIRCH는 대용량의 데이터를 처리하는데 있어서 적합한 모델로 제시되고 있다. 하지만 BIRCH는 데이터 스트림 환경에서 클러스터링은 효과적이지 못한 단점을 가지고 있다. 본 논문은 데이터 스트림 환경에서 과거의 임의 시간구간에 대한 클러스터링을 수행하는 방법을 제안한다. 이를 위하여 CF-트리를 일정 시간 마다 생성 및 저장하고 이를 이용하여 사용자가 원하는 시간 구간에 대해 동안의 클러스터링을 수행한다. 본 논문에서는 임의 시간구간에 대한 효율적인 클러스터링을 위해 기존의 CF-트리 노드 구조에 추가 데이터를 사용하는 $CF^{\delta}$-트리를 제안한다. 그리고 ${\delta}$에 대한 연구를 통해, 근사적 접근법을 제안하였다.

  • PDF

위치 기반 서비스에서 이동 객체의 궤적을 위한 HR-트리의 확장 (Extension of HR-Tree for Trajectory of Moving Objects in Location-Based Services)

  • 우성현;김미경;전현식;박현주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.49-51
    • /
    • 2005
  • 시간의 흐름에 따라 그 위치가 빈번히 변화하는 이동 객체의 특성으로 인해 실시간으로 증가하는 이동객체의 연산 정보를 효과적으로 관리할 수 있는 효율적인 연산 기법이 요구된다. 따라서 본 논문에서는 이동 객체의 시공간 연산을 위해 기존에 제안되었던 HR 트리의 성능을 개선시킬 수 있는 확장된 HR-트리(Extended HR-Tree : EHR-Tree)를 제안한다. 기존의 HR 트리는 삽입, 삭제, 갱신과 같은 연산이 빈번한 경우에 단말 노드 및 비단말 노드를 새로 생성해야 함으로 인하여 성능이 떨어지고, 공간의 낭비가 있게 된다. 이 문제를 해결하기 위해 본 논문에서 제안하는 EHR-트리는 연산이 발생할 때마다 새로운 HR-트리를 생성하는 것이 아니라 시간 구간을 두어서 새로 발생한 연산이 같은 시간 구간에 있을 경우 그 단위시간에 생성된 HR-트리에 그대로 삽입, 삭제, 갱신과 같은 연산을 수행하게 된다. 따라서 기존 HR-트리에서 단말 노드 및 비단말 노드를 새로 생성해야함으로 발생되던 많은 저장 공간 요구를 감소시킴으로, 즉 전체 연산 크기를 작게 하여 디스크 I/O수를 감소시킴으로써, 시공간 질의의 처리 속도를 향상시켜 효율적인 질의가 가능하도록 한다.

  • PDF

퍼지 데이타에 대한 퍼지 결정트리 기반 분류규칙 마이닝 (Classification Rue Mining from Fuzzy Data based on Fuzzy Decision Tree)

  • 이건명
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권1호
    • /
    • pp.64-72
    • /
    • 2001
  • 결정트리 생성은 일련의 특징값으로 기술된 사례들로부터 분류 지식을 추출하는 학습 방법중의 하나이다. 현장에서 수집되는 사례들은 관측 오류, 주관적인 판단, 불확실성 등으로 인해서 애매하게 주어지는 경우가 많다. 퍼지숫자나 구간값을 사용함으로써 이러한 애매한 데이타의 수치 속성은 쉽게 표현될 수 있다. 이 논문에서는 수치 속성은 보통값 뿐마아니라 퍼지숫자나 구간값을 갖을 수 있고, 비수치 속서은 보통값을 가지며, 데이터의 클래스는 확신도를 기자는 학습 데이터들로 부터, 분류 규칙을 마이닝하기 위한 퍼지 결정트리 생성 방법을 제안한다. 또한 제안한 방법에 의해 생성된 퍼지 결정트리를 사용하여, 새로운 데이터에 대한 클래스를 결정하는 추론 방법을 소개한다. 한편, 제안된 방법의 유용성을 보이기 위해 수행한 실험의 결과를 보인다.

  • PDF

TTS 시스템을 위한 휴지기간 모델링 (The Modeling of Pause Duration For Text-To-Speech Synthesis System)

  • 정지혜;이양희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

페트리 네트로 표현된 멀티미디어 시나리오의 재생기 구현 (Implementation of the Player for Petri-Net-based Multimedia Scenario)

  • 한승협;임재걸;이계영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.309-311
    • /
    • 1998
  • 동기화 전략을 명시하는 방법으로 시간 구간 명시, 시간축 명시, 레퍼런스 포인트를 두는 방법, 페트리넷을 이용하는 방법 등 매우 다양한 연구 결과가 소개되었다. 본 논문은 기존의 멀티미디어 시나리오의 동기화 명시를 위한 페트리넷 방법[1-3]을 확장하여, 페트리넷 동기화 명시를 실현한 멀티미디어 시나리오를 재생하여 주는 시스템을 구현하고, 자료구조, 멀티프로세싱, 동기화 기법 등을 중심으로 본 재생 시스템을 소개한다. 본 시스템의 특징은 미디어 단위의 시나리오 진행이 가능한 것이다. 멀티미디어 프로그램이 학습에 많이 이용되므로 물리의 '중력'을 간단하게 설명하는 예제와 더불어 어떻게 실행되는가를 설명한다.

  • PDF

대용량 궤적 데이터를 위한 효과적인 인덱싱 기법 (An Effective Indexing Method for Trajectory Databases)

  • 차창일;원정임;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.227-230
    • /
    • 2008
  • 본 연구에서는 대용량 궤적 데이터베이스에서 영역 질의를 효과적으로 처리하기 위한 인덱싱 기법에 대하여 논의한다. 먼저, 기존 인덱싱 기법의 문제점을 지적하고, 이러한 문제점을 해결하는 새로운 기법을 제안한다. 제안된 기법에서는 우선 시간 차원을 다수의 시간 구간으로 분할하고, 인덱싱의 대상이 되는 전체 라인 세그먼트들을 시간 구간별로 구분한다. 각 시간 구간에 속하는 라인 세그먼트들에 대하여 별도의 인덱스를 구축한다. 또한, 디스크에서 관리되는 과거 시간 구간에 대한 인덱스들과는 달리 최근 시간 구간에 대한 인덱스는 메인 메모리상에 관리함으로써 삽입과 검색의 성능을 크게 개선할 수 있다. 각 시간 구간에 속하는 라인 세그먼트들은 다음과 같은 방식으로 인덱스를 구축한다. 먼저, 2D-트리를 이용하여 전체 공간 차원을 유사한 수의 라인 세그먼트들이 배정되도록 다수의 셀들로 분할한다. 또한, 분할된 각 셀마다 시공간 차원 (x, y, t)에 대한 별도의 3차원 $R^*$-트리를 두어 보다 상세한 인덱싱을 지원한다. 실험 결과에 의하면, 기존 기법에 비하여 작은 인덱스 구조를 갖으면서도 검색 성능면에서 $300%{\sim}1000%$까지의 성능 향상 효과를 갖는 것으로 나타났다.

시간지원 집단 함수 처리를 위한 시점 시퀀스 (Time Point Sequence for the Evaluation of Temporal Aggregate Function)

  • 권준호;배진욱;송병호;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.284-286
    • /
    • 2000
  • 시간에 따라 변화하는 자료들을 저장하는 시간지원 데이터베이스에서 집단 함수는 시간지원 그룹화를 통하여 집단 함수 값이 변하지 않는 시간 구간을 구하고 그 각각의 구간마다 집단 함수의 결과를 생성해야 하는 복잡한 연산이다. 기존의 시간지원 집단 함수 처리 기법들은 집단 함수를 포함하는 질의가 요구되었을 때, 불변 구간을 구하기 위해 트리와 같은 자료구조를 생성하고 이 트리의 노드들을 순회함으로써 집단 함수의 결과를 생성하였다. 이 논문에서는 미리 데이터베이스를 한 번 스캔하여 투플의 시작 시간과 종료 시간들의 정렬된 집합인 시점 시퀀스를 생성하고, 이를 이용하여 시간지원 집단 함수를 처리하는 방법을 제안한다. 또한 데이터베이스에서 저장된 데이터의 삭제나 새로운 데이터의 삽입에 따른 시점 시퀀스의 갱신 방법도 제시한다.

  • PDF

큐브 계산에서 I/O 비용을 줄이는 구간 기반 큐브 분할 (Range-based Cube Partitioning for Reducing I/O Cost in Cube Computation)

  • 박웅제;정연도;김진녕;이윤준;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.596-605
    • /
    • 2001
  • 본 논문은 OLAP에서의 I/O 비용을 줄이는 큐브 계산 방법으로, 구간 기반 큐브 분할 기법을 제안한다. 제안하는 방법은 큐브 분할 단계들 사이에 존재하는 계산의 일부를 중복시켜 처리하는 방법을 통해 큐브 분할 작업의 I/O 성능을 향상시킨다. 계산의 중복을 위하여 제안하는 방법은 애트리뷰트의 단 일 값이 아닌 애트리뷰트 값의 일정 구간을 기준으로 큐브를 분할한다 분석과 실험을 통하여 제안하는 방법의 성능을 기존 큐브 분할 방법과 비교하여 보인다.

  • PDF

다중 클래스 SVM과 트리 분류를 이용한 제스처 인식 방법 (Gesture Recognition Method using Tree Classification and Multiclass SVM)

  • 오주희;김태협;홍현기
    • 전자공학회논문지
    • /
    • 제50권6호
    • /
    • pp.238-245
    • /
    • 2013
  • 제스처 인식은 자연스러운 사용자 인터페이스를 위해 활발히 연구되는 중요한 분야이다. 본 논문에서는 키넥트 카메라로부터 입력되는 사용자의 3차원 관절(joint) 정보를 해석하여 제스처를 인식하는 방법이 제안된다. 대상으로 하는 제스처의 분포 특성에 따라 분류 트리를 설계하고 입력 패턴을 분류한다. 그리고 제스처를 리샘플링 및 정규화 하여 일정한 구간으로 나누고 각 구간의 체인코드 히스토그램을 추출한다. 트리의 각 노드별로 분류된 제스처에 다중 클래스 SVM(Multiclass Support Vector Machine)를 적용하여 학습한다. 이후 입력 데이터를 구성된 트리로 분류한 다음, 학습된 다중 클래스 SVM을 적용하여 제스처를 분류한다.