• 제목/요약/키워드: 데이터 분할 평가

검색결과 497건 처리시간 0.025초

한국어 대어휘 음성DB를 이용한 HM-Net 음성인식 시스템의 성능평가 (Performance Evaluation of HM-Net Speech Recognition System using Korea Large Vocabulary Speech DB)

  • 오세진;김광동;노덕규;송민규;김범국;황철준;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2443-2446
    • /
    • 2003
  • 본 논문에서는 한국전자통신연구원에서 제공된 대어휘 음성DB를 이용하여 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다 HM-Net은 PDT-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행한다. 이러한 상태분할을 수행하여 파라미터를 공유하게 되며 최적인 모델 네트워크를 작성하게 된다. 대어휘 음성데이터를 이용하여 음향모델을 작성하고 인식실험을 수행한 결과, 100명의 100단어와 60문장에 대해 평균 97.5%, 96.7%의 인식률을 보였다.

  • PDF

공간 데이터 분포와 질의 크기를 고려한 선택률 추정 (Selectivity Estimation for Spacial Data Distribution and Query Size)

  • 문현수;이미란;황환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.77-79
    • /
    • 2000
  • 공간 데이터베이스에서의 질의에 대한 선택률 추정에 대해서는 많은 연구가 있었지만 공간 데이터베이스에서의 공간 질의에 대한 선택률 추정이 매우 중요함에도 불구하고 이에 대한 연구는 아직 미흡한 상태이다. 이 논문에서는 공간 검색 조건의 정확한 선택률 추정을 위해 공간 데이터 분포를 통계 데이터로 저장하고 이를 이용하여 선택률을 추정하는 방법을 제안하고 구현하였다. 공간 질의에 대한 선택률 추정을 위해서 기존의 통계 데이터를 작성하는 방법으로 균등 분할 방법과 비균등 분할 방법이 사용되고 있지만 보다 정확한 선택률을 추정하기 위해서 본 논문에서는 새로운 통계 데이터 작성 방법인 크기별 분할 방법을 제안하였다. 각 방법의 성능은 다양한 파라미터에 대한 선택률 오차를 산출하여 평가하였다.

  • PDF

유전자 발현 데이터의 퍼지 클러스터 평가를 위한 결정트리 기반의 베이지안 검증방법 (A Bayesian Validation Method based on Decision Tree for Evaluating Fuzzy Clusters of Gene Expression Data)

  • 유지호;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.262-264
    • /
    • 2004
  • 퍼지 클러스터링 방법은 일반적인 클러스터링 방법과는 달리 하나의 샘플이 다수의 집단에 속할 수 있으며 그 속하는 정도를 표현하여 보다 유연한 클러스터 분할의 분석을 가능하게 한다. 유전자 발현 데이터는 노이즈가 많고 공통된 기능을 가진 유전자들의 집단이 존재하기 때문에 퍼지 클러스터링을 사용하면 더욱 효율적으로 분석할 수 있다. 이러한 퍼지 클러스터링 방법에 있어서 중요한 것은 얼마나 분할이 정확하게 이루어졌으며 실제 데이터가 가지고 있는 분할과 결과가 얼마나 유사한가이다. 본 논문에서는 효과적인 유전자 클러스터의 평가를 위하여 베이지안 검증 방법을 제시하고, 결정트리로 생성된 규칙에 의하여 각 데이터의 특성에 따라 유연하게 검증하는 방법을 제안한다. 다양한 유전자 발현 데이터를 퍼지 c-means 알고리즘을 이용하여 클러스터링하고 제안하는 방법으로 검증한 결과, 그 유용성을 확인할 수 있었다.

  • PDF

수평 분할 방법을 이용한 병렬 CBF 기법의 성능평가 (Performance Analysis of a Parallel CBF Scheme using Horizontally-Partitioned Method)

  • 박승봉;장재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.184-186
    • /
    • 2002
  • 기존의 색인 기법들은 차원의 수가 증가할수록 검색 성능이 급격히 저하되는 문제를 지니고 있다. 이문제를 극복하기 위하여 CBF 기법이 제안되었다. 그러나 CBF 기법은 데이터 양이 증가함에 따라 검색 성능이 선형적으로 감소하는 문제가 존재한다. 이를 해결하기 위해 다수의 디스크를 수평 분할 방법을 이용하여 디클러스터링(declustering)을 하는 병렬 CBF 기법이 제안되었다. 본 논문에서는 수평 분할 방법을 이용한 병렬 CBF (Parallel CBF) 기법을 삽입시간, 범위 질의 검색시간, k-최근접 질의 검색시간, 데이터의 편중도 측면에서 성능 평가를 수행한다. 아울러, 병렬 CBF 기법을 기존 CBF 기법과 성능 비교를 수행하며, 이를 통해 병렬 CBF 기법이 기존 CBF 기법보다 우수한 검색 성능을 나타냄을 보인다.

  • PDF

대규모 RDF 데이터의 분산 저장을 위한 동적 분할 기법 (A Dynamic Partitioning Scheme for Distributed Storage of Large-Scale RDF Data)

  • 김천중;김기연;윤종현;임종태;복경수;유재수
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1126-1135
    • /
    • 2014
  • 최근 대규모 RDF 데이터를 효과적으로 분산 저장 및 관리하기 위해 RDF 분할 기법의 연구가 진행되고 있다. 본 논문에서는 지속적으로 데이터의 추가 및 변경이 발생하는 동적 환경에서 부하 분산을 지원하는 RDF 동적 분할 기법을 제안한다. 제안하는 기법은 그래프 분할을 수행하기 위한 기준으로 질의에 의해 사용된 RDF 데이터의 사용 빈도에 따라 클러스터와 서브 클러스터 그룹을 생성한다. 생성된 클러스터와 서브 클러스터는 분산된 서버의 부하 및 저장되는 데이터 크기를 고려하여 분할을 수행한다. 이를 통해 지속적인 데이터 변경 및 추가로 인해 특정 서버에 대한 데이터 집중을 해결하고 서버들간에 효율적인 부하 분산을 수행한다. 성능평가를 통하여 분산 서버에서 제안하는 기법이 기존 분할 기법에 비해 질의 수행 시간이 크게 향상됨을 보인다.

시설물 상태평가를 위한 파운데이션 모델 기반 2-Step 시설물 손상 분석 (2-Step Structural Damage Analysis Based on Foundation Model for Structural Condition Assessment)

  • 박현수;김휘영;정동기
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.621-635
    • /
    • 2023
  • 시설물 상태평가는 시설물의 사용성을 평가하고, 진단 주기를 결정하는 중요한 과정이다. 현재 수행되고 있는 인력 기반 방법은 안전, 효율, 객관성에 대한 문제를 안고 있어 이를 개선하기 위해 영상을 이용한 딥러닝(deep learning) 기반의 연구가 수행되고 있다. 그러나 시설물 손상 데이터는 발견하기 어려워 다량의 시설물 손상 학습 데이터를 구축하기 어렵고, 이는 딥러닝 기반 상태평가에 한계로 작용한다. 본 연구에서는 영상 기반 시설물 상태평가의 학습 데이터 부족으로 인한 어려움을 개선하기 위해 파운데이션 모델(foundation model) 기반 2-step 시설물 손상 분석을 제시한다. 시설물 상태평가의 요소를 객체화와 정량화로 세분화하고, 정량화 단계에서 영상 분할(segmentation) 파운데이션 모델을 적용하였다. 본 연구의 방법은 기존 영상 분할 방법 대비 10% 포인트 이상 높은 mean intersection over union을 나타냈고, 특히 철근 노출의 경우에는 40% 포인트 이상의 성능 개선을 보였다. 본 연구의 방법이 학습 데이터 구축이 어려운 도메인에 성능 개선을 가져올 것이라 기대한다.

도시 스트리트뷰 영상을 이용한 딥러닝 기반 보행환경 평가 요소 분석 (Analysis of Deep Learning-Based Pedestrian Environment Assessment Factors Using Urban Street View Images)

  • 황지연;최철웅;남광우;이창우
    • 한국산업정보학회논문지
    • /
    • 제28권6호
    • /
    • pp.45-52
    • /
    • 2023
  • 최근 일상생활 속 보행의 중요성이 강조되면서 보행권 보장 및 보행환경 조성을 위한 사업이 지역 곳곳에서 추진되고 있다. 선행 연구에서는 전주시 도로 이미지를 사용하여 보행환경 평가를 진행하고, 이미지 비교 쌍 데이터 세트를 구축하였다. 하지만 숫자로 표현된 데이터 세트는 보행환경 평가자들의 판단 기준을 일반화하거나 보행자가 선호하는 보행환경을 시각적으로 파악하기에 어려움이 존재한다. 따라서 본 연구는 웹 애플리케이션을 구축하여 데이터 시각화를 통해 보행환경 평가의 결과를 해석하는 방법을 제안한다. 의미론적 분할 결과를 활용하여 보행환경 평가자에게 영향을 미치는 보행환경 구성 요소를 분석한 결과, 보행자는 주로 'earth'와 'grass'가 많은 환경을 선호하지 않았고, 'signboard'와 'sidewalk'를 가진 환경을 선호하는 것으로 확인하였다. 제안된 연구는 향후 보행환경 평가의 참여자가 임의로 선택한 결과를 파악하고 분석할 수 있을 것으로 기대하며, 데이터에 대한 정제과정을 전처리로 수행함으로써 좀 더 향상된 정확도를 얻을 수 있을 것으로 판단한다.

무선 멀티미디어 센서 네트워크 환경에서 보안성 있는 에너지 인지 비-중첩 다중 경로 라우팅 기법 (An Energy Awareness Secure Disjointed Multipath Routing Scheme in Wireless Multimedia Sensor Networks)

  • 이상규;김동주;박준호;성동욱;유재수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(D)
    • /
    • pp.308-310
    • /
    • 2012
  • 최근 무선 센서 네트워크 환경에서 대용량 멀티미디어 데이터에 대한 요구가 증가하면서 통신 대역폭 및 한정적인 에너지의 한계를 극복하기 위한 대안으로 데이터 분할 및 다중 경로 기법들이 제안되었다. 기존 기법들은 데이터 전송 시에 발생하는 부하의 분산을 통해 네트워크의 성능을 향상시킬 수 있다는 것을 증명하였지만, 데이터의 효율적인 분할과 악의적인 공격에 의한 보안성 문제에 대해서 고려하지 않았다. 이러한 문제점을 해결하기 위해 본 논문에서는 비트평면 분할 기반의 보안성 있는 비-중첩 다중경로 라우팅 기법을 제안한다. 제안하는 기법은 멀티미디어 데이터를 비트평면 단위로 분할하여 다중 경로로 전송함으로써 기존의 키 기반의 암호화 기법을 사용하지 않고도 전체 네트워크에 대한 보안성을 향상 시켰다. 또한 경로 상 노드들의 잔여 에너지를 고려하여 데이터 전송을 수행함으로써 전체 네트워크의 에너지 효율성을 향상시켰다. 성능평가 결과, 제안하는 기법은 기존 기법에 비해 노드의 생존율이 평균 50% 이상 향상되었고, 데이터가 노출되더라도 해당 패킷을 가지고 본래 이미지를 복구하는 것이 불가능하기 때문에 높은 보안성을 제공한다.

k-Modes 분할 알고리즘에 의한 군집의 상관정보 기반 빅데이터 분석 (A Big Data Analysis by Between-Cluster Information using k-Modes Clustering Algorithm)

  • 박인규
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.157-164
    • /
    • 2015
  • 본 논문은 융복합을 위한 범주형 데이터의 부공간에 의한 군집화에 대해서 다룬다. 범주형 데이터는 수치형 데이터에만 국한되지 않기 때문에 기존의 범주형 데이터들의 평가척도들은 순서화(ordering)의 부재와 데이터의 고차원성과 희소성으로 인하여 한계를 가지기 마련이다. 따라서 각각의 군집에 존재하는 범주형 속성들의 상호 유사도을 보다 근접하게 측정할 수 있는 조건부 엔트로피 척도를 제안한다. 또한 군집의 최적화를 위하여 군집내의 발산을 최소화하고, 군집간의 독립성을 향상시킬 수 있는 새로운 목적함수를 제안한다. 제안된 알고리즘의 성능을 4개의 알고리즘과 비교검증하기 위하여 5가지의 데이터에 대하여 실험을 수행하였다. 비교검증을 위한 평가척도는 정확도, f-척도와 적응된 Rand 색인이다. 실험을 통하여 제안된 방법이 평가척도에 의한 결과에서 기존의 방법들보다 좋은 성능을 보였다.

레미콘 차량의 궤적 추적을 위한 최적 좌표전송 주기 평가 (Assessment of Optimal Coordinates Transmission for Trajectory Tracking of Remicon Truck)

  • 권재국;김준현
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2010년도 추계학술대회
    • /
    • pp.363-368
    • /
    • 2010
  • 본 논문은 레미콘 차량의 관제 및 관리, 레미콘 플랜트의 효율적 운영을 위해 시행되고 있는 레미콘차량 관제 시스템의 최적 좌표 전송 주기를 평가하고자 하였다. 이를 위해 실제적으로 레미콘차량 관제 시스템을 운영 중인 레미콘회사를 사례로 2010년 5월 한달 간 운행된 20대의 차량에 30초, 1분, 3분, 5분 간격으로 수신 된 좌표 주기별 거리와 실제로 운행 된 거리를 비교하였다. 또한 최적 좌표전송주기를 평가하기 위해 30초, 1분, 3분, 5분 간격으로 전송되는 주기별 Packet 계산표에 따라 데이터 요금제를 비교 환산하여 비용 대비 최적의 좌표전송주기를 평가 하였다. 그 결과 1분 간격의 송신주기가 오차율이 2.34%, 1일 8시간 운행기준 월 송신요금이 10,000원으로 나타나 가장 합리적으로 분석되었다. 그러나 좌표전송에서 비정상적인 값이 수신 될 경우 그에 대한 방안이내 처리 절차 등의 추가적인 연구의 필요성이 제기된다.

  • PDF