• 제목/요약/키워드: 핫-데이터

검색결과 65건 처리시간 0.021초

나이브 베이즈 분류 기반의 핫 데이터 구분 기법 (Hot Data Identification based on Naive Bayes Classifier)

  • 이혜림;윤이빈;박동철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.721-723
    • /
    • 2022
  • 최근 낸드 플래시 메모리 기반의 Solid State Drive(SSD)가 기존 Hard Disk Drive(HDD)를 대신하여 개인용과 산업용으로도 널리 쓰이고 있다. 핫 데이터 구분 기법은 이러한 SSD 의 성능과 수명에 중요한 역할을 하는 Garbage Collection(GC)과 Wear Leveling(WL) 기술의 기반이 된다. 본 논문에서는 핫 데이터를 예측하기 위한 나이브 베이즈 분류 기반의 새로운 핫 데이터 구분 기법을 제안한다. 제안 기법은 워크로드 액세스 패턴의 학습 단계인 초기 단계와 실제 운영 단계를 통해 다시 액세스 될 확률이 높은 데이터를 그렇지 않은 데이터와 효과적으로 구분한다. 다양한 실제 trace 기반 실험을 통해 본 제안 기법이 기존 대표적인 기법보다 평균 19.3% 높은 성능을 확인했다.

그래프 마이닝을 이용한 뉴스 데이터 분석 기법 (News Data Analysis Technique using Graph Mining)

  • 이창주;박기성;한용구;이영구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.730-733
    • /
    • 2015
  • 대용량의 인터넷 뉴스 데이터로부터 유용한 정보를 찾기 위해 연관 키워드, 핫 키워드 분석과 같은 다양한 분석 기술들이 연구되고 있다. 기존의 토픽 모델 기반의 기법은 키워드들간의 연관성을 제대로 표현하지 못하여 마이닝한 연관 키워드와 핫 키워드의 정확도가 낮은 문제점이 있다. 최근, 뉴스 데이터를 뉴스 내의 단어를 버텍스로, 같은 문장내의 단어들을 에지로 연결하는 그래프 기반의 모델링기법이 연구되었다. 이러한 뉴스 그래프 DB에서 그래프 마이닝 기술을 적용하면 연관 키워드, 핫 키워드를 마이닝 할 수 있다. 본 논문은 그래프 마이닝 기술 기반의 효과적인 뉴스 데이터 분석 기술을 제안한다. 실제 뉴스 데이터를 통해 마이닝한 유용한 뉴스 그래프 패턴들을 보이고 뉴스 데이터 분석에 효과적으로 활용될 수 있음을 보인다.

맵리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법 (A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce)

  • 손인국;류은경;박준호;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2013년도 춘계 종합학술대회 논문집
    • /
    • pp.11-12
    • /
    • 2013
  • 최근 대규모 데이터의 처리와 관리를 위한 분산 저장 및 처리 시스템의 연구 및 활용이 중요해지고 있다. 대표적인 분산 저장 및 처리시스템으로써 하둡(Hadoop)이 널리 활용되고 있다. 하둡 분산 파일 시스템을 기반으로 수행되는 맵-리듀스에서 테스크 할당은 데이터의 로컬리티를 고려하여 최대한 가깝게 할당한다. 하지만 맵-리듀스에서의 데이터 분석 작업에서 작업 형태에 따라 빈번하게 요청되는 데이터가 존재한다. 이러한 경우, 해당 데이터의 낮은 로컬리티로 인해 수행시간 증가 및 데이터 전송의 지연의 문제점을 야기 시킨다. 본 논문에서는 맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법을 제안한다. 제안하는 기법에서는 데이터 접근 패턴에 따라 높은 접근 빈도를 보이는 핫-데이터에 대한 복제본 최적화 알고리즘을 활용하여 데이터 로컬리티를 향상시키고 결과적으로 작업 수행시간을 감소시킨다. 제안하는 기법은 기존 기법에 비해 모든 노드의 데이터 이동이 감소하여 접근빈도의 분포가 균형적인 것을 확인하였다. 성능평가 결과, 기존 기법에 비해 접근 빈도의 부하가 약 8% 감소하는 것을 확인하였다.

  • PDF

맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법 (A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce)

  • 손인국;류은경;박준호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제13권11호
    • /
    • pp.21-27
    • /
    • 2013
  • 최근 대규모 데이터의 처리와 관리를 위한 분산 저장 및 처리 시스템의 연구 및 활용이 중요해지고 있다. 대표적인 분산 저장 및 처리 프레임워크로써 하둡(Hadoop)이 널리 활용되고 있다. 하둡 분산 파일 시스템을 기반으로 수행되는 맵-리듀스 에서의 태스크 할당은 데이터의 지역성(locality)를 고려하여 최대한 가깝게 할당한다. 하지만 맵-리듀스 에서의 데이터 분석 작업에서 작업 형태에 따라 빈번하게 요청되는 데이터가 존재한다. 이러한 경우, 해당 데이터의 낮은 지역성으로 인해 수행시간 증가 및 데이터 전송의 지연의 문제점을 야기 시킨다. 본 논문에서는 맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법을 제안한다. 제안하는 기법에서는 데이터 접근 패턴에 따라 높은 접근 빈도를 보이는 핫-데이터에 대한 복제본 최적화 알고리즘을 활용하여 데이터 지역성을 향상시키고 결과적으로 작업 수행시간을 감소시킨다. 성능평가 결과, 기존 기법에 비해 접근 빈도의 부하가 감소하는 것을 확인하였다.

데이터 갱신 패턴 기반의 낸드 플래시 메모리의 블록 사용 균일화 기법 (A Wear-leveling Scheme for NAND Flash Memory based on Update Patterns of Data)

  • 신효정;최돈정;김보경;윤태복;이지형
    • 한국지능시스템학회논문지
    • /
    • 제20권6호
    • /
    • pp.761-767
    • /
    • 2010
  • 낸드 플래시 메모리는 블록에 새로운 데이터를 쓰고자 할 때 삭제 연산이 선행되어야 하며 일정 횟수 이상 지움 연산이 반복된 블록은 더 이상 사용이 불가능하다. 데이터의 갱신이 빈번한 핫 데이터는 블록을 빠르게 사용 불가능한 상태에 도달하게 만들 수 있고 이로써 낸드 플래시 메모리의 용량은 시간이 지남에 따라 감소할 수 있다. 본 논문에서는 데이터의 접근 패턴을 고려해 핫 데이터와 콜드 데이터를 분류하는 알고리즘을 제시한다. 이렇게 분류된 데이터 정보를 이용해 삭제 횟수가 많은 블록에 갱신 확률이 적은 콜드 데이터를, 삭제 횟수가 상대적으로 적은 블록에 갱신 확률이 높은 핫 데이터를 맵핑한다. 입력 데이터 패턴을 이용한 핫/콜드 데이터 분류 기법이 기존의 분류 기법을 사용했을 때보다 플래시 메모리의 블록 사용이 균일한 것을 실험을 통해 확인하였다.

데이터 갱신요청의 연속성과 빈도를 고려한 개선된 핫 데이터 검증기법 (Improved Hot data verification considering the continuity and frequency of data update requests)

  • 이승우
    • 사물인터넷융복합논문지
    • /
    • 제8권5호
    • /
    • pp.33-39
    • /
    • 2022
  • 모바일 컴퓨팅 분야에서 사용되는 저장장치는 저전력, 경량화, 내구성 등을 갖추어야 하며 사용자에 의해 생성되는 대용량 데이터를 효과적으로 저장 및 관리할 수 있어야 한다. 낸드 플래시 메모리는 모바일 컴퓨팅 분야에서 저장장치로 주로 사용되고 있다. 낸드 플래시 메모리는 구조적 특징 때문에 데이터 갱신요청 시 제자리 덮어쓰기가 불가능하여 데이터 갱신요청이 자주 발생하는 요청과 그렇지 않은 요청을 정확히 구분하여 각 블록에 저장 및 관리함으로써 해결할 수 있다. 이러한 데이터 갱신요청에 분류기법을 핫 데이터 식별 기법이라고 하며 현재 다양한 연구가 진행되었다. 본 논문은 더 정확한 핫 데이터 검증을 위해 카운팅 필터를 사용하여 데이터 갱신요청 발생을 연속적으로 기록하고 또한 특정 시간 동안 요청된 갱신요청이 얼마나 자주 발생하는지를 고려하여 핫 데이터를 검증한다.

소셜 네트워크 환경에서 변형된 TF-IDF를 이용한 핫 토픽 예측 기법 (Hot Topic Prediction Scheme Using Modified TF-IDF in Social Network Environments)

  • 노연우;임종태;복경수;유재수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.217-225
    • /
    • 2017
  • 최근 실시간으로 생성되는 대용량의 SNS 데이터로부터 유의미한 정보를 찾아내고 분석하는 것이 중요해지면서 핫 토픽 예측에 대한 관심도 크게 증가하고 있다. 기존 핫 토픽 검출 기법은 시간적 속성을 고려하지 않기 때문에 빠르게 변화하는 사회에서 이슈화되는 핫 토픽을 예측하기에는 부적합하다. 본 논문에서는 소셜 네트워크 환경에서 변형된 TF-IDF를 통한 핫 토픽 예측 기법을 제안한다. 변형된 TF-IDF을 이용하여 과거의 IDF 값에 대한 현재의 IDF값의 비율로 순간적으로 이슈화되는 후보 키워드 집합을 추출한다. 추출된 후보 키워드에 사용자의 영향력과 전문성을 고려한 가중치를 부여하여 핫 토픽예측 지수를 계산한다. 제안하는 기법의 우수성을 보이기 위해 기존의 핫 토픽 검출 기법과의 성능평가를 수행한다. 또한 제안하는 기법이 핫 토픽을 정확히 예측하는지를 보이기 위해 네이버 한글 뉴스 기사를 통한 핫 토픽 예측 기법의 질을 평가한다.

데이터 방송 스케줄링에서 핫아이템과 콜드아이템의 분리를 위한 효율적인 컷오프 포인트에 관한 연구 (A Study on Efficient Cut-off Point between Hot and Cold Items for Data Broadcast Scheduling)

  • 강상혁
    • 방송공학회논문지
    • /
    • 제15권6호
    • /
    • pp.845-852
    • /
    • 2010
  • 클라이언트로부터의 요구메시지의 통계를 바탕으로 하여 방송 서버는 데이터 아이템에 대하여 최적의 컷오프 포인트를 이용하여 핫 아이템과 콜드 아이템으로 나눈다. 핫 아이템은 주기적으로 방송되는데 이 때, 방송 주기는 아이템들의 인기도, 즉 요구확률에 따라 정해진다. 핫 아이템이 방송되지 않은 빈 슬롯에는 적절한 콜드 아이템을 골라 방송하게 되는데, 이 때 대기시간과 대기 중인 요구 메시지의 수 등을 고려하여 콜드 아이템을 정한다. 최적의 컷오프 포인트를 해석적으로 구하기 위하여 평균 응답시간을 컷오프 포인트의 함수로 나타나도록 계산하였다. 요청 도착율과 아이템의 인기도를 변화하면서 수행한 시뮬레이션을 통하여 본 논문에서 제안한 방법이 기존의 방법들보다 더욱 우수한 성능을 나타냄을 보였다.

분산메모리시스템에서의 핫콜드 데이터 분류를 이용한 복합 백업 기법 (Compound Backup Technique using Hot-Cold Data Classification in the Distributed Memory System)

  • 김우철;민동희;홍지만
    • 스마트미디어저널
    • /
    • 제4권3호
    • /
    • pp.16-23
    • /
    • 2015
  • IT 기술의 발전으로 인해 데이터 처리 시스템은 많은 양의 데이터를 처리 및 가공해야 한다. 하지만, 기존에 사용되던 온디스크(On-Disk) 시스템으로는 급증하는 데이터를 빠르게 처리하는 데 한계점을 가졌다. 이로 인해 많은 분야에서 하드디스크에 데이터를 저장하는 것이 아닌 속도가 빠른 메모리에 데이터를 저장 및 관리하는 인메모리(In-Memory) 시스템이 도입되고 있다. 하지만, 메모리에 데이터를 관리하는 것은 메모리의 특성 중 하나인 휘발성으로 인해 데이터 손실이라는 위험을 갖기 때문에 항상 결함 허용 기법이 뒤따라야 한다. 결함 허용 기법은 인메모리 시스템의 처리 속도를 낮추는 성능 저하 원인이 된다. 따라서 본 논문에서는 인메모리 시스템의 데이터 사용 특성을 고려하여 핫콜드 데이터로 분류하고, 데이터 영속성 보장을 위한 복합 백업 기법을 제안한다. 제안하는 기법은 영속성을 높이고, 성능 저하 원인을 보완한다.