• 제목/요약/키워드: 데이터결합

검색결과 2,382건 처리시간 0.031초

클라우드 컴퓨팅 환경에서 무감독학습 방법과 퍼지이론을 이용한 결합형 데이터 분류기법 (Coupled data classification method using unsupervised learning and fuzzy logic in Cloud computing environment)

  • 조규철;김재권
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권8호
    • /
    • pp.11-18
    • /
    • 2014
  • 본 논문은 무감독학습을 통한 데이터 분류기법인 ART에서 퍼지이론을 이용한 결합형 데이터 분류 방법을 제안한다. 무감독학습기법 기반의 데이터 분류 기술은 분류기술의 향상의 장점이 있지만, 처리성능이 저하된다는 단점이 있다. 민첩성 있는 대용량데이터 처리와 분류인식률을 만족하는 최적의 임계값 결정기법이 필요하지만, 이는 불확실성이 많이 따르기 때문에 두 가지를 고려하여 상호보완 할 수 있는 처리기법이 필요하다. 제안하는 기법은 무감독학습을 하기 위해 퍼지매개변수와 퍼지 규칙을 설계하여 최적의 임계값을 도출한다. 제안하는 기법의 성능평가를 위해 클라우드 컴퓨팅환경에서 G 단백질 연결 수용체(G protein coupled receptor, GPCR)데이터를 이용하여 실험하였으며, 실험결과는 높은 인식률과 낮은 처리시간을 통해 결합형 데이터 분류에 효과적임을 입증하였다.

협력필터링의 데이터 희소성 해결을 위한 자카드 지수 반영의 유사도 성능 분석 (Performance Analysis of Similarity Reflecting Jaccard Index for Solving Data Sparsity in Collaborative Filtering)

  • 이수정
    • 컴퓨터교육학회논문지
    • /
    • 제19권4호
    • /
    • pp.59-66
    • /
    • 2016
  • 협력 필터링 시스템에서 데이터 희소성 문제의 해결을 위해 공통평가항목수를 반영하는 방법이 연구되었다. 이러한 방법으로 널리 알려진 자카드 지수는 기존의 유사도 척도와 결합되어 성능을 개선할 수 있었다. 그러나, 다양한 데이터 환경에서 여러 유사도 척도들과 각각 결합했을 때의 성능 개선 효과에 대한 분석 연구는 미미하므로, 본 연구는 이에 대한 분석을 목적으로 한다. 우선 자카드 지수 자체를 유사도 척도로 사용했을때 희소한 데이터셋 상에서 전통적인 척도들보다 월등한 예측 성능을 보였고 추천 성능도 매우 우수하였다. 자카드 지수를 결합함으로써 기존 유사도 척도는 데이터 특성에 상관없이 성능이 대개 향상되었고, 특히 코사인 유사도는 희소한 데이터셋에서 가장 큰 향상을 이루었으나, 평균차이 제곱(Mean Squared Difference)의 유사도는 밀집된 데이터셋에서 오히려 저하된 예측 성능을 보였다. 따라서, 자카드 지수를 결합하여 사용하기 위해 데이터 환경 특성과 유사도 척도를 고려할 필요가 있다.

u-GIS 융합데이터 처리 시스템 (The System of Converged u-GIS Data Processing)

  • 장인성;김민수;김주완
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.584-587
    • /
    • 2009
  • 전통적으로 지리정보시스템은 지형데이터와 속성데이터가 결합된 정적인 공간정보를 처리한다. 기존 지리정보시스템을 발전시켜, 시간에 따라 위치 및 기하데이터가 변화는 동적인 시공간데이터에 연구가 한동안 진행되어 왔다. 최근 들어 유비쿼터스 컴퓨팅 환경에 대한 관심이 집중되면서, 센싱 데이터와 같이 속성데이터가 동적으로 계속 변화는 데이터가 급증하고 있고, 센서노드의 위치가 고정 또는 이동함에 따라 공간정보와 결합하여 관리될 필요성이 급증하고 있다. 이에 본 논문에서는 USN기술와 GIS기술을 융합하여 GeoSensor 정보를 효과적으로 관리할 수 있는 u-GIS 융합데이터 처리 시스템을 제안하고자 한다.

  • PDF

로버스트 회귀모형을 이용한 자료결합방법 (Statistical Matching Techniques Using the Robust Regression Model)

  • 전명식;정시송;박혜진
    • 응용통계연구
    • /
    • 제21권6호
    • /
    • pp.981-996
    • /
    • 2008
  • 서로 다른 출처로부터 얻어진 데이터 파일들을 하나의 데이터 파일로 만드는 통계적 자료결합방법은 공통변수와 서로 다른 고유변수를 포함하여 변수들 간에 존재하는 관련성에 대해 살펴볼 수 있다. Robin (1986)이 제안한 일반회귀모형의 예측값을 이용한 통계적 결합방법은 자료에 대한 다변량 정규성을 가정하기 때문에 이 가정을 위반하는 자료를 이용하는 것은 많은 문제를 수반한다. 본 연구는 제공파일의 고유변수에 모분포를 반영하지 못하는 특이점이 존재하는 경우, 일반회귀모형을 이용한 통계적 결합방법의 대안으로 로러스트 회귀추정방법을 이용한 자료결합방법을 제안하였다. 나아가 로버스트 회귀모형을 이용한 결합방법과 일반회귀모형을 이용한 결합방법에서의 상관관계 및 결정계수 보존에 관한 성능을 비교하기 위하여 모의실험을 수행하였다.

유비쿼터스 데이터 웨어하우스;RFID와 다차원 온라인 분석의 통합 (Ubiquitous Data Warehosue;Integrating RFID with Mutidimensional Online Analysis)

  • 조대연
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2005년도 춘계학술대회
    • /
    • pp.215-221
    • /
    • 2005
  • 최근 RFID가 비즈니스의 여러 분야에서 추적시스템을 중심으로 도입되기 시작하고 있으며, 이러한 시스템들이 기업에 괄목할만한 효율성의 중가와 비용의 감소를 가져올 것으로 기대되고 있다. 한편, 기업의 대용량 정보저장고로 사용되어 온 데이터 웨어하우스는 생태적으로 과거의 정적인 데이터를 분석하도록 디자인 되었으며, 온라인 분석도구인 OLAP은 데이터 웨어하우스에 저장된 정적 데이터를 분석하는 도구로 사용됨으로 의사결정 지원의 역할을 하고 있다. 그렇다면 RFID를 통하여 실시간으로 수집되는 정보가 OLAP과 결합할 경우 그 정보는 추적과 같은 단순한 정보분석이 아니라 실시간 기반의 보다 중요한 의사결정을 위하여 사용될 수 있을 것이다. 본 연구에서는 데이터 웨어하우스의 정보소스를 확장하기 위한 노력의 일환으로 RFID와 데이터 웨어하우스의 통합모델을 제안한다. 그와 함께 RFID 기기를 통하여 수집된 실시간 기반의 동적인 정보를 분석할 수 있는 OLAP을 제시하고 있다. 그리고 이러한 개념을 프로토타입으로 구현함으로서 유비쿼터스 컴퓨팅 기술의 핵심을 이루고 있는 RFID가 데이터 웨어하우스에 정보소스를 제공할 수 있으며 온라인 분석도구와 결합될 경우 보다 강력한 의사결정 지원도구가 될 수 있음을 보여 준다.

  • PDF

데이터 균형을 위한 Chat-GPT와 Diffusion Model 기반 폐기물 생성모델 설계 (Design of a Waste Generation Model based on the Chat-GPT and Diffusion Model for data balance)

  • 김시웅;고준혁;박정현;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.667-669
    • /
    • 2023
  • 데이터의 균형은 객체 인식 분야에서 영향을 미치는 요인 중 하나이다. 본 논문에서는 폐기물 데이터 균형을 위해 Chat-GPT와 Diffusion model 기반 데이터 생성 모델을 제안한다. Chat-GPT를 사용하여 폐기물의 속성에 해당하는 단어를 생성하도록 질문하고, 생성된 단어는 인코더를 통해 벡터화시킨다. 이 중 폐기물과 관련 없는 단어를 삭제 후, 남은 단어들을 결합하는 전처리 과정을 거친다. 결합한 벡터는 디코더를 통해 텍스트 데이터로 변환 후, Stable Diffusion model에 입력되어 텍스트와 상응하는 폐기물 데이터를 생성한다. 이 데이터는 AI Hub의 공공 데이터를 활용하며, 객체 인식 모델인 YOLOv5로 학습해 F1-score와 mAP로 평가한다.

내용, 감성, 메타데이터의 결합을 이용한 텍스타일 영상 검색 (Textile image retrieval integrating contents, emotion and metadata)

  • 이경미;박우창;이은옥;권혜영;차은미
    • 인터넷정보학회논문지
    • /
    • 제9권5호
    • /
    • pp.99-108
    • /
    • 2008
  • 본 논문에서는 텍스타일 영상의 내용 데이터, 감성 데이터, 메타데이터를 결합시킨 영상 검색 시스템을 제안한다. 섬유 패션의 정보를 가지고 있는 메타데이터와 영상의 색상 및 감성 색상을 이용한 내용의 결합은 그 동안의 섬유 패션산업과 관련된 영상 검색 시스템에서 진일보된 것이다. 우선 메타데이터의 정보를 통해서 영상을 검색하게 된다 검색된 영상 안에서 색상히스토그램과 색상스케치, 감성 히스토그램을 통하여 주어진 영상과 비슷한 영상들을 검색하게 된다. 본 논문에서는 텍스타일 영상으로부터 감성 특성을 추출하기 위해서, H, Nagumo의 배색이미지차트에서 제안하는 160개 감성어에 대한 감성 색상을 이용하였다. 본 논문에서 제안된 텍스타일 영상 검색 시스템에서 부가적인 기능인 돋보기 기능, 색상 히스토그램 기능, 색상 스케치 기능, 반복 패턴 보기 기능을 통해 검색된 텍스타일 영상들의 정보를 효과적으로 제공함으로써 사용자의 편의를 강화하였다.

  • PDF

RAID를 위한 SSD 캐시: 데이터 캐싱과 패리티 갱신 지연 기법의 결합 (SSD Cache for RAID: Integrating Data Caching and Parity Update Delay)

  • 하성태;이동희
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권6호
    • /
    • pp.379-385
    • /
    • 2017
  • 디스크 기반 RAID와 SSD를 결합한 하이브리드 스토리지가 기업 환경에서 널리 이용되고 있다. RAID 상단의 SSD는 주로 데이터 캐시로 사용된다. 최근 SSD를 사용하여 패리티 갱신 비용을 감소시키는 LeavO 캐시 기법이 제안되었으며, 본 논문에서는 데이터 캐시와 LeavO 캐시를 결합한 혼합 캐시기법을 제안한다. 특히 SSD 공간을 데이터 캐시와 LeavO 캐시, 두 영역으로 최적으로 분할하기 위해 비용 모델을 도출하고, 워크로드에 따라 두 영역의 크기를 동적으로 조절하는 적응형 혼합 캐시 기법을 개발하였다. 실험 결과에 따르면 적응형 혼합 캐시 기법은 기존 데이터 캐시 기법에 비해 좋은 성능을 보이며, 오프라인 최적 기법과 대등한 성능을 보인다.

패킷 필터링에서 명령어와 인자 결합 규칙을 이용한 로그 데이터의 감축 방법 (Using the Rule to Combination Commands and Arguments in Packet Filtering)

  • 서현진;박성인;이재영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.321-323
    • /
    • 1999
  • UNIX 시스템에서 로그 시스템은 공격시 쉽게 변경 및 삭제되는 위험성이 있고 제한된 시스템 및 네트워크 정보를 제공하므로, 보다 안전하고 풍부한 정보의 제공을 위해 패킷 필터링을 이용한 로그 시스템 등이 제안되어 왔다. 그러나 기존의 패킷 필터링을 이용한 로그 시스템에서는 모든 패킷을 기록하여 많은 양의 데이터가 발생하였으므로, 관리자가 그 정보를 분석하기란 어려웠다. 본 논문에서는 패킷을 처리하는 과정에서 각종 유형의 침입에 대한 사전 조사와 분석으로 얻은 명령어와 인자들의 결합에 의한 판정 규칙을 적용하여, 위험가능성이 내재된 패킷만을 수집, 기록함으로서 데이터의 양을 줄이고 보다 효율적인 로그 정보를 기록할 수 있었다.

  • PDF

Web of Science 데이터학술지 게재 데이터논문의 지적구조 규명 (An Investigation of Intellectual Structure on Data Papers Published in Data Journals in Web of Science)

  • 정은경
    • 정보관리학회지
    • /
    • 제37권1호
    • /
    • pp.153-177
    • /
    • 2020
  • 오픈과학의 흐름에서 데이터 공유와 재이용은 중요한 연구자의 활동이 되어가고 있다. 데이터 공유와 재이용에 관한 여러 논의 중에서 데이터학술지와 데이터논문의 발간이 가시적인 결과를 보여주고 있다. 데이터학술지는 여러 학문 분야에서 발간되고 있으며, 논문의 수도 점차 증가하고 있다. 데이터논문은 데이터 자체와는 다르게 인용을 주고 받는 활동이 포함되어, 따라서 이들이 형성하는 고유한 지적구조가 생겨나게 된다. 본 연구는 데이터학술지와 데이터논문이 학술커뮤니티에서 구성하는 지적구조를 규명하고자 Web of Science에 색인된 14종의 데이터학술지와 6,086건의 데이터논문과 인용된 참고문헌 84,908건을 분석하였다. 저자사항과 함께 동시인용분석과 서지결합분석을 네트워크로 시각화하여 데이터논문이 형성한 세부 주제 분야를 규명하였다. 분석결과, 저자, 저자소속기관, 국가를 추출하여 출현빈도를 살펴보면, 전통적인 학술지 논문과 다른 양상을 보인다. 이러한 결과는 데이터의 생산이 용이한 기관과 국가에 주로 데이터논문을 출간하기 때문이라고 해석될 수 있다. 동시인용분석와 서지결합분석 모두 분석도구, 데이터베이스, 게놈구성 등이 주된 세부 주제 영역으로 나타났다. 동시인용분석결과는 9개의 군집으로 형성되었는데, 특정 주제 분야로 나타난 영역은 수질과 기후 등의 분야이다. 서지결합분석은 총 27개의 컴포넌트로 구성되었는데, 수질, 기후 이 외에도 해양, 대기 등의 세부 주제 영역이 파악되었다. 특기할만한 사항으로는 사회과학 분야의 주제 영역도 나타났다는 점이다.