• 제목/요약/키워드: 데이터 비만도

검색결과 10,519건 처리시간 0.035초

유전자 알고리즘을 이용한 비모수 회귀분석

  • 김병도;노상규
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1998년도 국제 컨퍼런스: 국가경쟁력 향상을 위한 디지틀도서관 구축방안
    • /
    • pp.584-594
    • /
    • 1998
  • 선형회귀분석은 가장 널리 사용되는 데이터 분석기법이지만 독립변수와 종속변수간의 관계가 선형이라고 가정하기 때문에 문제점을 가지고 있다. 비모수 회귀분석(Nonparametric Regression)은 선형회귀분석의 문제점을 극복할 수 있는 방법으로 변수간의 관계의 형태를 미리 가정하지 않고 데이터에 의해 결정하는 방법이다. 본 연구에서는 유전자 알고리즘을 비모수 회귀분석법 중의 하나인 Regressoin Splines에 적용하였다. 인위적 데이터를 이용한 평가 결과 유전자 알고리즘은 다양한 상황에서 매우 우수한 것으로 나타났다.

  • PDF

트리거를 이용한 비동기 데이터의 동기화 처리 알고리즘 연구 (A synchronized processing algorithm of asynchronous data with trigger)

  • 박성진;유지상
    • 한국통신학회논문지
    • /
    • 제28권12A호
    • /
    • pp.1002-1008
    • /
    • 2003
  • 지상파 데이터 방송은 실제 구현이나 설계의 관점에서는 많은 분야가 시작 단계에 불과하다고 볼 수 있고, 그나마 연구되어온 것은 비동기 데이터에 대한 서비스위주로 기술이 개발되어왔다. 본 논문에서는 지상파 데이터 단말에서 좀 더 다양한 데이터 방송 서비스 컨텐츠의 처리가 가능하도록 하기 위하여 트리거 정보를 이용한 비동기 데이터의 동기화 처리알고리즘을 제안하고 있다. 트리거 데이터가 DSM-CC section에 캡슐화 되어, MPEG-2 TS를 통해 수신되면, PC형 셉톱박스를 통해 데이터가 분리된다. 분리된 비동기 데이터와 트리거 데이터는 제안된 알고리즘을 통해 저장되고, STC(system time clock)와 PTS(presentation time stamp)가 일치할 때, 이미 수신되어 저장된 비동기 데이터를 DAU(data access unit) 단위로 화면에 오버레이 하여 재생하여 준다. 본 알고리즘을 검증하기 위해 컨텐츠는 XML(extensible markup language)로 저작되었으며, DA(declarative application) 브라우저를 이용하였다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형 (A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data)

  • 하만석;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제19권1호
    • /
    • pp.1-15
    • /
    • 2019
  • 직업훈련 교육 현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제이다. 훈련과정마다 많은 수의 학생들이 중도탈락을 하게 되어 국가 예산 낭비 및 청년 취업률 개선에 장애 요인이 되고 있다. 본 연구에서는 중도탈락의 원인을 주로 분석한 기존 연구들과 달리, 각종 수강생 정보를 활용하여 사전에 중도탈락을 예측할 수 있는 기계학습 기반 모형을 제안하고자 한다. 특히 본 연구의 제안모형은 수강생 관련 정형 데이터 뿐 아니라 비정형 데이터인 강사의 상담일지 정보까지 동시에 고려하여 모형의 예측정확도를 제고하고자 하였다. 이 때 비정형 데이터에 대한 분석은 최근 주목받고 있는 텍스트 분석 기술인 Word2vec과 합성곱 신경망을 이용해 수행하였다. 국내 한 직업훈련기관의 실제 데이터에 제안모형을 적용해 본 결과, 정형데이터만을 사용하여 중도탈락을 예측할 때보다 비정형 데이터를 함께 고려했을 때 예측의 정확도가 최대 20%까지 향상됨을 확인할 수 있었다. 아울러, Support Vector Machine을 기반으로 정형 데이터와 비정형 데이터를 결합해 분석했을 때, 검증용 데이터셋 기준으로 90% 후반대의 높은 예측 정확도를 나타냄을 확인하였다.

빅데이터 분석 도구 R을 이용한 비정형 데이터 텍스트 마이닝과 시각화 (Text Mining and Visualization of Unstructured Data Using Big Data Analytical Tool R)

  • 남수태;신성윤;진찬용
    • 한국정보통신학회논문지
    • /
    • 제25권9호
    • /
    • pp.1199-1205
    • /
    • 2021
  • 빅데이터 시대에는 단순히 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 실시간 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 빅데이터를 효과적으로 분석하는 것이 매우 중요하다. 빅데이터 분석은 데이터 저장소에 저장된 빅데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 빅데이터 분석 도구인 R 언어를 이용하여 비정형 논문 데이터를 빈도분석을 통해 분석결과를 요약과 시각화하고자 한다. 본 연구에서 사용된 데이터는 한국정보통신학회 학회지 논문 중에서 2021년 1월호-5월호 총 논문 104편을 대상으로 분석하였다. 최종 분석결과 가장 많이 언급된 키워드는 "데이터"가 1,538회로 1위를 차지하였다. 따라서 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

단대단 비동기 암호통신에서 효율적인 전송을 위한 데이터 변환방법 (Data Conversion Schemes for Efficient Transmission on End-to End Asynchronous Secure Communication)

  • 정현철
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1834-1844
    • /
    • 1996
  • 비동기 통신에서는 특정 영역의 데이터가 각종 제어문자로 사용된다. 그러므로 데이터를 송신할 때 이 영역의 데이터는 제어문자로의 오인을 방지하기 위하여 다른 문자로 변환하고 이를 제어접두문자와 함께 전송하여야 한다. 본 논문에서는 비동기 프로토콜 상으로 데이터를 암호화하여 전송할 때 발생하는 모의 제어문자에 대해 제어 접두문자를 추가하지 않고 일정한 변환만 하여 송신하므로써 데이터의 길어짐을 방지 하고 전체 통신속도를 높이는 문자 변환 방법을 몇 가지 제시하였다. 이러한 변환을 위해 전송 데이터의 유효 범위를 가정하고 이 범위를 벗어나지 않도록 하였으며, 실험을 통하여 이 방법이 기존의 방법에 비해 통신속도 가 향상됨을 보이고 암호화된 데이터의 임의성을 확인하므로써 암호화에 문제가 없음을 보였다.

  • PDF

비정형 대용량 데이터 입력 및 출력 시스템 설계 및 구현 (Design and Implementation of Input and Output System for Unstructured Big Data)

  • 김창수;심규철;강병준;김경환;정회경
    • 한국정보통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.387-393
    • /
    • 2014
  • 컴퓨터의 보급에 따라 비정형 대용량 데이터가 범람하고 이를 효율적으로 처리하기 노력이 요구되고 있다. 이에 본 논문에서는 오피스(office) 파일(아래한글, MS-Office 등)에 입력된 데이터를 바로 XML로 변환하고, 사용자가 XML 매핑 파일을 만들어서 워드프로세서에 입력 된 데이터를 바로 추출하여 데이터베이스에 저장하는 시스템을 제안하였다. 또한, 본 시스템은 워드프로세스에 양식을 미리 작성하여 필요한 데이터를 데이터베이스에서 조회하여 워드프로세서 문서를 응용프로그램에서 오피스 파일을 생성 할 수 있다. 이는 대용량의 비정형 데이터를 활용가능하게 할 것이다.

기업의 빅데이터 적용방안 연구 -A사, Y사 빅데이터 시스템 적용 사례- (Study on the Application Methods of Big Data at a Corporation -Cases of A and Y corporation Big Data System Projects-)

  • 이재성;홍성찬
    • 인터넷정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.103-112
    • /
    • 2014
  • 지난 수년간 스마트 폰 같은 스마트 기기의 빠른 확산과 함께 인터넷과 SNS 등 소셜 미디어가 급성장함에 따라 개인 정보와 소비패턴, 위치 정보 등이 포함된 가치 있는 데이터가 매 순간 엄청난 양으로 생성되고 있으며, M2M (Machine to Machine)과 IoT (Internet of Things) 등이 활성화되면서 IT 및 생산인프라 자체도 다량의 데이터를 직접 생성하기 시작했다. 본 연구는 기업에서 활용할 수 있는 빅데이터의 대표적 유형인 정형 및 비정형 데이터의 적용사례를 고찰함으로써 데이터 유형에 따른적용 영역별 파급효과를 알아본다. 또한 일반적으로 알려져 있는 비정형 빅데이터는 물론 정형빅데이터를 활용하여 실제로 기업에 보다 나은 가치를 창출할 수 있는 방안을 알아보는 것을 목적으로 한다. 이에 대한연구 결과로 빅데이터의 기업내 활동이 나아갈 수 있는 지향점으로써 내 외부에서 발생하는 정형데이터와 비정형 데이터를 적절히 결합함으로써 분석의 효과를 극대화 할 수 있음을 보여 주었다.

데이터베이스상의 한글 자모단위 비교를 통한 데이터 정정기법 (A Revising Method using Phoneme Comparison for Databases with Korean Character Set)

  • 김대환;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.532-534
    • /
    • 2003
  • 코드로써 관리되어있지 않은 데이터베이스 내의 다양한 속성들이 시간이 흐름에 따라 정보로써 가치를 갖게 되면서. 비코드성 한글 데이터의 정형화에 대한 요구가 증가하고 있다. 정형화에 있어 한글의 특수성 중에 하나는 한글자료의 경우 KSC5601, CP949등을 사용하여 음절단위의 문자셋을 사용하여 음절단위로 저장 관리한다. 그런데 입력 시정에서는 자판기등을 이용하여 음소단위로 데이터를 입력하면서 발생하는 오류 및 비정형 데이터의 유입의 문제 등을 내포하고 있다. 이러한 문제를 해결하기 위하여 데이터의 저장단위인 음절이 아닌 음소 단위의 비교를 통하여 데이터를 정정하는 기법을 제안하고자 한다.

  • PDF

비윤리적 한국어 발언 검출을 위한 새 데이터 세트 (A New Dataset for Korean Toxic Comment Detection)

  • 박진원;나영윤;박규병
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.606-609
    • /
    • 2021
  • 최근 한국에서도 이루다의 윤리 이슈를 기점으로 딥러닝 모델의 윤리적 언어학습 필요성이 대두되었다. 그럼에도 불구하고 영어 데이터에 비해 한국어 데이터는 Korean Hate Speech Detection Dataset 이 유일하다. 이번 연구에서는 기존 데이터 세트의 유연성이 떨어지고 세부 라벨이 제한적이라는 문제를 개선한 새로운 데이터 세트를 제안하고, 해당 데이터 세트에 대하여 다양한 신경망 분류 모델을 적용한 벤치마크 결과를 공개한다.