• 제목/요약/키워드: 데이터 기반 방식

검색결과 3,499건 처리시간 0.031초

IBM Watson 작동방식에 대한 이해 및 사례 소개

  • 김천순
    • 방송과미디어
    • /
    • 제22권1호
    • /
    • pp.1-9
    • /
    • 2017
  • IBM Watson은 새로운 컴퓨팅 시대인 코그니티브 시스템으로의 첫 걸음으로 상징된다. Watson은 현 프로그램 컴퓨팅의 시대 기반 위에 구축되었으나, 매우 중요한 방식에서 차이가 있다. ${\bullet}$ 오늘날 전세계 데이터의 80%를 차지하고 있는 복잡한 비정형 데이터에 대한 이해를 돕는 자연어 처리(Natural Language Processing) ${\bullet}$ 관련된 증거만을 기반으로 응답에 가중치를 부여하고 평가하기 위한 고도의 분석 기법을 적용한 가설 생성 및 평가 방식 ${\bullet}$ 반복을 통해 좀더 똑똑해 질 수 있도록 결과를 기반으로 학습을 개선할 수 있도록 돕는 동적 학습 방식이 각각이 Watson에만 특별한 것은 아니지만, Watson은 각 역량의 조합을 통해 강력한 솔루션을 제공하고 있다. IBM Watson과 같은 코그니티브 시스템은 조직이 생각하고, 행동하고, 운영되는 방식을 혁신시킬 수 있다. 이 글에서는 어떻게 IBM Watson이 시작되었으며, 직접적이고 신뢰할 수 있는 답변을 제공하기 위해 자연어 처리와 동적 학습 및 가설 생성/평가를 어떻게 조합하는지, 나아가 어떤 분야에서 적용되고 있는지 그 사례를 소개하고자 한다.

코사인 유사도 측정을 통한 행위 기반 인증 (A Behavior-based Authentication Using the Measuring Cosine Similarity)

  • 길선웅;이기영
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.17-22
    • /
    • 2020
  • 현재 많은 연구가 진행되고 있는 행위 기반 인증 기술은 다른 인증 기술들에 비해서 인증의 인식률을 높이는데 많은 데이터의 장기간 추출이 필요하다. 본 논문은 안드로이드 환경의 스마트폰에 내재되어있는 터치 센서와 자이로스코프를 이용하여 그동안의 행위 기반 인증 연구에서 사용 되었던 행위 특징 데이터들 중에서 핵심적인 최소한의 데이터들만을 이용하기 위해 사용자에게 다섯 차례의 측정을 요구하여 다섯 번의 터치스크린 화면을 터치 하는 방식으로 총 6가지의 행위 특징 데이터를 수집하였고 다음 터치 측정으로 넘어가는 동안의 데이터들의 변화 값에 평균 값을 구하여 이 값과 측정값의 코사인 유사도 측정을 수행하여 코사인 유사도 허용 범위를 생성 한 후, 인증 시도 데이터의 코사인 유사도 값과 비교하는 방식의 사용자 행위 기반 인증 방식을 제안한다. 본 논문을 통해서 적은 수의 특징 데이터와 실험자수 환경에서도 코사인 유사도 인증 범위에 적용되는 임계값을 조절하는 방식을 통해서 최초 EER 37.6%에서 최종 EER 1.9%의 높은 성능을 증명하는데 성공하였다.

클라우드 환경에서 데이터 접근 사용자의 프라이버시 보호를 위한 익명 CP-ABE 기법에 관한 연구 (A Study on Anonymous CP-ABE Scheme for Privacy Protection of Data Access Users in Cloud Environments)

  • 황용운;이임영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.186-187
    • /
    • 2019
  • 최근 클라우드에서 발생하는 보안위협을 해결하기 위한 다양한 보안 기술 중 속성기반 암호인 CP-ABE 방식의 접근제어 기법을 사용하여 사용자간의 데이터를 안전하게 공유한다. 현재까지 다양한 CP-ABE방식의 접근제어 기법이 연구되었지만, 이 중 보안위협에 취약한 방식들이 존재한다. 특히 제 3자는 암호문에 지정된 접근구조를 통해 데이터에 접근하려는 사용자의 속성을 유추할 수 있고, 이로 인해 사용자의 프라이버시를 침해할 수 있다. 이에 사용자의 프라이버시를 보호할 수 있는 익명 CP-ABE 방식이 연구되고 있다. 하지만 기존에 연구된 익명 CP-ABE 방식 중 제대로 익명화가 적용되지 않은 방식과, 효율성이 부족한 방식들이 존재한다. 이에 복호화하는 사용자의 연산량은 증가된 암호문의 속성의 개수에 비례하기 때문에 비효율적이다. 본 논문에서는 데이터에 접근하는 사용자의 프라이버시를 보호하고, 사용자의 연산량의 효율을 높일 수 있는 익명 CP-ABE 방식을 제안한다.

방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축 (Taxonomy Induction from Wikidata using Directed Acyclic Graph's Centrality)

  • 전희선;김현호;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.582-587
    • /
    • 2021
  • 한국어 통합 지식베이스를 생성하기 위해 필수적인 분류체계(taxonomy)를 구축하는 방식을 제안한다. 위키데이터를 기반으로 분류 후보군을 추출하고, 상하위 관계를 통해 방향 비순환 그래프(Directed Acyclic Graph)를 구성한 뒤, 국부적 도달 중심성(local reaching centrality) 등의 정보를 활용하여 정제함으로써 246 개의 분류와 314 개의 상하위 관계를 갖는 분류체계를 생성한다. 워드넷(WordNet), 디비피디아(DBpedia) 등 기존 링크드 오픈 데이터의 분류체계 대비 깊이 있는 계층 구조를 나타내며, 다중 상위 분류를 지닐 수 있는 비트리(non-tree) 구조를 지닌다. 또한, 위키데이터 속성에 기반하여 위키데이터 정보가 있는 인스턴스(instance)에 자동으로 분류를 부여할 수 있으며, 해당 방식으로 실험한 결과 99.83%의 분류 할당 커버리지(coverage) 및 99.81%의 분류 예측 정확도(accuracy)를 나타냈다.

  • PDF

원격지도학습데이터의 오류를 처리하는 강화학습기반 관계추출 모델 (Relation Extraction Model for Noisy Data Handling on Distant Supervision Data based on Reinforcement Learning)

  • 윤수지;남상하;김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-60
    • /
    • 2018
  • 기계학습 기반인 관계추출 모델을 설계할 때 다량의 학습데이터를 빠르게 얻기 위해 원격지도학습 방식으로 데이터를 수집한다. 이러한 데이터는 잘못 분류되어 학습데이터로 사용되기 때문에 모델의 성능에 부정적인 영향을 끼칠 수 있다. 본 논문에서는 이러한 문제를 강화학습 접근법을 사용해 해결하고자 한다. 본 논문에서 제안하는 모델은 오 분류된 데이터로부터 좋은 품질의 데이터를 찾는 문장선택기와 선택된 문장들을 가지고 학습이 되어 관계를 추출하는 관계추출기로 구성된다. 문장선택기는 지도학습데이터 없이 관계추출기로부터 피드백을 받아 학습이 진행된다. 이러한 방식은 기존의 관계추출 모델보다 좋은 성능을 보여주었고 결과적으로 원격지도학습데이터의 단점을 해결한 방법임을 보였다.

  • PDF

MMT 기반 V3C 데이터 패킷화 방안 (MMT based V3C data packetizing method)

  • 문형준;김연웅;박성환;남귀중;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.836-838
    • /
    • 2022
  • 3D Point Cloud는 3D 콘텐츠를 더욱 실감 나게 표현하기 위한 데이터 포맷이다. Point Cloud 데이터는 3차원 공간상에 존재하는 데이터로 기존의 2D 영상에 비해 거대한 용량을 가지고 있다. 최근 대용량 Point Cloud의 3D 데이터를 압축하기 위해 V-PCC(Video-based Point Cloud Compression)와 같은 다양한 방법이 제시되고 있다. 따라서 Point Cloud 데이터의 원활한 전송 및 저장을 위해서는 V-PCC와 같은 압축 기술이 요구된다. V-PCC는 Point Cloud의 데이터들을 Patch로써 뜯어내고 2D에 Projection 시켜 3D의 영상을 2D 형식으로 변환하고 2D로 변환된 Point Cloud 영상을 기존의 2D 압축 코덱을 활용하여 압축하는 기술이다. 이 V-PCC로 변환된 2D 영상은 기존 2D 영상을 전송하는 방식을 활용하여 네트워크 기반 전송이 가능하다. 본 논문에서는 V-PCC 방식으로 압축한 V3C 데이터를 방송망으로 전송 및 소비하기 위해 MPEG Media Transport(MMT) Packet을 만드는 패킷화 방안을 제안한다. 또한 Server와 Client에서 주고받은 V3C(Visual Volumetric Video Coding) 데이터의 비트스트림을 비교하여 검증한다.

  • PDF

Attentional View Pooling을 이용한 조립 부품 이미지 기반 3 차원 물체 검색 (Assembly Part Image-based 3D Shape Retrieval using Attentional View Pooling)

  • 이은지;강이삭;김민우;박선지;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.72-75
    • /
    • 2020
  • 조립 부품 이미지에 해당하는 3D CAD 모델 매칭 기술은 최근 로봇 조립 기술의 발전으로 필요성이 대두되고 있다. 이미지 기반 3 차원 모델 매칭 연구는 진행되어 왔지만 가구 부품 이미지와는 특성이 다른 RGB[5] 이미지나 스케치 이미지를 다루는[1] 접근들이었다. 딥러닝을 사용하는 스케치 이미지 기반 3 차원 물제 검색 연구에서는 대부분 3 차원 이미지를 다각도에서 렌더링한 view 이미지들에서 feature를 추출하고 pooling 하여 하나의 feature를 출력한다. 그러나 기존의 view pooling 방식은 단순한 평균 방식으로, 부품 이미지에 따른 view를 반영하기에는 한계가 있었다. 따라서 본 논문에서는 조립 부품 이미지 기반 3 차원 물체 검색을 위해 query 부품 이미지에 따라 다른 view 이미지에 집중할 수 있는 방식의 attentional view pooling을 제안한다. 또한 조립 부품 데이터의 특성 상 class 당 CAD 모델이 하나인 상황이므로 학습 데이터가 터무니없이 부족하여 이를 해결하기 위한 학습 데이터 증강 방법을 제안한다. 실험은 의자 부품 11가지에 대해 진행하였고 이를 통해 제안하는 방식의 성능을 입증하였다.

  • PDF

비지도 학습 기반의 임베딩과 오토인코더를 사용한 침입 탐지 방법 (Intrusion Detection Method Using Unsupervised Learning-Based Embedding and Autoencoder)

  • 이준우;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.355-364
    • /
    • 2023
  • 최근 지능화된 사이버 위협이 지속적으로 증가함에 따라 기존의 패턴 혹은 시그니처 기반의 침입 탐지 방식은 새로운 유형의 사이버 공격을 탐지하는데 어려움이 있다. 따라서 데이터 학습 기반 인공지능 기술을 적용한 이상 징후 탐지 방법에 관한 연구가 증가하고 있다. 또한 지도학습 기반 이상 탐지 방식은 학습을 위해 레이블 된 이용 가능한 충분한 데이터를 필요로 하기 때문에 실제 환경에서 사용하기에는 어려움이 있다. 최근에는 정상 데이터로 학습하고 데이터 자체에서 패턴을 찾아 이상 징후를 탐지하는 비지도 학습 기반의 방법에 대한 연구가 활발히 진행되고 있다. 그러므로 본 연구는 시퀀스 로그 데이터로부터 유용한 시퀀스 정보를 보존하는 잠재 벡터(Latent Vector)를 추출하고, 추출된 잠재 벡터를 사용하여 이상 탐지 학습 모델을 개발하는데 있다. 각 시퀀스의 특성들에 대응하는 밀집 벡터 표현을 생성하기 위하여 Word2Vec을 사용하였으며, 밀집 벡터로 표현된 시퀀스 데이터로부터 잠재 벡터를 추출하기 위하여 비지도 방식의 오토인코더(Autoencoder)를 사용하였다. 개발된 오토인코더 모델은 시퀀스 데이터에 적합한 순환신경망 GRU(Gated Recurrent Unit) 기반의 잡음 제거 오토인코더, GRU 네트워크의 제한적인 단기 기억문제를 해결하기 위한 1차원 합성곱 신경망 기반의 오토인코더 및 GRU와 1차원 합성곱을 결합한 오토인코더를 사용하였다. 실험에 사용된 데이터는 시계열 기반의 NGIDS(Next Generation IDS Dataset) 데이터이며, 실험 결과 GRU 기반의 오토인코더나, 1차원 합성곱 기반의 오토인코더를 사용한 모델보다 GRU와 1차원 합성곱을 결합한 오토인코더가 훈련 데이터로부터 유용한 잠재 패턴을 추출하기 위한 학습 시간적 측면에서 효율적이었고 이상 탐지 성능 변동의 폭이 더 작은 안정된 성능을 보였다.

SPARQL-to-SQL: 질의 성능 향상을 위한 캐시 관리자 (SPARQL-to-SQL: Cache Manager for Advanced Query Efficiency)

  • 김석현;이상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.765-766
    • /
    • 2009
  • 시맨틱(Semantic) 온톨로지(Ontology)에서 SPARQL 질의언어는 W3C 로부터 표준으로 제정된 이후부터 활발히 연구 되고 있다. 그리고 현재까지 온톨로지 기반 어플리케이션 개발이 다방면으로 진행되어 왔는데, 현재 개발된 온톨로지 어플리케이션들은 시맨틱 데이터 저장 및 질의 처리가 파일시스템 기반 및 데이터베이스 기반 방식으로 나누어 진다. 그 중 데이터베이스 기반 방식은 최근부터 연구가 진행되어 왔고 실제 개발된 어플리케이션도 있지만, 아직 질의 최적화 기술에 대해서는 개선할 수 있는 여지가 많다. 따라서 본 논문에서는 관계형 데이터 베이스를 기반한 온톨로지 데이터 저장 및 질의 처리 방법에서 캐시를 이용한 질의 속도 향상 방법을 제시하도록 하겠다. SPQARQL에서 변환된 SQL 질의 수행시 그 결과를 캐시하고, 후속 SQL 질의를 이전 질의와 비교하여 이전 SQL 질의와 일치하거나 그 결과가 포함 될 경우 캐시된 결과를 사용해 쿼리 속도를 향상 시킬 수 있다.

에세이 자동 평가 모델 성능 향상을 위한 데이터 증강과 전처리 (Data Augmentation and Preprocessing to Improve Automated Essay Scoring Model)

  • 고강희;김도국
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-332
    • /
    • 2023
  • 데이터의 품질과 다양성은 모델 성능에 지대한 영향을 끼친다. 본 연구에서는 Topic을 활용한 데이터 전처리와 BERT 기반 MLM, T5, Random Masking을 이용한 증강으로 데이터의 품질과 다양성을 높이고자 했으며, 이를 KoBERT 기반 에세이 자동 평가 모델에 적용했다. 데이터 전처리만 진행했을 때, Quadratic Weighted Kappa Score(QWK)를 기준으로 모델이 에세이의 모든 평가 항목에 대해 베이스라인보다 더욱 높은 일치도를 보였으며 평가항목별 일치도의 평균을 기준으로 0.5368029에서 0.5483064(+0.0115035)로 상승했다. 여기에 제안하는 증강 방식을 추가 할 경우 MLM, T5, Random Masking 모두 성능 향상 효과를 보였다. 특히, MLM 데이터 증강 방식을 추가로 적용하였을 때 최종적으로 0.5483064에서 0.55151645(+0.00321005)으로 상승해 가장 높은 일치도를 보였으며, 에세이 총점으로 QWK를 기준으로 성능을 평가하면 베이스라인 대비 0.4110809에서 0.4380132(+0.0269323)로의 성능 개선이 있었다.

  • PDF