• Title/Summary/Keyword: 데이터부족문제

Search Result 539, Processing Time 0.026 seconds

단순화된 어절을 단위로 하는 한국어 품사 태거 (A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit)

  • 이의현;김영길;신재훈;권홍석;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

Large Language Model을 활용한 키워드 기반 대화 생성 (Keyword Based Conversation Generation using Large Language Model)

  • 이주환;허탁성;김지수;정민수;이경욱;김경선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.19-24
    • /
    • 2023
  • 자연어 처리 분야에서 데이터의 중요성이 더욱 강조되고 있으며, 특히 리소스가 부족한 도메인에서 데이터 부족 문제를 극복하는 방법으로 데이터 증강이 큰 주목을 받고 있다. 이 연구는 대규모 언어 모델(Large Language Model, LLM)을 활용한 키워드 기반 데이터 증강 방법을 제안하고자 한다. 구체적으로 한국어에 특화된 LLM을 활용하여 주어진 키워드를 기반으로 특정 주제에 관한 대화 내용을 생성하고, 이를 통해 대화 주제를 분류하는 분류 모델의 성능 향상을 입증했다. 이 연구 결과는 LLM을 활용한 데이터 증강의 유의미성을 입증하며, 리소스가 부족한 상황에서도 이를 활용할 수 있는 방법을 제시한다.

  • PDF

안드로이드 기반 데이터 암호화 플랫폼 설계 및 구현 (Design and implementaion of Data-Encryption Platform Based on Android)

  • 조대균;윤성열;박석천
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1036-1037
    • /
    • 2012
  • 안드로이드 어플리케이션 개인 정보 유출의 문제가 이슈화 되고 있다. 이 문제는 개발자가 어플리케이션을 개발하는데 있어 데이터 암호화 전혀 고려하지 않으며, 데이터 암호화에 대한 지식도 많이 부족하다. 따라서 본 논문에서는 안드로이드 어플리케이션에서 사용되는 데이터 유형을 분석하여 시나리오를 작성하여 암호화 알고리즘과 설계한다. 설계한 내용을 바탕으로 안드로이드 기반 데이터 암호화 플랫폼을 구현하였다.

타겟 제품 리뷰 데이터의 감성 분석에 관한 연구 (A study on sentiment analysis of target product's review data)

  • 정승경;김경원;정종진
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.91-93
    • /
    • 2020
  • 일상의 데이터를 감성 분석에 사용할 때, 데이터 개수가 부족하거나 불균형한 문제가 발생한다. 이에 대해, 본 논문은 데이터 수집 카테고리를 확장하는 방법으로 기존의 문제들을 해결한다. 나아가 확장된 카테고리로 수집한 데이터를 이용해 감성 분석 모델을 만들고, 해당 카테고리에 속하는 타겟 제품에 대한 감성 분석을 시도한다.

  • PDF

말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템 (A Korean POS Tagging System with Handling Corpus Errors)

  • 설용수;김동주;김규상;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제15권1호
    • /
    • pp.117-124
    • /
    • 2007
  • 통계 기반 접근 방법을 이용한 품사태깅에서 태깅 정확도는 훈련 데이터의 양에 좌우될 뿐 아니라, 말뭉치가 충분할지라도 수작업으로 구축한 말뭉치의 경우 항상 오류의 가능성을 내포하고 있으며 언어의 특성상 통계적으로 신뢰할만한 데이터의 수집에도 어려움이 따른다. 훈련 데이터로 사용되는 말뭉치는 많은 사람들이 수작업으로 구축하므로 작업자 중 일부가 언어에 대한 지식이 부족하다거나 주관적인 판단에 의한 태깅 실수를 포함할 수도 있기 때문에 단순한 저빈도와 관련된 잡음 외의 오류들이 포함될 수 있는데 이러한 오류들은 재추정이나 평탄화 기법으로 해결될 수 있는 문제가 아니다. 본 논문에서는 HMM(Hidden Markov Model)을 이용한 한국어 품사 태깅에서 재추정 후 여전히 존재하는 말뭉치의 잡음에 인한 태깅 오류 해결을 위해 비터비 알고리즘적용 단계에서 데이터 부족과 말뭉치의 오류로 인해 문제가 되는 부분을 찾아내고 규칙을 통해 수정을 하여 태깅 결과를 개선하는 방안을 제안한다. 실험결과는 오류가 존재하는 말뭉치를 사용하여 구현된 HMM과 비터비 알고리즘을 적용한 태깅 정확도에 비해 오류를 수정하는 과정을 거친 후 정확도가 향상됨을 보여준다.

  • PDF

점진적 학습 기술 기반 범용적인 분류기 구조설계 방법의 설계 및 구현 (Design and Implementation of a Generic Classification System Based on Incremental Learning Technology)

  • 민병원;오용선
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.425-426
    • /
    • 2019
  • 전통적인 마이닝 기법은 다양한 디지털 매체와 센서 등에서 생산되는 빅데이터를 처리하기 어려울 뿐 아니라 신규 데이터 누적시 전체 데이터를 재분석 해야하는 비효율성과 대용량의 문서를 학습함에 있어 메모리부족 문제, 학습 소요시간 문제 등이 있다. 이러한 문제를 해결하기 위하여 본 논문에서는 자질축소 기법에 의존하지 않고 대량의 문서를 자유롭게 학습하고 부분적인 자질 추가 변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법을 설계 및 구현하였다. 점진적 학습 모듈은 일반적인 학습 방법이 데이터의 추가 및 변동시마다 모든 데이터를 재학습하는 데 반해, 기존의 학습 결과에 증분된 데이터만 재처리 없이 추가적으로 학습한다. 재학습을 위해 사용자는 작업 수행 중 자원 관리를 통해 기존에 처리된 데이터를 자유롭게 가져와서 새로운 데이터와 병합이 가능하다. 이러한 점직적 학습 효율성은 빅데이터 기반 데이터 처리에 주요한 특성인 데이터 생산 속도를 극복하기 위한 좋은 대안이 될 수 있음을 확인하였다.

  • PDF

호스트 기반 침입 탐지 데이터 분석 비교 (A Host-based Intrusion Detection Data Analysis Comparison)

  • 박대경;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.490-493
    • /
    • 2020
  • 오늘날 정보통신 기술이 급격하게 발달하면서 IT 인프라에서 보안의 중요성이 높아졌고 동시에 APT(Advanced Persistent threat)처럼 고도화되고 다양한 형태의 공격이 증가하고 있다. 점점 더 고도화되는 공격을 조기에 방어하거나 예측하는 것은 매우 중요한 문제이며, NIDS(Network-based Intrusion Detection System) 관련 데이터 분석만으로는 빠르게 변형하는 공격을 방어하지 못하는 경우가 많이 보고되고 있다. 따라서 HIDS(Host-based Intrusion Detection System) 데이터 분석을 통해서 위와 같은 공격을 방어하는데 현재는 침입탐지 시스템에서 생성된 데이터가 주로 사용된다. 하지만 데이터가 많이 부족하여 과거에 생성된 DARPA(Defense Advanced Research Projects Agency) 침입 탐지 평가 데이터 세트인 KDD(Knowledge Discovery and Data Mining) 같은 데이터로 연구를 하고 있어 현대 컴퓨터 시스템 특정을 반영한 데이터의 비정상행위 탐지에 대한 연구가 많이 부족하다. 본 논문에서는 기존에 사용되었던 데이터 세트에서 결여된 스레드 정보, 메타 데이터 및 버퍼 데이터를 포함하고 있으면서 최근에 생성된 LID-DS(Leipzig Intrusion Detection-Data Set) 데이터를 이용한 분석 비교 연구를 통해 앞으로 호스트 기반 침입 탐지 데이터 시스템의 나아갈 새로운 연구 방향을 제시한다.

제조 및 유통산업을 위한 RFID 기반 자동 검수 시스템의 설계 및 구현 (RFID-Based Automatic Inspection System Design and Implementation for Manufacturing and Retail Industry)

  • 김진석;박종권;신용태
    • 한국통신학회논문지
    • /
    • 제39C권1호
    • /
    • pp.97-105
    • /
    • 2014
  • 현재 제조, 유통산업에서는 입출고 운영결과를 수기 작성, 전산 입력 또는 엑셀파일에 의존하는 물류를 운영하고 있다. 이에 수기 입력 오류, 전산 입력 오류, 실시간 데이터 처리 불가, 수량 부족/초과 문제 발생과 같이 물류를 운영하는데 문제가 발생하고 있다. 이에 본 논문은 RFID 기술을 활용하여 입출고 데이터 처리를 통한 입고 자동 검수 시스템을 제안한다. 또한 실시간 데이터 처리 및 자동 검수를 통해 기존 물류 운영 대비 RFID를 적용한 시스템의 비용 절감효과를 제안한다. RFID 기술을 적용하여 입출고 데이터를 현장에서 실시간으로 처리할 수 있으며 수량 부족/초과 문제도 현장에서 바로 조치할 수 있게 된다. 그럼으로써 현재 운영 시스템 대비 RFID 시스템을 통해 물류비를 절감할 수 있다.

비지도 학습 기반 초개인화 추천 서비스를 위한 메타데이터 추출의 중요성 고찰 (Consideration upon Importance of Metadata Extraction for a Hyper-Personalized Recommender System on Unsupervised Learning)

  • 백주련;고광호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.19-22
    • /
    • 2022
  • 서비스 관점에서 구축되는 추천 시스템의 성능은 얼마나 효율적인 추천 모델을 적용하여 심층적으로 설계되었는가에 좌우된다고도 볼 수 있다. 특히, 추천 시스템의 초개인화는 세계적인 추세로 1~2년 전부터 구글, 아마존, 알리바바 등의 데이터 플랫폼 강자들이 경쟁적으로 딥 러닝 기반의 알고리즘을 개발, 자신들의 추천 서비스에 적용하고 있다. 본 연구는 갈수록 고도화되는 추천 시스템으로 인해 발생하는 여러 문제들 중 사용자 또는 서비스 정보가 부족하여 계속적으로 발생하고 있는 Cold-start 문제와 추천할 서비스와 사용자는 지속적으로 늘어나지만 실제로 사용자가 소비하게 되는 서비스의 비율은 현저하게 감소하는 데이터 희소성 문제 (Sparsity Problem)에 대한 솔루션을 모색하는 알고리즘 관점에서 연구하고자 한다. 본 논문은 첫 단계로, 적용하는 메타데이터에 따라 추천 결과의 정확성이 얼마나 차이가 나는지를 보이고 딥러닝 비지도학습 방식을 메타데이터 선정 및 추출에 적용하여 실시간으로 변화하는 소비자의 실제 생활 패턴 및 니즈를 예측해야 하는 필요성에 대해서 기술하고자 한다.

  • PDF

MOO(Mathematical Operation Organizer): 한국어 서술형 수학 문제 자동 풀이를 위한 데이터 증강 기법 연구 (MOO: A Study on Data Augmentation Method for Korean Math Word Problem Solving)

  • 안지수;기경서;김지원;권가진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.568-571
    • /
    • 2022
  • 본 논문에서는 서술형 수학 문제의 자동 풀이 기술 개발을 위한 데이터 증강 기법인 MOO 를 제안한다. 서술형 수학 문제는 일상에서의 상황을 수학적으로 기술한 자연어 문제로, 인공지능 모델로 이 문제를 풀이하는 기술은 활용 가능성이 높아 국내외에서 다양하게 연구되고 있으나 데이터의 부족으로 인해 성능 향상에서의 한계가 늘 존재해 왔다. 본 논문은 이를 해결하기 위해 시중의 수학 문제들을 수집하여 템플릿을 구축하고, 템플릿에 적합한 풀이계획을 생성할 수 있는 중간 언어인 MOOLang 을 통해 생성된 문제에 대응하는 Python 코드 형태의 풀이와 정답을 생성할 수 있는 데이터 증강 방법을 고안하였다. 이 기법을 통해 생성된 데이터로 기존의 최고 성능 모델인 KoEPT를 통해 학습을 시도해본 결과, 생성된 데이터셋을 통해 모델이 원활하게 데이터셋의 분포를 학습할 수 있다는 것을 확인하였다.