• 제목/요약/키워드: 평가 데이터셋

검색결과 463건 처리시간 0.029초

RFM 기법과 K-Means 알고리즘을 이용한 고객 분류 (A Study on Customer rating using RFM and K-Means)

  • 지현정;신경일;신동일;신동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.803-806
    • /
    • 2017
  • 고객의 행동을 분석하기 위한 RFM(Recency, Frequency, Monetary)은 마케팅 분양에서 널리 쓰이고 있는 시작분석기법이다. 최근 축적되는 데이터가 많아지면서 이를 활용하기 위해 기계학습에 대한 관심이 증가하였다. 따라서 RFM 기법과 다양한 알고리즘을 결합하여 데이터를 분석하고자 하는 시도가 이루어지고 있다. 본 논문에서는 RFM 기법과 대표적인 클러스터링 알고리즘인 k-means를 통하여 고객을 등급화 하는 방법에 대해 실험하였다. 기존의 실험에서는 k값을 8 혹은 9로 지정하는 사례가 많았다. 그러나 본 실험에서는 내부평가방법을 통해 데이터 셋에 대한 최적의 k값을 구해보았고, 실험 결과 사용한 4개의 데이터 셋에서 3이라는 동일한 결과가 나왔다.

글자 수 정보를 이용한 이미지 내 글자 영역 검출 방법 (Scene Text Detection with Length of Text)

  • 김영우;김원준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.177-179
    • /
    • 2022
  • 딥러닝의 발전과 함께 합성곱 신경망 기반의 이미지 내 글자 영역 검출(Scene Text Detection) 방법들이 제안됐다. 그러나 이러한 방법들은 대부분 데이터셋이 제공하는 단어의 위치 정보만을 이용할 뿐 글자 영역이 갖는 고유한 정보인 글자 수는 활용하지 않는다. 따라서 본 논문에서는 글자 수 정보를 학습하여 효과적으로 이미지 내의 글자 영역을 검출하는 모듈을 제안한다. 제안하는 방법은 간단한 합성곱 신경망으로 구성된 이미지 내 글자 영역 검출 모델에 글자 수를 예측하는 모듈을 추가하여 학습을 진행하였다. 글자 영역 검출 성능 평가에 널리 사용되는 ICDAR 2015 데이터셋을 통해 기존 방법 대비 성능이 향상됨을 보였고, 글자 수 정보가 글자 영역을 감지하는 데 유효한 정보임을 확인했다.

  • PDF

R3 : 테이블의 구조 정보를 활용한 오픈 도메인 질의응답 시스템 (R3 : Open Domain Question Answering System Using Structure Information of Tables)

  • 강덕형;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.455-460
    • /
    • 2022
  • 오픈 도메인 질의 응답에서 질의에 대한 답변은 질의에 대한 관련 문서를 검색한 다음 질의에 대한 답변을 포함할 수 있는 검색된 문서를 분석함으로써 얻어진다. 문서내의 테이블이 질의와 관련이 있을 수 있음에도 불구하고, 기존의 연구는 주로 문서의 텍스트 부분만을 검색하는 데 초점을 맞추고 있었다. 이에 테이블과 텍스트를 모두 고려하는 질의응답과 관련된 연구가 진행되었으나 테이블의 구조적 정보가 손실되는 등의 한계가 있었다. 본 연구에서는 테이블의 구조적 정보를 모델의 추가적인 임베딩을 통해 활용한 오픈 도메인 질의응답 시스템인 R3를 제안한다. R3는 오픈 도메인 질의 응답 데이터셋인 NQ에 기반한 새로운 데이터셋인 NQ-Open-Multi를 이용해 학습 및 평가하였으며, 테이블의 구조적 정보를 활용하지 않은 시스템에 비해 더 좋은 성능을 보임을 확인할 수 있었다.

  • PDF

딥러닝 기반의 눈 랜드마크 위치 검출이 통합된 시선 방향 벡터 추정 네트워크 (Deep Learning-based Gaze Direction Vector Estimation Network Integrated with Eye Landmark Localization)

  • 주희영;고민수;송혁
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.180-182
    • /
    • 2021
  • 본 논문은 눈 랜드마크 위치 검출과 시선 방향 벡터 추정이 하나의 딥러닝 네트워크로 통합된 시선 추정 네트워크를 제안한다. 제안하는 네트워크는 Stacked Hourglass Network[1]를 백본(Backbone) 구조로 이용하며, 크게 랜드마크 검출기, 특징 맵 추출기, 시선 방향 추정기라는 세 개의 부분으로 구성되어 있다. 랜드마크 검출기에서는 눈 랜드마크 50개 포인트의 좌표를 추정하며, 특징 맵 추출기에서는 시선 방향 추정을 위한 눈 이미지의 특징 맵을 생성한다. 그리고 시선 방향 추정기에서는 각 출력 결과를 조합하고 이를 통해 최종 시선 방향 벡터를 추정한다. 제안하는 네트워크는 UnityEyes[2] 데이터셋을 통해 생성된 가상의 합성 눈 이미지와 랜드마크 좌표 데이터를 이용하여 학습하였으며, 성능 평가는 실제 사람의 눈 이미지로 구성된 MPIIGaze[3] 데이터 셋을 이용하였다. 실험을 통해 시선 추정 오차는 0.0396 MSE(Mean Square Error)의 성능을 보였으며, 네트워크의 추정 속도는 42 FPS(Frame Per Second)를 나타내었다.

  • PDF

KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류 (Text Classification using Cloze Question based on KorBERT)

  • 허정;이형직;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

임베디드 시스템(Raspberry PI 5) 환경에서의 DistilBERT 구현 및 성능 검증에 관한 연구 (A Study on the Implementation and Performance Verification of DistilBERT in an Embedded System(Raspberry PI 5) Environment)

  • 임채우;김은호;서장원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.617-618
    • /
    • 2024
  • 본 논문에서 핵심적으로 연구할 내용은 기존 논문에서 소개된 BERT-base 모델의 경량화 버전인 DistilBERT 모델을 임베디드 시스템(Raspberry PI 5) 환경에 탑재 및 구현하는 것이다. 또한, 본 논문에서는 임베디드 시스템(Raspberry PI 5) 환경에 탑재한 DistilBERT 모델과 BERT-base 모델 간의 성능 비교를 수행하였다. 성능 평가에 사용한 데이터셋은 SQuAD(Standford Question Answering Dataset)로 질의응답 태스크에 대한 데이터셋이며, 성능 검증 지표로는 EM(Exact Match) Score와 F1 Score 그리고 추론시간을 사용하였다. 실험 결과를 통해 DistilBERT와 같은 경량화 모델이 임베디드 시스템(Raspberry PI 5)과 같은 환경에서 온 디바이스 AI(On-Device AI)로 잘 작동함을 증명하였다.

하이퍼그래프 희소성에 따른 하이퍼그래프 임베딩 방법 성능 평가 (Evaluating the Performance of Hypergraph Embedding Methods According to Hypergraph Sparsity)

  • 정소빈;강윤석;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.641-643
    • /
    • 2024
  • 실세계에서는 두개 이상의 객체들이 서로 관계를 맺고있다. 단 두 객체 간의 관계만 표현하는 그래프와는 달리 여러 객체들 간의 관계를 표현하는 하이퍼그래프는 그룹 상호작용을 잘 표현할 수 있다. 이러한 강점으로 하이퍼그래프를 활용한 응용들이 많이 제안되고 있다. 하이퍼그래프 임베딩은 하이퍼그래프의 구조를 이용하여 노드를 저차원 벡터로 표현하는 방법이다. 이렇게 표현된 벡터들은 노드 분류, 커뮤니티 탐지, 링크예측 등 광범위한 응용에 활용된다. 하지만 하이퍼그래프는 그래프보다 희소성 문제가 훨씬 더 심해 데이터 셋의 희소성이 하이퍼그래프 임베딩 방법의 성능에 큰 영향을 미칠 수 있다. 따라서, 본 논문에서는 희소성에 따른 하이퍼그래프 임베딩 방법들의 성능을 분석하고자 한다. 우리는 8 개의 실세계 데이터셋을 이용한 실험을 통해 데이터가 희소할수록 하이퍼그래프 임베딩 방법들의 성능이 감소하는 것을 확인하였다.

CycleGAN을 활용한 항공영상 학습 데이터 셋 보완 기법에 관한 연구 (A Study on the Complementary Method of Aerial Image Learning Dataset Using Cycle Generative Adversarial Network)

  • 최형욱;이승현;김형훈;서용철
    • 한국측량학회지
    • /
    • 제38권6호
    • /
    • pp.499-509
    • /
    • 2020
  • 본 연구에서는 최근 영상판독 분야에서 활발히 연구되고, 활용성이 발전하고 있는 인공지능 기반 객체분류 학습 데이터 구축에 관한 내용을 다룬다. 영상판독분야에서 인공지능을 활용하여 정확도 높은 객체를 인식, 추출하기 위해서는 알고리즘에 적용할 많은 양의 학습데이터가 필수적으로 요구된다. 하지만, 현재 공동활용 가능한 데이터 셋이 부족할 뿐만 아니라 데이터 생성을 위해서는 많은 시간과 인력 및 고비용을 필요로 하는 것이 현실이다. 따라서 본 연구에서는 소량의 초기 항공영상 학습데이터를 GAN (Generative Adversarial Network) 기반의 생성기 신경망을 활용하여 오버샘플 영상 학습데이터를 구축하고, 품질을 평가함으로써 추가적 학습 데이터 셋으로 활용하기 위한 실험을 진행하였다. GAN을 이용하여 오버샘플 학습데이터를 생성하는 기법은 딥러닝 성능에 매우 중요한 영향을 미치는 학습데이터의 양을 획기적으로 보완할 수 있으므로 초기 데이터가 부족한 경우에 효과적으로 활용될 수 있을 것으로 기대한다.

웹 문서를 위한 개선된 문장경계인식 방법 (Improved Sentence Boundary Detection Method for Web Documents)

  • 이충희;장명길;서영훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.455-463
    • /
    • 2010
  • 본 논문은 다양한 형태의 웹 문서에 적용하기 위해서, 언어의 통계정보 및 후처리 규칙에 기반하여 개선한 문장경계 인식 기술을 제안한다. 제안한 방법은 구두점 생략 및 띄어쓰기 오류가 빈번한 웹문서에 적용하기 위해서 문장경계로 사용될 수 있는 모든 종결어미를 대상으로 학습하여 문장경계 인식을 수행하였다. 또한 문장경계인식 성능을 최대화하기 위해서 다양한 실험을 통해 최적의 자질 및 학습데이터를 선정하였고, 학습데이터에 의존적인 통계모델의 오류를 규칙에 기반 해서 보정하였다. 성능 실험은 다양한 문서별 성능 측정을 위해서 구두점이 주로 문장경계로 사용된 문어체 위주의 평가셋1(신문기사와 블로그 문서)과 구두점 생략 및 띄어쓰기 오류가 빈번한 웹 문서 위주의 평가셋2(웹 사이트의 게시판 글)를 대상으로 성능을 측정하였다. 평가 척도로는 F-measure를 사용하였으며, 기존 연구와 동일하게 구두점만을 문장경계 대상으로 학습한 기본 모델을 만들어서 실험한 결과, 평가셋1에 대해서 96.5%의 성능을 보였지만, 평가셋2에 대해서는 56.7%로 매우 저조한 성능을 보였다. 제안하는 개선 방법은 기본 모델을 웹 문서의 특징을 반영시키도록 자질 및 엔진을 개선시켰고, 최종 모델을 평가셋2로 평가한 결과, 96.3%의 성능을 보여서 39.6%의 성능 향상이 있음을 확인하였다.

협력필터링의 데이터 희소성 해결을 위한 자카드 지수 반영의 유사도 성능 분석 (Performance Analysis of Similarity Reflecting Jaccard Index for Solving Data Sparsity in Collaborative Filtering)

  • 이수정
    • 컴퓨터교육학회논문지
    • /
    • 제19권4호
    • /
    • pp.59-66
    • /
    • 2016
  • 협력 필터링 시스템에서 데이터 희소성 문제의 해결을 위해 공통평가항목수를 반영하는 방법이 연구되었다. 이러한 방법으로 널리 알려진 자카드 지수는 기존의 유사도 척도와 결합되어 성능을 개선할 수 있었다. 그러나, 다양한 데이터 환경에서 여러 유사도 척도들과 각각 결합했을 때의 성능 개선 효과에 대한 분석 연구는 미미하므로, 본 연구는 이에 대한 분석을 목적으로 한다. 우선 자카드 지수 자체를 유사도 척도로 사용했을때 희소한 데이터셋 상에서 전통적인 척도들보다 월등한 예측 성능을 보였고 추천 성능도 매우 우수하였다. 자카드 지수를 결합함으로써 기존 유사도 척도는 데이터 특성에 상관없이 성능이 대개 향상되었고, 특히 코사인 유사도는 희소한 데이터셋에서 가장 큰 향상을 이루었으나, 평균차이 제곱(Mean Squared Difference)의 유사도는 밀집된 데이터셋에서 오히려 저하된 예측 성능을 보였다. 따라서, 자카드 지수를 결합하여 사용하기 위해 데이터 환경 특성과 유사도 척도를 고려할 필요가 있다.