• 제목/요약/키워드: 키워드 학습

검색결과 269건 처리시간 0.03초

KFREB: 생성형 한국어 대규모 언어 모델의 검색 기반 생성 평가 데이터셋 (KFREB: Korean Fictional Retrieval-based Evaluation Benchmark for Generative Large Language Models)

  • 이정섭;손준영;이태민;박찬준;강명훈;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-13
    • /
    • 2023
  • 본 논문에서는 대규모 언어모델의 검색 기반 답변 생성능력을 평가하는 새로운 한국어 벤치마크, KFREB(Korean Fictional Retrieval Evaluation Benchmark)를 제안한다. KFREB는 모델이 사전학습 되지 않은 허구의 정보를 바탕으로 검색 기반 답변 생성 능력을 평가함으로써, 기존의 대규모 언어모델이 사전학습에서 보았던 사실을 반영하여 생성하는 답변이 실제 검색 기반 답변 시스템에서의 능력을 제대로 평가할 수 없다는 문제를 해결하고자 한다. 제안된 KFREB는 검색기반 대규모 언어모델의 실제 서비스 케이스를 고려하여 장문 문서, 두 개의 정답을 포함한 골드 문서, 한 개의 골드 문서와 유사 방해 문서 키워드 유무, 그리고 문서 간 상호 참조를 요구하는 상호참조 멀티홉 리즈닝 경우 등에 대한 평가 케이스를 제공하며, 이를 통해 대규모 언어모델의 적절한 선택과 실제 서비스 활용에 대한 인사이트를 제공할 수 있을 것이다.

  • PDF

유사어 사전을 이용한 자동범주화 모델 개발 (Automatic Text Categorization Model by Synonym Dictionary)

  • 김규환;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.167-172
    • /
    • 2004
  • 기존의 문서분류는 학습문서에 출현하는 자질에 대해 가중치를 계산하여 그 순위에 따라 상위 자질로 구성된 지식베이스를 사용하였다. 그리고 새로운 문서가 들어왔을 때 자질 지식베이스를 근거로 새 문서를 색인하였다. 결국 자질 지식베이스와 정확히 일치하지 않는 키워드는 색인대상에서 제외되는 문제가 있었다. 본 고에서는 이 문제를 해결하기 위하여 분류될 문서의 특징을 나타내는 범주별 자질과 유사한의미를 가지나 형태가 변형되어 기술된 단어에 대하여 유사어 사전을 구축하였으며 이를 통해 새로운 문서가 범주에 할당될 가능성을 높여 자동 문서 범주화 시스템의 성능을 향상시키고자 한다.

  • PDF

멀티 모달 음악 무드 분류 기법 (Multi-Modal Scheme for Music Mood Classification)

  • 최홍구;전상훈;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.259-262
    • /
    • 2011
  • 최근 들어 소리의 세기나 하모니, 템포, 리듬 등의 다양한 음악 신호 특성을 기반으로 한 음악 무드 분류에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 음악 무드 분류의 정확도를 높이기 위하여 음악 신호 특성과 더불어 노래 가사와 소셜 네트워크 상에서의 사용자 평가 등을 함께 고려하는 멀티 모달 음악 무드 분류 기법을 제안한다. 이를 위해, 우선 음악 신호 특성에 대해 퍼지 추론 기반의 음악 무드 추출 기법을 적용하여 다수의 가능한 음악 무드를 추출한다. 다음으로 음악 가사에 대해 TF-IDF 기법을 적용하여 대표 감정 키워드를 추출하고 학습시킨 가사 무드 분류기를 사용하여 가사 음악 무드를 추출한다. 마지막으로 소셜 네트워크 상에서의 사용자 태그 등 사용자 피드백을 통한 음악 무드를 추출한다. 특정 음악에 대해 이러한 다양한 경로를 통한 음악 무드를 교차 분석하여 최종적으로 음악 무드를 결정한다. 음악 분류를 기반한 자동 음악 추천을 수행하는 사용자 만족도 평가 실험을 통해서 제안하는 기법의 효율성을 검증한다.

퍼지추론과 코호넨 신경망을 사용한 뉴스 필터링 시스템의 분류 능력 (Classification Performance of News Filtering System by Fuzzy Inference and Kohonen Network)

  • 김종완;조규철;김병만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.291-294
    • /
    • 2003
  • 많은 양의 유즈넷 뉴스 중에서 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 하지만 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 본 연구에서는 다양한 뉴스그룹들 중에서 사용자와 취향이 가장 유사한 뉴스그룹을 코호넨 신경망을 이용하여 분류하는 서비스를 제공한다. 신경망을 학습시키기 위한 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표 용어들을 선택한다. 뉴스 필터링 시스템의 분류 성능을 평가하기 위하여 유클리드 거리 면에서 비교한 결과, 제안한 방법의 유용성을 확인할 수 있었다.

  • PDF

퍼지 추론을 이용한 소수 문서의 대표 키워드 추출에 대한 유용성 평가 (Evaluation on the usefulness of Representative Keyword Extraction from Few Documents through Fuzzy Inference)

  • 노순억;김병만;신윤식;임은기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.247-249
    • /
    • 2002
  • 본 논문은 퍼지 추론을 이용하여 소수문서로부터의 대표 용어들을 추출하고 가중치를 부여한 기존 방법의 유용성을 평가하고자 GIS (Generalized Instance Set) 알고리즘에 이를 적용시켜 보았다. GIS 는 학습 문서 집합에 대한 플러스터링 과정을 통해 문서 그룹들을 생성하고 이들에 대한 선형 분류기들을 유도한 뒤 k-NN 알고리즘을 적용하는 방법이다. GIS의 일반화(generalization) 과정에 Rocchio, Widrow-Hoff 및 퍼지 추론을 이용한 방법을 적용시켜 문서 분류 성능을 비교하였다. 긍정적 문서 집합에 대한 실험에서 비교적 우수한 성능 향상을 보여줌으로써 퍼지 추론을 이용한 방법의 유용성을 확인 할 수 있었다.

  • PDF

에이전트에 기반한 탈놀이 안내 시스템의 설계 및 구현 (Design and Implementation of an Agent-Based Guidance System for Mask Dances)

  • 강오한
    • 한국산업정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.40-45
    • /
    • 2002
  • 본 논문에서는 웹을 통하여 탈놀이에 관한 멀티미디어 정보를 제공하는 에이전트 기반의 탈놀이안내 시스템을 설계하고 구현한다. 사용자가 요구사항을 입력하면 클라이언트는 서버에게 이를 전송하고, 서버는 입력된 조건을 만족하는 탈놀이의 동영상 및 안내음성을 웹을 통하여 클라이언트에게 전송하여 상영한다. 본 논문에서는 에이전트 기반의 안내 시스템을 개발하기 위하여 인터페이스 에이전트, 사용자 모델링 에이전트, 중재 에이전트, 자료관리 에이전트를 설계하고 구현하였다. 또한 개발한 탈놀이 안내 시스템은 멀티미디어 데이터를 생성하는 기본기능 외에도 키워드를 이용한 검색 학습 등의 다양한 기능을 제공한다.

  • PDF

형태소분석과 인공신경망을 활용한 SNS 기반 재난알림시스템의 정확도 향상 (Improving accuracy of SNS-based Disaster Notification System using Morphological Analysis and Artificial Neural Network)

  • 이동호;강석민;김수현;조성재;박찬혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.881-884
    • /
    • 2017
  • 스마트 디바이스가 대중화 되면서 각종 사건 사고에 대한 데이터가 SNS 상에 실시간으로 업데이트 된다. SNS의 이런 특성을 이용하여 이용자 개개인이 사고감지센서의 역할을 하면 빠른 사고감지가 가능하다. 하지만 기존 연구들은 단순히 키워드의 출현 빈도로 사고를 판단하는 방식과, 문법파괴 요소가 많은 트위터의 특성으로 인해 정확성에서 한계를 보인다. 본 연구에서는 사고감지의 정확도를 높이기 위해 형태소로 분석한 트윗을 벡터화하여 다층퍼셉트론신경망으로 학습시키는 모델을 구현하였다. 연구 결과 일반명사로 이루어진 40개의 단어를 사용했을 때 가장 높은 82.58%의 정확도를 얻었다.

Unicode 기반 다국어 명함인식기 개발 (A Development of Unicode-based Multi-lingual Namecard Recognizer)

  • 장동협;이재홍
    • 정보처리학회논문지B
    • /
    • 제16B권2호
    • /
    • pp.117-122
    • /
    • 2009
  • 명함을 이용한 전세계적인 고객 관리 시스템을 구축하기 위해 다국어 명함인식기를 개발하였다. 먼저 다양한 언어의 문자인식 및 학습을 위해 Unicode 기반 문자 이미지 DB를 구축하였으며, 다양한 입력 장치를 통해 획득한 명함 영상에 대하여 정확한 데이터를 얻기 위한 다양한 컬러영상 처리 기술이 적용되었다. 다음에 다층 퍼셉트론 신경망, 언어 유형별 개별 문자인식, 각 언어별 명함에 사용된 필드별 키워드 DB를 이용한 후처리를 적용하여 명함 인식률을 향상시켰다.

통계적 결정계수를 이용한 유즈넷 뉴스 필터링 (Usenet News Filtering by Using Statistical Coefficient of Determination)

  • 김종완;김희재;김병만
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2003년도 추계공동학술대회
    • /
    • pp.747-752
    • /
    • 2003
  • 많은 양의 유즈넷 뉴스 중에서 사용자가 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 그러나 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 본 연구에서는 다양한 뉴스그룹들 중에서 사용자와 취향이 가장 유사한 뉴스그룹을 분류하여 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표용어들을 선택한다. 이에 본 연구에서는 통계적인 결정계수를 도입하여 불필요한 차원을 제거한 후 신경망을 학습시키는 새로운 방법을 제안한다. 제안된 방법은 모든 차원을 활용할 때 보다 클러스터간 거리와 표준편차, 클러스터간 거리의 척도 면에서 우수한 분류 성능을 보여줌을 확인하였다.

  • PDF

단어 빈도 가중치를 이용한 자동 문서 분류 (Automatic Document Classification Based on Word Frequency Weight)

  • 노현아;김민수;김수형;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.581-584
    • /
    • 2002
  • 본 논문에서는 범주 내의 키워드 빈도에 의해 문서를 자동으로 분류하는 방법을 제안한다. 문서 자동분류 시스템에서는 문서와 문서를 비교하기 위해서 분류 자질(feature)에 적절한 가중치를 부여할 필요가 있다. 본 논문에서는 수작업으로 분류된 신문기사를 이용하여 자질의 가중치를 학습하는 방법을 사용하였다. 기존의 용어가중치 방법은 각 범주별로 가장 많이 등장한 명사부터 순서대로 추출하여 가중치를 주는 방법을 사용한 것에 비해 본 논문에서는 명사의 출현 횟수뿐만 아니라 출현위치를 함께 고려하여 가중치를 계산하는 방법을 제안한다. 또한 단어 빈도 가중치 방법의 변형된 방식을 사용함으로써 기존의 단어 빈도 가중치 방법과 비교하여 분류 정확도 측면에서 9%이상 성능 향상을 있음을 보인다.

  • PDF