• 제목/요약/키워드: 전북

검색결과 3,575건 처리시간 0.034초

유사한 질의쌍의 어휘 번역확률을 이용한 질의 분류 (Query Classification Based on Translation Probabilities of Similar Query Pair)

  • 김설영;장계훈;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.443-446
    • /
    • 2010
  • 질의 분류에서 어휘의 다양한 표현으로 인한 어휘 불일치문제는 성능저하의 주요 원인이다. 본 논문에서는 야후!앤써 질의응답 아카이브를 이용해서 같은 카테고리의 질의-질의쌍들에 대해 어휘-어휘 번역확률을 계산하는 방법을 제안한다. 정보검색에서 우수한 성능을 보인 어휘 사이의 번역확률을 반영하는 번역기반 언어모델이 질의 분류에서 유효함을 확인하였고 언어모델과의 비교실험을 통해 성능향상을 보였다. 어휘관계를 측정하는 방법에서 번역확률 계산방법에 따른 성능측정에서 전체 질의-대답쌍들에 대해 번역확률을 계산하는 것보다 같은 카테고리에 속하는 질의-질의쌍들에 대해 번역확률을 계산하는 것이 분류를 위해 더 좋은 번역확률임을 확인하였다.

핵심 질의 어휘와 근접도를 이용한 핵심 문서 선택 기법 (Core Document Selecting Method Using Core Query Term and Proximity)

  • 장계훈;김설영;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.463-466
    • /
    • 2010
  • 길이가 긴 질의에는 검색에 불필요한 단어가 포함되어 있어서 사용자가 원하지 않는 문서가 검색결과에 포함된다. 질의에서 불필요한 단어를 제거하고 핵심 단어만 선택한다면 검색에 효율을 높일 수 있다. 본 논문에서는 질의 조합을 기반한 클러스터를 이용해 핵심 단어를 찾고 핵심 단어와의 근접도를 이용해 상위 문서의 정확율을 향상시키는 기법을 제안한다. 실험은 뉴스 집합인 TREC AP 문서를 검색한 결과를 제안한 알고리즘으로 재순위화하여 초기 검색 결과의 상위 문서의 정확율을 비교함으로써 제안된 알고리즘의 유효성을 검증한다.

FiD를 이용한 멀티 모달 오픈 도메인 질의 응답 (Fusion-in-Decoder for Open Domain Multi-Modal Question Answering)

  • 박은환;이성민;서대룡;전동현;강인호;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2022
  • 오픈 도메인 질의 응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 과업으로서 질문과 관련있는 지식을 찾는 "검색" 단계를 필요로 한다. 최근 이미지, 테이블 등의 검색을 요구하는 멀티 모달 ODQA에 대한 연구가 많이 진행되었을 뿐만 아니라 산업에서의 중요도 또한 높아지고 있다. 본 논문은 여러 종류의 멀티 모달 ODQA 중에서도 테이블 - 텍스트 기반 멀티 모달 ODQA 데이터 집합으로 Fusion-in-Decoder (FiD)를 이용한 멀티 모달 오픈 도메인 질의 응답 연구를 제안하며 베이스라인 대비 최대 EM 20.5, F1 23.2 향상을 보였다.

  • PDF

R2FID: Joint Reranker기반 Fusion-In-Decoder를 이용한 오픈 도메인 테이블 질의 응답 (R2FID: Joint Reranker in Fusion-In-Decoder for Open Domain Question Answering over Tables)

  • 이성민;박은환;나승훈;서대룡;전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2022
  • 오픈 도메인 질의 응답(Open Domain Question Answering)은 주어진 질문에 대한 단서가 주어지지 않은 환경에서 정답을 도출해 내는 어려운 문제이다. 최근 테이블 데이터와 같은 구조화된 데이터에서의 질의응답 시스템에 대한 중요도가 점차 높아지면서, 본 논문에서는 위키피디아에 등장하는 테이블들을 대상으로 한국어 테이블 오픈 도메인 질의 응답 시스템을 구성하기로 한다. 또한, 테이블 검색의 한계를 보완하기 위해 Joint Reranker 기반 Fusion-In-Decoder를 제안하고 적용하여 질의응답 Task에서 베이스라인에 대비하여 EM 3.36, F1-Score 3.25 향상을 이루어냈다.

  • PDF

N-Best Re-ranking에 기반한 한국어 음성 인식 성능 개선 (N-Best Reranking for Improving Automatic Speech Recognition of Korean)

  • 이정;서민택;나승훈;나민수;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.442-446
    • /
    • 2022
  • 자동 음성 인식(Automatic Speech Recognition) 혹은 Speech-to-Text(STT)는 컴퓨터가 사람이 말하는 음성 언어를 텍스트 데이터로 전환하는 일련의 처리나 기술 등을 일컫는다. 음성 인식 기술이 다양한 산업 전반에 걸쳐 적용됨에 따라 높은 수준의 정확도와 더불어 다양한 분야에 적용할 수 있는 음성 인식 기술에 대한 필요성이 점차 증대되고 있다. 다만 한국어 음성 인식의 경우 기존 선행 연구에 비해 예사말/높임말의 구분이나 어미, 조사 등의 인식에 어려움이 있어 음성 인식 결과 후처리를 통한 성능 개선이 중요하다. 따라서 본 논문에서는 N-Best 음성 인식 결과가 구성되었을 때 Re-ranking을 통해 한국어 음성 인식의 성능을 개선하는 모델을 제안한다.

  • PDF

대표 경로를 이용한 클러스터 기반 라우팅 프로토콜 설계 (Design of cluster based routing protocol using representative path)

  • 김아름;장유진;장재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.75-76
    • /
    • 2009
  • 무선 센서 노드는 한정된 자원을 가지기 때문에 에너지 효율성을 높이는 것이 필수적이다. 이를 위해서 통신 메시지를 감소시킬 수 있는 클러스터 기반 라우팅 기법이 연구되었다. 하지만 기존 연구들은 클러스터 헤더가 임의로 선정되기 때문에 헤더 노드의 위치가 편중될 수 있어 비효율적이다. 이를 해결하기 위하여 본 논문에서는 홉(hop) 수 기반의 대표 경로를 생성하여, 분산된 클러스터 헤더를 선정하여 클러스터를 구성하고, 클러스터 헤더간 멀티 홉(multihop)을 구성하는 라우팅 프로토콜을 설계한다. 대표 경로를 통해 클러스터 헤더의 위치 및 영역이 균일하게 분포되도록 선출하고, 싱크 노드의 방향을 인식함으로써 우회하지 않는 효율적인 경로를 구성한다.

연속적인 위치기반 서비스를 지원하는 분산 그리드 기반 Cloaking 영역 설정 기법 설계 (Distributed Grid-based Cloaking Area Creation Scheme supporting Continuous Location-Based Services)

  • 이아름;김형일;장재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.697-698
    • /
    • 2009
  • 모바일 기기 및 무선 통신 기술의 발달로 인하여 위치 기반 서비스의 이용이 확산되었다. 그러나 이와 같이 사용자의 정확한 위치정보를 가지고 LBS 서버에 서비스를 요청하는 것은 심각한 개인 정보 누출의 위협이 될 수 있다. 따라서 안전하고 편리한 위치기반 서비스 사용을 위한 개인 정보 보호 방법이 요구된다. 이를 위해 본 논문에서는 연속적인 위치기반 서비스를 지원하는 분산 그리드 기반 Cloaking 영역 설정 기법을 설계한다. 설계하는 기법은 분산 환경에서 연속적인 서비스를 지원하기 위해 Cloaking 영역 설정 시 필요한 정보를 분산 유지하고, 이동 확률 매트릭스 생성 및 확률 계산을 분산적으로 수행한다. 마지막으로는 모바일 사용자 사이에 발생하는 통신비용을 감소시키기 위해, 대표 노드는 해당 클러스터에서 떠난 사용자에 대한 정보를 유지하고 클러스터 내 부분 확률값의 합산시 병합노드를 사용한다.

문서분류에서 SVD(Singular Value Decompotion)기법에 기초한 효율적인 특징 선택방법 연구 (An Efficient Selection Method for Document Classification Based On Singular Value Decompostion)

  • 리청화;변동률;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.321-322
    • /
    • 2009
  • 본 논문에서는 문서분류를 위하여 SVD(Singular Value Decomposition)을 이용한 효율적인 특징 선택 방법을 제안한다. 분류기 알고리즘은 문서를 효과적으로 분류할 수 있지만 분류기에 입력되는 특징공간이 너무 크다는 단점이 있다. SVD를 이용하면 입력 데이터의 차원을 줄여줄 수 있으며 문서와 문서 사이의 관계성을 내포하는 벡터공간을 만들 수 있다. 따라서 SVD를 이용하면 문서분류의 시간과 효율을 동시에 증가시킬 수 있다. 본 논문에서는 실험을 통하여 SVD을 이용한 문서분류 시스템이 입력데이터에 대한 차원을 감소시키면서 훌륭한 분류 결과를 얻을 수 있음을 보여준다.

유전자 알고리즘을 이용한 문서 클러스터링 연구 (A Study on Clustering using Genetic Algorithm)

  • 쏭웨이;최임천;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.325-326
    • /
    • 2009
  • 본 논문에서는 효율적인 인공지능 알고리즘인 유전자 알고리즘(GA)을 이용한 문서 클러스터링 시스템을 제안한다. 일반적으로 클러스터링 알고리즘에 가장 많이 사용되는 K-Means는 임의로 결정되는 초기 센트로이드 벡터에 따라 그 성능이 많이 달라지는 것을 볼 수 있다. 이에 본 논문에서는 유전자 알고리즘을 이용하여 안정적이면서도 높은 성능을 보여주는 클러스터링 알고리즘을 개발하였다. 제안한 클러스터링 알고리즘의 성능 평가를 위하여 HANTEC 2.0과 문서 범주화 집단 데이터 셋을 사용하였다. 제안된 방법은 효율적이고 빠른 K-Means를 이용한 클러스터링 알고리즘에 비하여 훨씬 뛰어난 성능을 보였다.

비선형 시스템의 신경회로망을 이용한 모델링 기법 (Nonlinear System Modeling Using a Neural Networks)

  • 정길도;노태수;홍동표
    • 한국정밀공학회지
    • /
    • 제13권12호
    • /
    • pp.22-29
    • /
    • 1996
  • In this paper the nodes of the multilayer hidden layers have been modified for modeling the nonlinear systems. The structure of nodes in the hidden layers is built with the feedforward, the cross talk and the recurrent connections. The feedforward links are mapping the nonlinear function and the cross talks and the recurent links memorize the dynamics of the system. The cross talks are connected between the modes in the same hidden layers and the recurrent connection has self feedback, and these two connections receive one time delayed input signals. The simplified steam boiler and the analytic multi input multi output nonlinear system which contains process noise have been modeled using this neural networks.

  • PDF