• 제목/요약/키워드: passage retrieval

검색결과 22건 처리시간 0.02초

오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구 (A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering)

  • 정민지;이새벽;김영준;허철훈;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

한글문서 분류용으로 이용할 복합어로 구성된 분야연상어의 추출법 (An Extraction Algorithm of Compound Field-associated Terms for Korean Document Classifications)

  • 이상곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.636-649
    • /
    • 2005
  • 분야연상어는 어휘자체가 분야정보를 가지므로 인간이 분야를 인지할 때와 유사하게 문서의 분야를 판단한다. 한국어의 경우 180분야로 분류된 약 IS,000개의 문서뱅크를 수집하여 구축 $\cdot$실험한 결과 88,782개의 단일 분야연상어가 8,405개로 전체의 약 9$\%$로 압축되며, 재현율 0.77 이상(평균 0.85), 정확률 0.90 이상(평균 0.94)의 높은 추출 정밀도를 얻었다. 구축한 분야연상어를 문서분류의 초기결정에 적용하여 인간에 의한 분야결정과 비교한 결과 약 90$\%$이상의 정답률을 얻었다. 연구결과를 문서분류의 초기단계에 관한 기초연구로 이용하고, 다언어(multilingual) 간의 문서검색에 적용하여 다국어 정보검색에 대한 기초 연구로 이용할 수 있다.

연상정보를 이용한 단락분할 방법 (A Passage Retrieval Method by Using Field-Associated Information)

  • 홍성옥;이상곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.497-500
    • /
    • 2003
  • 문서에 여러 가지 화제가 혼합되어 있는 문서에서 화제의 실마리 부분을 특정화하여 각 화제별 단락을 추출하는 기술은 정보검색 분야에서 중요한 역할을 담당하는 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어는 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야변로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있다.

  • PDF

분야 연상어를 이용한 패시지검색 방법 (Passage Retrieval Using Field Reminding Words)

  • 장기철;정규철;이윤정;박기홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1175-1178
    • /
    • 2002
  • 인터넷의 보급에 의해, 전자화된 문서가 대량으로 유통되게 되었다. 이에 따라, 대량의 전자화 문서로부터 검색 요구에 해당하는 문서를 검색한 기술이 요구되고 있다. 문서 검색 시 복수의 화제나 분야가 혼재한 문서로는, 검색 요구에 해당하는 내용이 문서의 일부분에 존재하는 경우가 대부분이다. 이처럼 문서전체를 검색 대상으로 하는 것이 아니라 검색 요구에 일치한 일부만을 검색한 패시지 기술이 주목되고 있다. 본 논문에서는 패시지가 있는 분야의 화제에 관하여 쓰여진 정리로서 파악하고 부야 연상어를 이용하고, 패시지를 결정한 방법을 제안하였다. 결정된 패시지와 미리 사람에 의하고 결정한 패시지가 어느 정도 일치하고 있는지를 비교하여 제안 방법의 유효성을 평가한 결과 적합율이 약 80%, 평균 재현율이 약 67%되어, 유효성을 확인할 수 있었다.

  • PDF

의미론적 feature 공간상에서의 negative sampling을 통한 검색 성능 개선 (Improving passage retrieval via negative sampling from semantic feature space)

  • 이정두;홍범석;최원석;한영섭;전병기;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.146-149
    • /
    • 2022
  • 최근 검색 태스크에서는 좋은 negative sample을 얻는 방법론들이 적용되어 큰 성능 향상을 이뤘다. 하지만 좋은 negative sample 대부분의 방법들은 큰 계산 비용이 든다. 따라서 본 논문에서는 계산 비용이 적고 효과적인 negative sample을 얻기 위해 Mixed Gaussian Recurrent Chain (MGRC) sampling을 사용하여 feature 공간상에서 의미론적으로 유사한 feature를 얻고 이를 negative sample로 활용하여 기존 baseline 모델보다 좋은 성능을 얻었다.

  • PDF

'질문-단락'간 주의 집중을 이용한 검색 모델 재순위화 방법 (Retrieval Model Re-ranking Method using 'Question-Passage' Attention)

  • 장영진;김학수;지혜성;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.411-414
    • /
    • 2019
  • 검색 모델은 색인된 문서 내에서 입력과 유사한 문서를 검색하는 시스템이다. 최근에는 기계독해 모델과 통합하여 질문에 대한 답을 검색 모델의 결과에서 찾는 연구가 진행되고 있다. 위의 통합 모델이 좋은 결과를 내기 위해서는 검색 모델의 높은 성능이 요구된다. 따라서 본 논문에서는 검색 모델의 성능을 보완해 줄 수 있는 재순위화 모델을 제안한다. 검색 모델의 결과 후보를 일괄적으로 입력받고 '질문-단락'간 주의 집중을 계산하여 재순위화 한다. 실험 결과 P@1 기준으로 기존 검색 모델 성능대비 5.58%의 성능 향상을 보였다.

  • PDF

정보학연구의 25년간 동향 분석 : JASIST 논문을 중심으로 (Longitudinal Analysis of Information Science Research in JASIST 1985-2009)

  • 서은경
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.129-155
    • /
    • 2010
  • 정보공학의 발전이 급속적으로 또 다양한 방향으로 전개됨에 따라 이를 기반으로 하는 정보학분야의 연구 역시 역동적으로 변화하게 되었다. 본 연구의 목적은 25년간 정보학분야 연구동향의 변화를 주제별로 조사하고 그 중 가장 연구가 많이 이루어진 정보학 핵심분야의 연구경향과 그 변화를 세밀하게 살펴보는 데 있다. 이를 위하여 1985년부터 2009년간 JASIST에 실린 2,304 연구논문의 주제를 조사한 후 5년을 한 단위로 보고 다섯 기간 동안의 연구 동향의 변화를 분석하였다. 그 결과, 가장 연구가 많이 이루어진 분야는 '정보검색'이며 25년간 계속적으로 정보학자들이 가장 많이 관심을 가진 분야였다. 다음으로 '계량정보학'은 최근에 많은 연구가 이루어진 것으로 나타났고, '정보이용과 이용자'는 계속적으로 연구되는 분야인 반면, '네트워크와 정보기술'과 '출판과 서비스'는 80년대에는 많은 연구가 이루어졌으나 최근 들어 이에 대한 연구가 줄어든 것으로 나타났다. 특히 정보검색 분야는 검색이론 및 탐색전략 연구에서 멀티미디어 및 의미처리, 웹검색 관련 연구로, 계량정보학 분야는 학술적 커뮤니케이션의 종적 또는 횡적 현상을 기술하는 연구에서 학술적 커뮤니케이션의 문맥적 특징을 찾아내는 연구로 변환되고 있다. 또한 정보이용 분야에서는 정보검색과 관련된 이용자의 정보추구 행태 및 인지 모형을 분석하는 연구가 최근에 주를 이루고 있음이 밝혀졌다.

질의응답문서 검색에서 문서구조를 이용한 질의재생성에 관한 연구 (Query Reconstruction for Searching QA Documents by Utilizing Structural Components)

  • 최상희;서은경
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.229-243
    • /
    • 2006
  • 질의응답문서는 이용자가 입력한 질의, 질의설명, 답을 아는 다른 이용자가 제시한 응답으로 구성된 구조화된 문서로서, 최근 웹 문서처럼 검색이 일반적으로 일어나고 있는 정보원이다. 이 연구에서는 질의응답문서의 구조적 특성을 기반으로 질의를 재생성하여 질의응답문서의 검색효율을 향상시키고자 하였다. 질의재생성 실험에서 성능이 비교된 문서구조는 질의와 응답내용이다. 질의를 기반으로 질의를 재생성하는 방식에서는 질의응답검색 시스템에 입력되어 있는 유사질의를 활용하여 클러스터링하는 기법이 적용되었다. 응답정보를 기반으로 질의를 재생성하는 방식에서는 가장 유사한 기존 질의에 대해 응답된 내용에서 단락검색으로 적합한 문장들을 선정하여 활용하는 기법이 적용되었다. 실험 결과 응답정보를 활용하여 질의를 재생성하는 방식이 정확률은 유지하면서 더 다양한 검색결과를 제공하는 것으로 나타났다.

Isolation and in vitro culture of primary cell populations derived from ovarian tissues of the rockfish, Sebastes schlegeli

  • Ryu, Jun Hyung;Kim, Hak Jun;Bae, Seung Seob;Jung, Choon Goo;Gong, Seung Pyo
    • Fisheries and Aquatic Sciences
    • /
    • 제19권2호
    • /
    • pp.9.1-9.7
    • /
    • 2016
  • This study was conducted to identify the general conditions for the isolation and in vitro culture of ovary-derived cells in rockfish (Sebastes schlegeli). The effects of three different enzymes on cell retrieval from ovarian tissues were evaluated first, and then the ovary-dissociated cells were cultured under various culture conditions, with varying basal media and culture temperatures, addition of growth factors, and/or culture types. We found that collagenase type I treatment was effective for cell isolation from ovarian tissues. From a total of 42 trials to evaluate the effects of basal media and culture temperatures on cell culture of ovary-dissociated cells, we observed that Leibovitz's L15 medium was more supportive than Dulbecco's modified Eagle's medium for culture, and the cells could grow at all three temperatures tested, 15, 20, and $25^{\circ}C$, at least up to passage 2. However, growth factor addition did not improve cell growth. Introduction of suspension culture after monolayer culture expanded the culture period significantly more than did monolayer culture alone. Our results may provide a basis for developing an in vitro system for S. schlegeli germline cell culture, which will ultimately lead to improvement of the species.

백과사전 질의응답 시스템을 위한 의미적 단락 생성 및 검색 기법 (Method of Semantic Passage Generation and Retrieval for Encyclopedia QA system)

  • 이충희;오효정;김현진;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.159-166
    • /
    • 2004
  • 본 논문에서는 질의응답 시스템에서 질문의 주제와 개념적으로 일치하는 단락으로부터 정보를 추출할 경우에 보다 정확한 정답을 추출할 수 있다는 가정 하에 문장 주제를 활용한 의미적 단락 생성 및 검색 기법을 제안한다. 문장주제란 백과사전 문서 집합에서 공통으로 기술하는 내용이나 자주 언급하고 있는 사건 혹은 개념들의 집합을 의미하는 것으로, 주제별로 응집된 문장들로 재구성된 단락을 의미적 단락이라고 정의한다. 제안된 방법의 성능을 평가하기 위해 의미적 단락의 신뢰도를 파악하고, 백과사전 본문을 3문장 단위로 잘라서 고정길이 단락을 만든 후 의미적 단락의 검색결과와 비교하였다. 평가척도로는 TREC의 역순위평균(MRR : Mean Reciprocal Rank)과 상위 5개 단락 안에 정답유무를 측정하는 사용자 정답만족도를 사용하였다. ETRI 평가셋을 대상으로 한 실험 결과, 주제를 이용한 의미적 단락 검색 성능이 고정길이 단락 검색보다 우수함을 알 수 있었다.

  • PDF