• 제목/요약/키워드: 유사도 모델

검색결과 3,590건 처리시간 0.032초

국내 하천 유사 특성 이해와 유사량 추정을 위한 경험적 모델 개발 (Understanding sediment characteristics and developing empirical model for specific degradation in South Korean river)

  • 강우철
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.133-133
    • /
    • 2023
  • 풍화작용에 의해 생성된 유사는 자연 매체에 의해 이동하고 하천에 도달하기 이전이나 이후 퇴적되며, 해당 과정 중에서 하상변동, 홍수위 상승, 제방 안정성, 두부 침식, 생태환경 변화, 수질문제 등 다양한 침식과 퇴적 관련 문제들이 발생한다. 이러한 유사 문제의 해결과 지속적인 하천관리를 위해서는 유사의 생성, 이송, 그리고 퇴적 과정에 대한 충분한 이해와 정량적인 유사량을 파악하는 것이 필수적이다. 다양한 연구들을 통해서 유사량을 정량적으로 파악하기 위해 여러 종류의 모델과 공식들이 제안 되어져 왔다. 그 중 경험적 모델의 경우 실제로 관측된 값을 기반으로 하며, 복잡한 계산이나 요구하는 자료가 다른 종류의 모델들 보다 적어 쉽게 접근이 가능하다. 이러한 경험적 모델은 유사에 영향을 주는 인자를 규명하거나 특정 유역이나 지역에서 이송 및 퇴적 되는 유사의 출처와 특성을 규명하는 초기 단계에서 유용하게 이용된다. 국내 하천의 경우 여름에 강우가 집중되고 대부분의 국토가 산지로 이루어져있어 상류에서 침식이 주로 발생한다. 또한, 본류 및 하류 지역의 하천은 유사의 퇴적이 주로 일어나서 하천의 형태와 물길이 형성된 충적 하천 형태로 발전 되어있기 때문에 국내 하천에서는 전반적으로 국부적이며 다양한 형태의 유사 관련 문제가 발생한다. 국내 하천에서 발생하는 유사 관련 문제를 해결하기 위해 국내 하천의 유사량을 추정하는 다양한 경험적 모델들이 지속적으로 개발되어왔다. 하지만 과거에 개발된 모델들의 경우 계측 자료가 충분하지 않은 시기에 개발 되었으며, 현재에는 활용하기 불가능하다. 본 연구에서는 국내 하천의 비유사량을 예측하는 동시에 국내 하천의 유사 특성을 이해하기 위해 과거에 국내 하천을 대상으로 비유사량을 추정하기 위해 개발되었던 경험적 모델을 개선하였다. 본 연구를 통해 기존 경험 모델의 경우 주기적인 업데이트가 필요함을 확인하였으며, 개발된 모델의 경우 국내 하천 유사 관리를 위해 미래 유사량 예측하는 등 다양한 방면으로 활용 관리가 가능할 것으로 보인다.

  • PDF

뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들 (Sentence Interaction-based Document Similarity Models for News Clustering)

  • 최성환;손동현;이호창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

우리말샘 사전을 이용한 단어 의미 유사도 측정 모델 개발 (A Word Semantic Similarity Measure Model using Korean Open Dictionary)

  • 김호용;이민호;서동민
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.3-4
    • /
    • 2018
  • 단어 의미 유사도 측정은 정보 검색이나 문서 분류와 같이 자연어 처리 분야 문제를 해결하는 데 큰 도움을 준다. 이러한 의미 유사도 측정 문제를 해결하기 위하여 단어의 계층 구조를 사용한 기존 연구들이 있지만 이는 단어의 의미를 고려하고 있지 않아 만족스럽지 못한 결과를 보여주고 있다. 본 논문에서는 국립국어원에서 간행한 표준국어대사전에 50만 어휘가 추가된 우리말샘 사전을 기반으로 하여 한국어 단어에 대한 계층 구조를 파악했다. 그리고 단어의 용례를 word2vec 모델에 학습하여 단어의 문맥적 의미를 파악하고, 단어의 정의문을 sent2vec 모델에 학습하여 단어의 사전적 의미를 파악했다. 또한, 구축된 계층 구조와 학습된 word2vec, sent2vec 모델을 이용하여 한국어 단어 의미 유사도를 측정하는 모델을 제안했다. 마지막으로 성능 평가를 통해 제안하는 모델이 기존 모델보다 향상된 성능을 보임을 입증했다.

  • PDF

학습 데이터가 없는 모델 탈취 방법에 대한 분석 (Analysis of methods for the model extraction without training data)

  • 권현;김용기;이준
    • 융합보안논문지
    • /
    • 제23권5호
    • /
    • pp.57-64
    • /
    • 2023
  • 딥뉴럴네트워크 모델의 취약점으로 모델 탈취 방법이 있다. 이 방법은 대상 모델에 대하여 여러번의 반복된 쿼리를 통해서 유사 모델을 생성하여 대상 모델의 예측값과 동일하게 내는 유사 모델을 생성하는 것이다. 본 연구에서, 학습 데이터가 없이 대상 모델을 탈취하는 방법에 대해서 분석을 하였다. 생성 모델을 이용하여 입력 데이터를 생성하고 대상 모델과 유사 모델의 예측값이 서로 가까워지도록 손실함수를 정의하여 유사 모델을 생성한다. 이 방법에서 대상 모델의 입력 데이터에 대한 각 클래스의 logit(로직) 값을 이용하여 경사하강법으로 유사 모델이 그것과 유사하도록 학습하는 과정을 갖는다. 실험 환경으로 pytorch 머신러닝 라이브러리를 이용하였으며, 데이터셋으로 CIFAR10과 SVHN을 사용하였다. 대상 모델로 ResNet 모델을 이용하였다. 실험 결과로써, 모델 탈취 방법은 CIFAR10에 대해서 86.18%이고 SVHN에 대해서 96.02% 정확도로 대상 모델과 유사한 예측값을 내는 유사 모델을 생성하는 것을 볼 수가 있었다. 추가적으로 모델 탈취 방법에 대한 고려사항와 한계점에 대한 고찰도 분석하였다.

문서 클러스터를 이용한 재순위화 모델 (Document Reranking Model Using Clusters)

  • 이경순;박영찬;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-87
    • /
    • 1998
  • 본 연구에서는 정보검색시스템의 모델로 문서 클러스터를 이용한 재순위화 모델을 제시한다. 이 방법은 검색단계와 분석단계로 이루어지는데, 검색단계에서는 역화일기법을 이용해서 질의어를 포함하는 문서들을 검색하여 질의어-문서 유사도에 따라 순위를 결정한다. 분석단계에서는 이미 구축된 문서 클러스터를 이용해서 검색되어진 문서들의 분석을 통해 질의어-클러스터 유사도를 계산한다. 질의어-문서 유사도와 질의어-클러스터 유사도를 결합하고, 이 유사도에 기반해서 문서들을 재순위화한다. 이때 이용하는 클러스터는 정적 클러스터이고, 질의어에 따라 서로 다른 클러스터를 생성하는 동적인 뷰를 제공한다. 재순위화 모델은 역화일 기법과 클러스터 분석기법이 가지는 장점을 결합하여 질의어 뿐만 아니라 문서에 포함된 모든 단어들을 분석함으로써 문서의 문맥을 고려할 수 있다. 제안하는 모델은 역화일 기법을 이용한 검색 결과에 비해서 우수한 성능 향상을 나타내고 있다.

  • PDF

이미지 비유사도 기반의 개인화된 하이브리드 의류 추천 모델 (Personalized Hybrid Outfit Recommendation Based on Image Dissimilarity)

  • 양정원;백지혜;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.459-460
    • /
    • 2023
  • 기존의 추천시스템은 상품간 혹은 사용자 간의 유사도를 기반으로 작동한다. 하지만 이는 사용자가 유사한 상품 추천 속에 갇히게 되는 필터 버블의 문제와 추천시스템의 고질적인 문제인 데이터 희소성 문제를 피할 수 없게 된다. 따라서 본 연구에서는 사용자의 취향과 체형 정보를 반영하여 사용자의 평점을 예측하는 협업 필터링 기반 딥러닝 추천과 상품간 비유사성을 고려하여 사용자의 평점을 예측하는 내용 기반 추천을 혼합한 하이브리드 추천 모델을 구축하여 기존 추천시스템의 문제점을 해결하였다. 모델의 성능평가를 위해 인터넷 의류 쇼핑몰을 대상으로 유사한 이미지를 활용한 하이브리드 추천 모델과 NDCG 값을 비교하였고 유사도가 낮은 이미지를 활용한 모델이 더 우수한 성능을 보였다. 이는 다른 제품과는 달리 소비자가 의류를 구매할 경우 이미 구매한 상품과 유사한 상품보다는 유사하지 않은 상품을 구매할 가능성이 크다는 것을 보여준다.

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF

사전학습 언어모델의 Perplexity에 기반한 Zero-shot 어휘 의미 모델 (Zero-shot Lexical Semantics based on Perplexity of Pretrained Language Models)

  • 최형준;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.473-475
    • /
    • 2021
  • 유의어 추천을 구현하기 위해서는 각 단어 사이의 유사도를 계산하는 것이 필수적이다. 하지만, 기존의 단어간 유사도를 계산하는 여러 방법들은 데이터셋에 등장하지 않은 단어에 대해 유사도를 계산 할 수 없다. 이 논문에서는 이를 해결하기 위해 언어모델의 PPL을 활용하여 단어간 유사도를 계산하였고, 이를 통해 유의어를 추천했을 때 MRR 41.31%의 성능을 확인했다.

  • PDF

워드 임베딩의 유사도 클러스터링을 통한 다중 문장 요약 생성 기법 (Multi Sentence Summarization Method using Similarity Clustering of Word Embedding)

  • 이필원;송진수;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.290-292
    • /
    • 2021
  • 최근 인코더-디코더 구조의 자연어 처리모델이 활발하게 연구가 이루어지고 있다. 인코더-디코더기반의 언어모델은 특히 본문의 내용을 새로운 문장으로 요약하는 추상(Abstractive) 요약 분야에서 널리 사용된다. 그러나 기존의 언어모델은 단일 문서 및 문장을 전제로 설계되었기 때문에 기존의 언어모델에 다중 문장을 요약을 적용하기 어렵고 주제가 다양한 여러 문장을 요약하면 요약의 성능이 떨어지는 문제가 있다. 따라서 본 논문에서는 다중 문장으로 대표적이고 상품 리뷰를 워드 임베딩의 유사도를 기준으로 클러스터를 구성하여 관련성이 높은 문장 별로 인공 신경망 기반 언어모델을 통해 요약을 수행한다. 제안하는 모델의 성능을 평가하기 위해 전체 문장과 요약 문장의 유사도를 측정하여 요약문이 원문의 정보를 얼마나 포함하는지 실험한다. 실험 결과 기존의 RNN 기반의 요약 모델보다 뛰어난 성능의 요약을 수행했다.

효소 반응 예측을 위한 유사도 모델 분석 및 구현 (Similarity Model Analysis and Implementation for Enzyme Reaction Prediction)

  • 오주성;나도균;박춘구;정희택
    • 한국전자통신학회논문지
    • /
    • 제13권3호
    • /
    • pp.579-586
    • /
    • 2018
  • 빅데이터에 대한 관심이 증가하면서 데이터로부터 의미 있는 정보의 추출 및 예측은 중요한 연구분야가 되고 있다. 본 연구에서는 신약개발과정에서 필요한 후보약물의 약리적인 활성을 분석하기 위한 데이터를 획득하고 이를 기반으로 의미 있는 예측 분석을 하고자 한다. 신약개발과정에서 대사반응 된 신약후보물질의 약리적인 활성 연구는 신약개발 성공률을 높이기 위해 필요한 단계이다. 본 연구에서, 약용 후보물질의 체내 효소 반응 유무를 예측하기 위해, 유사도 모델들을 적용 분석하였다. 유사도 모델의 군집별 특성을 반영하여 13개의 모델을 선택하여 효소 반응 예측을 수행하였다. 이들 모델들을 민감도와 AUC를 기반으로 비교 평가하였다. 평가 모델들 중, 효소 사이의 반응성을 예측하는데 있어서 Simpson coefficient 모델이 가장 좋은 성능을 보였다. 분석된 유사도 모델 전체를 웹 서비스로 구축하였다. 제안된 모델은 반응정보의 추가에 동적으로 대응 할 수 있으며 신약개발시간 단축 및 비용 절감에 기여할 것으로 여겨진다.