• 제목/요약/키워드: 대학정보시스템

검색결과 1,883건 처리시간 0.029초

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

소셜 네트워크 분석 기법을 활용한 협업필터링의 특이취향 사용자(Gray Sheep) 문제 해결 (Resolving the 'Gray sheep' Problem Using Social Network Analysis (SNA) in Collaborative Filtering (CF) Recommender Systems)

  • 김민성;임일
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.137-148
    • /
    • 2014
  • 상품 검색시간의 단축과 쇼핑에 투입되는 노력의 감소 등, 온라인 쇼핑이 주는 장점에 대한 긍정적인 인식이 확산되면서 전자상거래(e-commerce)의 중요성이 부각되는 추세이다. 전자상거래 기업들은 고객확보를 위해 다양한 인터넷 고객관계 관리(eCRM) 활동을 전개하고 있는데, 개인화된 추천 서비스의 제공은 그 중 하나이다. 정확한 추천 시스템의 구축은 전자상거래 기업의 성과를 좌우하는 중요한 요소이기 때문에, 추천 서비스의 정확도를 높이기 위한 다양한 알고리즘들이 연구되어 왔다. 특히 협업필터링(collaborative filtering: CF)은 가장 성공적인 추천기법으로 알려져 있다. 그러나 고객이 상품을 구매한 과거의 전자상거래 기록을 바탕으로 미래의 추천을 하기 때문에 많은 단점들이 존재한다. 신규 고객의 경우 유사한 구매 성향을 가진 고객들을 찾기 어렵고 (Cold-Start problem), 상품 수에 비해 구매기록이 부족할 경우 상관관계를 도출할 데이터가 희박하게 되어(Sparsity) 추천성능이 떨어지게 된다. 취향이 독특한 사용자를 뜻하는 'Gray Sheep'에 의한 추천성능의 저하도 그 중 하나이다. 이러한 문제인식을 토대로, 본 연구에서는 소셜 네트워크 분석기법 (Social Network Analysis: SNA)과 협업필터링을 결합하여 데이터셋의 특이 취향 사용자 (Gray Sheep) 문제를 해소하는 방법을 제시한다. 취향이 독특한 고객들의 구매데이터를 소셜 네트워크 분석지표를 활용하여 전체 데이터에서 분리해낸다. 그리고 분리한 데이터와 나머지 데이터인 두 가지 데이터셋에 대하여 각기 다른 유사도 기법과 트레이닝 셋을 적용한다. 이러한 방법을 사용한 추천성능의 향상을 검증하기 위하여 미국 미네소타 대학 GroupLens 연구팀에 의해 수집된 무비렌즈 데이터(http://movielens.org)를 활용하였다. 검증결과, 일반적인 협업필터링 추천시스템에 비하여 이 기법을 활용한 협업필터링의 추천성능이 향상됨을 확인하였다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

기계학습을 이용한 수출신용보증 사고예측 (The Prediction of Export Credit Guarantee Accident using Machine Learning)

  • 조재영;주지환;한인구
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 2021
  • 2020년 8월 정부는 한국판 뉴딜을 뒷받침하기 위한 공공기관의 역할 강화방안으로서 각 공공기관별 역량을 바탕으로 5대 분야에 걸쳐 총 20가지 과제를 선정하였다. 빅데이터(Big Data), 인공지능 등을 활용하여 대국민 서비스를 제고하고 공공기관이 보유한 양질의 데이터를 개방하는 등의 다양한 정책을 통해 한국판 뉴딜(New Deal)의 성과를 조기에 창출하고 이를 극대화하기 위한 다양한 노력을 기울이고 있다. 그중에서 한국무역보험공사(KSURE)는 정책금융 공공기관으로 국내 수출기업들을 지원하기 위해 여러 제도를 운영하고 있는데 아직까지는 본 기관이 가지고 있는 빅데이터를 적극적으로 활용하지 못하고 있는 실정이다. 본 연구는 한국무역보험공사의 수출신용보증 사고 발생을 사전에 예측하고자 공사가 보유한 내부 데이터에 기계학습 모형을 적용하였고 해당 모형 간에 예측성과를 비교하였다. 예측 모형으로는 로지스틱(Logit) 회귀모형, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 심층신경망을 사용하였고, 평가 기준으로는 전체 표본의 예측 정확도 이외에도 표본별 사고 확률을 구간으로 나누어 높은 확률로 예측된 표본과 낮은 확률로 예측된 경우의 정확도를 서로 비교하였다. 각 모형별 전체 표본의 예측 정확도는 70% 내외로 나타났고 개별 표본을 사고 확률 구간별로 세부 분석한 결과 양 극단의 확률구간(0~20%, 80~100%)에서 90~100%의 예측 정확도를 보여 모형의 현실적 활용 가능성을 보여주었다. 제2종 오류의 중요성 및 전체적 예측 정확도를 종합적으로 고려할 경우, XGBoost와 심층신경망이 가장 우수한 모형으로 평가되었다. 랜덤포레스트와 LightGBM은 그 다음으로 우수하며, 로지스틱 회귀모형은 가장 낮은 성과를 보였다. 본 연구는 한국무역보험공사의 빅데이터를 기계학습모형으로 분석해 업무의 효율성을 높이는 사례로서 향후 기계학습 등을 활용하여 실무 현장에서 빅데이터 분석 및 활용이 활발해지기를 기대한다.

지능형 검색엔진을 위한 색상 질의 처리 방안 (Color-related Query Processing for Intelligent E-Commerce Search)

  • 홍정아;구교정;차지원;서아정;여운영;김종우
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.109-125
    • /
    • 2019
  • 지능형 전자상거래 검색 엔진에 대한 관심이 커지면서, 검색 상품의 특징을 지능적으로 추출하고 활용하기 위한 연구들이 수행되고 있다. 특히 전자상거래 지능형 검색 엔진에서 상품을 검색 할 때, 제품의 색상은 상품을 묘사하는 중요한 특징 중에 하나이다. 따라서 사용자의 질의에 정확한 응답을 위해서는 사용자가 검색하려는 색상과 그 색상의 동의어 및 유의어에 대한 처리가 필요하다. 기존의 연구들은 색상 특징에 대한 동의어 처리를 주로 사전 방식으로 다뤄왔다. 하지만 이러한 사전방식으로는 사전에 등록되지 않은 색상 용어가 질의에 포함된 경우 처리하지 못하는 한계점을 가지고 있다. 본 연구에서는 기존에 사용하던 방식의 한계점을 극복하기 위하여, 실시간으로 인터넷 검색 엔진을 통해 해당 색상의 RGB 값을 추출한 후 추출된 색상정보를 기반으로 유사한 색상명들을 출력하는 모델을 제안한다. 본 모델은 우선적으로 기본적인 색상 검색을 위해 671개의 색상명과 각 RGB값이 저장된 색상 사전을 구축하였다. 본 연구에서 제시한 모델은 특정 색상을 검색하는 것으로 시작하며, 검색된 색상이 색상 사전 내 존재하는 지 유무를 확인한다. 사전 내에 검색한 색상이 존재한다면, 해당 색상의 RGB 값이 기준 값으로 사용된다. 만일 색상사전 내에 존재하지 않는다면, Google 이미지 검색 결과를 크롤링하여 각 이미지의 특정 영역 내 RGB값들을 군집화하여 구한 평균 RGB값을 검색한 색상의 기준 값으로 한다. 기준 RGB값을 앞서 구축한 색상 사전 내의 모든 색상의 RGB 값들과 비교하여 각 R, G, B 값에 있어서 ${\pm}50$ 내의 색상 목록을 정렬하고, RGB값 간의 유클리디안 거리 유사도를 활용하여 최종적으로 유사한 색 상명들을 출력한다. 제안 방안의 유용성을 평가하기 위해 실험을 진행하였다. 피설문자들이 생각하는 300 개의 색상 이름과 해당 색상 값을 얻어, 본 연구에서 제안한 방안을 포함한 총 네가지 방법을 통해 얻은 RGB 값들과 피설문자가 지정한 RGB값에 대한 비교를 진행했다. 인간의 눈을 반영하는 측정 기준인 CIELAB의 유클리드안거리는 평균 13.85로 색상사전만을 활용한 방안의 30.88, 한글 동의어사전 사이트인 워드넷을 추가로 활용한 방안의 30.38에 비해 비교적 낮은 색상 간의 거리 값을 보였다. 연구에서 제시하는 방안에서 군집화 과정을 제외한 방안의 색 차는 13.88로 군집화 과정이 색 차를 줄여준다는 것을 확인할 수 있었다. 본 연구에서는 기존 동의어 처리 방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 제안한다. 본 연구의 결과를 활용하여 전자상거래 검색 시스템의 지능화에 크게 기여할 수 있을 것이다.

와트, 그는 누구인가? (Watt, Who is he?)

  • 최준섭;유재영;임미가
    • 대한공업교육학회지
    • /
    • 제42권2호
    • /
    • pp.108-122
    • /
    • 2017
  • 이 연구 논문은 인류 문명사에서 금자탑을 이루는 제 1차 산업혁명을 이끌고 성공적으로 이룬 와트에 관하여 그의 교육환경과 배움의 자세를 문헌을 통하여 살펴보고, 산업혁명의 결과물인 '새로운 증기기관'의 연구 개발 과정과 환경 등을 통하여 산업혁명을 이끄는 기본적인 인적 물적 인프라를 알아보는 데에 있다. 이러한 과정에서 얻어지는 정보는, 우리의 현재 학교교육이 지향하고 있는 '창의성 개발'에 관한 지침을 얻을 수 있다고 본다. 또한 아직은 태동기에 있는 '4차 산업혁명'을 대비하는 데에도 온고지신의 차원에서 많은 시사점을 얻을 수 있었다. 이상의 내용을 종합하여 얻은 주요 연구 결과는 다음과 같다. 첫째, 와트의 부모는 아들이 기계장치 등에 흥미를 가지고 있다는 것을 알고 이 분야의 타고난 재능을 살려주기 위하여 적극적으로 협조하였다. 둘째, 와트는 글라스고우 대학의 교수들과 인연을 맺고 자신의 관심분야를 스스로 개척하며, 자기주도 학습으로 지식을 흡수하였다. 이러한 학문에 관한 끊임없는 능동적인 자세는 그를 이 분야의 기술자 및 이론가로서 성장시켰다. 셋째, 18세기에 신분의 벽을 뛰어넘는 새로운 시대를 주도하는 Lunar society의 연구 환경 인프라는 와트에게 과학적 호기심과 자유로운 탐구 정신을 경험하게 한 협회이다. 자신의 과학기술지식을 발표하고, 서로 이에 대한 의견을 자유롭게 교환하며 집단적 사고방식을 바탕으로 문제-해결의 지식을 축적해 가는 시스템이 있다는 것은 현대의 R & D환경을 만들 때에도 유념하여야 할 사항이다. 넷째, 사업가 볼턴과 같이 기술을 이해하고 그 가치를 파악하는 능력이 구비된 '경영의 귀재'가 연구자들을 재정적으로 지원하는 시스템이 필요하다. 동시에 재정문제를 그다지 걱정하지 않고 기술 자체를 즐기고 연구하는 '기술의 달인' 와트와 같은 사람이 있어야 산업혁명은 잘 이루어질 수 있다.

4차 산업혁명 시대의 사물인터넷 산업 발전전략에 관한 연구: 기업측면의 비즈니스 모델혁신 방향을 중심으로 (A Study on the Strategy of IoT Industry Development in the 4th Industrial Revolution: Focusing on the direction of business model innovation)

  • 정민의;유성진
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.57-75
    • /
    • 2019
  • 본 논문에서는 4차 산업혁명 핵심기술 중 가장 활발하게 산업화가 진행되고 있는 사물인터넷 산업을 대상으로 비즈모델 혁신방향 중심의 연구를 수행하였다. 글로벌 트렌드 분석을 위해 PEST분석을 활용하여 정책적, 경제적, 사회적, 기술적 이슈를 도출하였고, Gartner, International Data Corporation 등 ICT관련 조사 분석기관의 사물인터넷산업에 대한 미래전망을 제시하였는데, 사물인터넷은 인프라 및 플랫폼을 기반으로 산업인터넷(IIoT), 소물인터넷(IoST) 등으로 네트워크 기술경쟁이 이슈가 될 것으로 전망하였다. 4차 산업혁명으로 인해 급변하는 산업계에 대응하기 위해 기존의 비즈니스 모델 혁신을 위한 다양한 경영학적 방법론들을 검토하였고, '적용성', '민첩성', '다양성', '연계성' 4가지 기준을 가지고 전문가 설문조사를 수행하여 Business Model Canvas 모델이 비즈니스 모델 혁신 방법론으로 가장 적합하다는 AHP 분석결과를 도출하였다. Business Model Canvas는 비즈니스 모델 혁신을 위한 방법론으로 비교적 최근에 제시된 경영전략이며, 9개의 블록 접근 방식을 통해 비즈니스모델의 가치를 식별하며, 비즈니스의 4대 핵심 영역인 고객, 주문, 인프라, 사업타당성 분석 등을 포괄한다. 결론적으로 ICT융합산업 분야에서 어떠한 Business Model Canvas 모델을 방향으로 적용할지에 대한 고찰을 기술하였다.

온라인 신문 아카이브 연구 국내외 구축 사례를 중심으로 (A Study on the Online Newspaper Archive : Focusing on Domestic and International Case Studies)

  • 송주형
    • 기록학연구
    • /
    • 제48호
    • /
    • pp.93-139
    • /
    • 2016
  • 신문의 역할은 정부의 비판과 감시다. 공공의 문제에 해설과 논평을 하는가 하면 다양한 여론을 형성하고 전달한다. 메타데이터가 확실한 사진 기록물을 담고 있으며, 지역신문의 경우 로컬리티 확보의 중요한 도구다. 신문에 실린 광고와 신문의 편집 역시도 시대의 단면을 보여준다. 이런 신문의 기록학적 가치 때문에 도큐멘테이션 전략을 수립할 때도 신문은 늘 우선적으로 수집이 고려되는 기록물이다. 신문을 보존하고 관리하기 위한 신문 아카이브는 여러모로 중요한 의미를 지닌다. 기자들이 기사를 작성하기 위해 이용하기도 하고, 다양한 학문 분야의 연구를 위한 자료로도 활용이 된다. 신문의 교육적 활용인 NIE에도 이용되지만 신문 아카이브는 디지털 시대에 들어와 더욱 중요한 위치를 차지한다. 미디어 자산을 통합 관리하는 MAM의 핵심에 아카이브가 위치하기 때문이다. 신문 제작뿐만 아니라 신문사 경영 등 전 영역에 걸쳐 새로운 역할을 온라인 아카이브가 하게 될 거라는 전망들이 나오고 있다. 한국에서도 이미 1991년 기사통합 DB인 KINDS가 서비스를 시작했고, 네이버에서는 뉴스 라이브러리라는 온라인 신문 아카이브를 구축해 운영하고 있다. KINDS의 경우 초기에는 뜨거운 반응이 있었으나, 현재는 이용률이 저조한 상태이다. "조선일보", "중앙일보" 등 주요 신문사가 빠져 있고, 이용자 인터페이스도 불편한 점이 많기 때문이다. 하지만 공공예산이 투입되어 무료로 이용할 수 있다는 점이나, 지방지에 대한 접근성 등은 큰 장점이다. 고신문의 경우 국립중앙도서관에서 지속적으로 디지타이징을 하고 있다. 개별 신문사들의 경우도 아카이브라고 하기 민망한 수준이자만 서비스를 제공하고 있다. 미국의 경우 의회도서관에서 국립인문기금과 함께 역사적 신문을 디지타이징 하는 'CHRONICLING AMERICA' 프로젝트를 진행 중이다. 각 주의 대학과 역사협회, 공공 도서관에 기금을 줘 매년 10만 페이지의 지역신문을 디지타이징하고 있다. 영국 역시도 국립도서관이 중심이 되어 'The British NEWSPAPER Archive'라는 온라인 신문 아카이브를 구축하고 있는데, 미국과 달리 유료로 운영된다. 이곳 역시도 합동정보시스템위원회의 공공예산이 투입되었으며, 지금도 구축을 계속 이어가고 있다. 개별 신문사들은 아카이브 솔루션을 구매해 온라인 아카이브를 구축하는 경우가 많다. ProQuest Archiver, Gale Cengage-NewsVault가 대표적인 아카이브 플랫폼으로 신문 자체가 표준화되고 규격화되어 있는 만큼 이를 통한 아카이브 구축도 효율적인 방법으로 보인다. 국내의 온라인 신문 아카이브를 개선하기 위해서는 아카이브에 대한 인식의 전환과 함께 과감한 투자 등이 요구된다.

금리 스프레드와 산업별 주식 수익률 관계 분석 (Analysis of the relationship between interest rate spreads and stock returns by industry)

  • 김규형;박진수;서지혜
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.105-117
    • /
    • 2022
  • 본 연구는 다항회귀분석을 통해 장기금리와 단기금리의 차이인 금리 스프레드와 주식 수익률 간 영향을 분석한다. 기존 연구들은 미국시장을 중심으로 금리 스프레드를 통한 경기를 예측에 초점을 맞추어 진행되었다. 선행 연구들은 장단기금리의 기간을 조절하고 선행정도를 분석하며 금리 스프레드를 경기예측 선행지표로 검증했다. 국내에서도 2006년 경기종합지수 제 7차 개편 이후 금리스프레드를 경기 선행지수 구성항목에 포함하였으며 현재까지도 활용하고 있다. 그럼에도 불구하고 국내 주식시장에서 금리스프레드와 산업별 주식 수익률에 대한 연구는 부족하다. 때문에 본 연구에서는 국내주식시장을 대상으로 금리스프레드와 산업별 주식 수익률은 분석했다. 회귀분석을 통해 인과관계가 높은 장단기 금리를 선정하고 선행기간 및 산업별 상관관계를 파악했다. 연구 과정에서 단순 선형회귀 분석(Simple Linear Regression)의 한계를 극복하기 위해 다항 회귀분석(Polynomial Linear Regression)을 활용해 설명력을 높였다. 분석 결과 6개월 선행하여 무보증 3년 회사채(AA-) 수익률과 콜금리 수익률의 차이 금리스프레드로 사용했을 때 높은 인과를 확인하였으며 산업별 주식수익률을 분석한 결과 해당 금리 스프레드와 자동차산업의 수익률의 관계가 가장 밀접함을 확인했다. 본 연구를 통해 국내에서 금리 스프레드가 경기예측뿐만 아니라 주식수익률과도 인과관계가 있음을 확인한 것에 의의가 있다. 금리스프레드만 사용하여 주식 가격을 예측하는 것에는 한계가 있을 수 있으나 다양한 요인들과 적절히 활용할 경우 강력한 팩터로 역할을 할 것이라 기대한다.

머신러닝을 활용한 수도권 약수터 수질 예측 모델 개발 (Development of a water quality prediction model for mineral springs in the metropolitan area using machine learning)

  • 임영우;엄지연;곽기영
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.307-325
    • /
    • 2023
  • 코로나19 팬데믹의 장기화로 인해 실내 생활에 지쳐가는 사람들이 우울감, 무기력증 등을 해소하기 위해 근거리의 산과 국립공원을 찾는 빈도가 폭발적으로 증가하였다. 자연으로 나온 수많은 사람들이 오가는 걸음을 멈추고 숨을 돌리며 쉬어가는 장소가 있는데 바로 약수터이다. 산이나 국립공원이 아니더라도 근린공원 또는 산책로에서도 간간이 찾아볼 수 있는 약수터는 수도권에만 약 6백여개가 위치해 있다. 하지만 불규칙적이고 수작업으로 수행되는 수질검사로 인해 사람들은 실시간으로 검사 결과를 알 수 없는 상태에서 약수를 음용하게 된다. 따라서 본 연구에서는 약수터 수질에 영향을 미치는 요인을 탐색하고 다양한 곳에 흩어져 있는 데이터를 수집하여 실시간으로 약수터 수질을 예측할 수 있는 모델을 개발하고자 한다. 데이터 수집의 한계로 인해 서울과 경기로 지역을 한정한 후 데이터 관리가 잘 이루어지고 있는 18개 시의 약 300여개 약수터를 대상으로 2015~2020년의 수질 검사 데이터를 확보하였다. 약수터 수질 적합 여부에 영향을 미칠 것으로 여겨지는 다양한 요인들 중 두 차례의 검토를 거쳐 총 10개의 요인을 최종 선별하였다. 최근 주목받고 있는 자동화 머신러닝 기술인 AutoML 기법을 활용하여 20여가지의 머신러닝 기법들 중 예측 성능 기준 상위 5개의 모델을 도출하였으며 그 중 catboost 모델이 75.26%의 예측 분류 정확도로 가장 높은 성능을 가지고 있음을 확인하였다. 추가로 SHAP 기법을 통해 분석에 사용한 변인들이 예측에 미치는 절대적인 영향력을 살펴본 결과 직전 수질 검사에서 부적합 판정을 받았는지 여부가 가장 중요한 요인이었으며 그 외 평균 기온, 과거 연속 2번 수질 부적합 판정 기록 유무, 수질 검사 당일 기온, 약수터 고도 등이 수질 부적합 여부에 영향을 미치고 있음을 확인하였다.