• 제목/요약/키워드: Artificial intelligence model

검색결과 1,735건 처리시간 0.03초

재난약자 및 취약시설에 대한 APC실증에 관한 연구 (Research on APC Verification for Disaster Victims and Vulnerable Facilities)

  • 김승용;황인철;김동식;신정재;용승갑
    • 한국재난정보학회 논문집
    • /
    • 제20권1호
    • /
    • pp.199-205
    • /
    • 2024
  • 연구목적: 본 연구는 요양병원 등 재난취약시설에 재난이 발생할 경우 잔류한 요구조자를 정확하게 파악하여 소방 등 대응기관에 제공하는 APC(Auto People Counting)의 인식률 개선에 목적이 있다. 연구방법: 본 연구에서는 실제 재난취약시설에 설치되어 운영 중인 APC를 대상으로 카메라를 통해 출입 인원의 이미지를 인식하는 알고리즘을 개선하기 위해 CNN모델을 활용하여 베이스라인 모델링을 하였다. 다양한 알고리즘의 성능을 분석하여 상위 7개의 후보군을 선정하고 전이학습 모델을 활용하여 성능이 가장 우수한 최적의 알고리즘을 선정하는 방법으로 연구를 수행하였다. 연구결과: 실험결과 시간과 성능이 가장 좋은 Densenet201, Resnet152v2 모델의 정밀도와 재현율을 확인한 결과 모든 라벨에 대해서 정확도 100%를 나타내는 것을 확인할 수 있었다. 이 중 Densenet201 모델이 더 높은 성능을 보여주었다. 결론: 다양한 인공지능 알고리즘 중 APC에 적용할 수 있는 최적의 알고리즘을 선정하였다. 향후 연무 등 다양한 재난상황에서 재난취약시설 내 출입인원을 정확하게 파악할 수 있도록 알고리즘 분석 및 학습에 대한 추가 연구가 요구된다.

생성형 인공지능의 수학 문제 풀이에 대한 성능 분석: ChatGPT 4, Claude 3 Opus, Gemini Advanced를 중심으로 (Analysis of generative AI's mathematical problem-solving performance: Focusing on ChatGPT 4, Claude 3 Opus, and Gemini Advanced)

  • 오세준;윤정은;정유진;조윤주;심효섭;권오남
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제63권3호
    • /
    • pp.549-571
    • /
    • 2024
  • 디지털·AI 기반 교수·학습이 강조됨에 따라 생성형 AI의 교육적 활용에 대한 논의가 활발해지고 있다. 본 연구는 고등학교 1학년 수학 교과서 5종의 예제와 문제 풀이에 대한 ChatGPT 4, Claude 3 Opus, Gemini Advanced의 수학적 성능을 분석하였다. 총 1,317개 문항에 대해 전체 정답률과 기능별 특징을 살펴본 결과, ChatGPT 4의 전체 정답률이 0.85로 가장 높았고, Claude 3 Opus가 0.67, Gemini Advanced가 0.42 순으로 나타났다. 기능별로는 함수 구하기와 증명하기에서 세 모델 모두 높은 정답률을 보였으나, 설명하기와 그래프 그리기에서는 상대적으로 낮은 정답률을 보였다. 특히 경우의 수 세기에서 ChatGPT 4와 Claude 3 Opus가 1.00의 정답률을 보인 반면, Gemini Advanced는 0.56으로 낮았다. 또한 모든 모델이 벤 다이어그램을 이용한 설명하기와 이미지 생성이 필요한 문제에서 어려움을 겪었다. 연구 결과를 바탕으로 교사들은 각 AI 모델의 강점과 한계를 파악하고 이를 수업에 적절히 활용할 수 있을 것이다. 본 연구는 생성형 AI의 수학적 성능을 분석함으로써, 실제 수학 수업에서의 생성형 AI의 활용 가능성을 제시했다는 점에서 의의가 있다. 또한 인공지능시대의 수학 교육에서 교사의 역할을 재정립하는 데 중요한 시사점을 제공하였다. 향후 생성형 AI와 교사의 협력적 교육 모델 개발, AI를 활용한 개별화 학습 방안 연구 등이 필요할 것이다.

딥러닝 프레임워크의 비교: 티아노, 텐서플로, CNTK를 중심으로 (Comparison of Deep Learning Frameworks: About Theano, Tensorflow, and Cognitive Toolkit)

  • 정여진;안성만;양지헌;이재준
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.1-17
    • /
    • 2017
  • 딥러닝 프레임워크의 대표적인 기능으로는 '자동미분'과 'GPU의 활용' 등을 들 수 있다. 본 논문은 파이썬의 라이브러리 형태로 사용 가능한 프레임워크 중에서 구글의 텐서플로와 마이크로소프트의 CNTK, 그리고 텐서플로의 원조라고 할 수 있는 티아노를 비교하였다. 본문에서는 자동미분의 개념과 GPU의 활용형태를 간단히 설명하고, 그 다음에 logistic regression을 실행하는 예를 통하여 각 프레임워크의 문법을 알아본 뒤에, 마지막으로 대표적인 딥러닝 응용인 CNN의 예제를 실행시켜보고 코딩의 편의성과 실행속도 등을 확인해 보았다. 그 결과, 편의성의 관점에서 보면 티아노가 가장 코딩 하기가 어렵고, CNTK와 텐서플로는 많은 부분이 비슷하게 추상화 되어 있어서 코딩이 비슷하지만 가중치와 편향을 직접 정의하느냐의 여부에서 차이를 보였다. 그리고 각 프레임워크의 실행속도에 대한 평가는 '큰 차이는 없다'는 것이다. 텐서플로는 티아노에 비하여 속도가 느리다는 평가가 있어왔는데, 본 연구의 실험에 의하면, 비록 CNN 모형에 국한되었지만, 텐서플로가 아주 조금이지만 빠른 것으로 나타났다. CNTK의 경우에도, 비록 실험환경이 달랐지만, 실험환경의 차이에 의한 속도의 차이의 편차범위 이내에 있는 것으로 판단이 되었다. 본 연구에서는 세 종류의 딥러닝 프레임워크만을 살펴보았는데, 위키피디아에 따르면 딥러닝 프레임워크의 종류는 12가지가 있으며, 각 프레임워크의 특징을 15가지 속성으로 구분하여 차이를 특정하고 있다. 그 많은 속성 중에서 사용자의 입장에서 볼 때 중요한 속성은 어떤 언어(파이썬, C++, Java, 등)로 사용가능한지, 어떤 딥러닝 모형에 대한 라이브러리가 잘 구현되어 있는지 등일 것이다. 그리고 사용자가 대규모의 딥러닝 모형을 구축한다면, 다중 GPU 혹은 다중 서버를 지원하는지의 여부도 중요할 것이다. 또한 딥러닝 모형을 처음 학습하는 경우에는 사용설명서가 많은지 예제 프로그램이 많은지 여부도 중요한 기준이 될 것이다.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

기계 학습 어플리케이션을 활용한 파노라마 영상에서의 정중 과잉치 식별 (Identification of Mesiodens Using Machine Learning Application in Panoramic Images)

  • 승재국;김재곤;양연미;임형빈;레반낫탕;이대우
    • 대한소아치과학회지
    • /
    • 제48권2호
    • /
    • pp.221-228
    • /
    • 2021
  • 이번 연구는 손쉽게 접근 가능한 웹사이트 기반 기계 학습 어플리케이션을 활용하여 파노라마 방사선 영상에서 과잉치 식별 모델을 학습시키고, 학습된 모델의 과잉치를 식별하는 성능을 평가하고자 하였으며, 인간 집단과의 성능을 비교하기 위한 연구를 진행하였다. 총 1604장의 5 - 7세 환자의 파노라마 이미지가 이번 연구에서 사용되었다. 연구에 사용된 모델은 Google에서 개발한 기계학습 모델인 Teachable Machine을 사용하였다. 과잉치 식별 모델을 훈련시키고 성능을 평가하기 위해 data set 1을 설정하였다. Data set 2는 학습모델과 인간 집단 간의 정확도 비교를 위해 설정하였다. 학습모델 및 인간 집단의 과잉치 식별 능력을 평가하기 위해 정확도(accuracy), 민감도(sensitivity), 특이도(specificity) 값을 사용하였다. Data set 1의 검증 결과, 평균 0.82의 분류 정확도를 얻었다. Data set 2의 테스트 결과, 모델의 정확도는 0.78이었다. 전공의군과 학생군의 평균 정확도는 각각 0.82, 0.69였다. 이번 연구는 유치열기 및 초기 혼합치열기 어린이의 파노라마 방사선 영상과 웹 기반 기계 학습 어플리케이션 이용하여 과잉치 식별 모델을 개발하였고 학습된 모델과 인간 의사 집단(전공의 및 학생) 간의 과잉치 식별 정도를 비교 연구하였다. 훈련모델의 분류 정확도는 전공의군과 비교 시 낮았지만 훈련받지 않은 치과 대학 학생군보다 분류 정확도가 높아 비전문가 학생 또는 일반의사에게 과잉치 진단 정확도를 높이는 데 활용될 가능성이 있음을 확인하였다.

저화질 안면 이미지의 화질 개선를 통한 안면 특징점 검출 모델의 성능 향상 (Enhancing the performance of the facial keypoint detection model by improving the quality of low-resolution facial images)

  • 이경욱;이예진;박종혁
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.171-187
    • /
    • 2023
  • 저화소의 감시카메라와 같은 촬영 장비를 통해 사람의 얼굴을 인식할 경우, 화질이 낮아 얼굴을 포착하기 어렵다는 문제점이 있다. 이렇게, 사람의 얼굴을 인식하기 어렵다면 범죄용의자나 실종자를 특정해내지 못하는 등의 문제가 발생할 수 있다. 기존 이미지 속 안면 인식에 관한 연구들에서는 정제된 데이터셋을 사용하였기 때문에 다양한 환경에서의 성능을 가늠하기 어렵다는 한계가 존재한다. 이에, 본 논문에서는 저화질 이미지에서 안면 인식 성능이 떨어지는 문제를 해결하기 위해 다양한 환경을 고려한 저화질 안면 이미지에 대해 화질 개선을 수행하여 고화질 이미지를 생성한 뒤, 안면 특징점 검출의 성능 향상시키는 방법을 제안한다. 제안 방법의 현실 적용 가능성을 확인하기 위해 전체 이미지에서 사람이 상대적으로 작게 나타나는 데이터셋을 선정하여 실험을 수행하였다. 또한 마스크 착용 상황을 고려한 안면 이미지 데이터셋을 선정하여, 현실 문제로의 확장 가능성을 탐구하였다. 안면 이미지의 화질을 개선하여 특징점 검출 모델의 성능을 측정한 결과, 개선 후 안면의 검출 여부는 마스크를 착용하지 않은 이미지의 경우 평균 3.47배, 마스크를 착용한 경우 평균 9.92배로 성능 향상을 확인할 수 있었다. 안면 특징점에 대한 RMSE는 마스크를 착용한 이미지의 경우 평균 8.49배 감소, 마스크를 착용하지 않은 경우 평균 2.02배 감소한 것을 확인할 수 있었다. 이에, 화질 개선을 통해 저화질로 포착된 안면 이미지에 대한 인식률을 높여 제안 방법의 활용 가능성을 확인할 수 있었다.

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

딥러닝 기반 육상기인 부유쓰레기 탐지 모델 성능 비교 및 현장 적용성 평가 (A Performance Comparison of Land-Based Floating Debris Detection Based on Deep Learning and Its Field Applications)

  • 박수호;장선웅;김흥민;김탁영;예건희
    • 대한원격탐사학회지
    • /
    • 제39권2호
    • /
    • pp.193-205
    • /
    • 2023
  • 집중강우 시 육상으로부터 다량으로 유입된 부유쓰레기는 사회, 경제적 및 환경적으로 부정적인 영향을 주고 있으나 부유쓰레기 집적 구간 및 발생량에 대한 모니터링 체계는 미흡한 실정이다. 최근 인공지능 기술의 발달로 드론 영상과 딥러닝 기반 객체탐지 모델을 활용하여 수계 내 광범위한 지역을 신속하고 효율적인 연구의 필요성이 요구되고 있다. 본 연구에서는 육상기인 부유쓰레기의 효율적인 탐지 기법을 제시하기 위해 드론 영상뿐만 아니라 다양한 이미지를 확보하여 You Only Look Once (YOLO)v5s와 최근에 개발된 YOLO7 및 YOLOv8s로 학습하여 모델별로 성능을 비교하였다. 각 모델의 정성적인 성능 평가 결과, 세 모델 모두 일반적인 상황에서 탐지성능이 우수한 것으로 나타났으나, 이미지의 노출이 심하거나 수면의 태양광 반사가 심한 경우 YOLOv8s 모델에서 대상물을 누락 또는 중복 탐지하는 사례가 나타났다. 정량적인 성능 평가 결과, YOLOv7의 mean Average Precision (intersection over union, IoU 0.5)이 0.940으로 YOLOv5s (0.922)와 YOLOvs8(0.922)보다 좋은 성능을 나타냈다. 데이터 품질에 따른 모델의 성능 비교하기 위해 색상 및 고주파 성분에 왜곡을 발생시킨 결과, YOLOv8s 모델의 성능 저하가 가장 뚜렷하게 나타났으며, YOLOv7 모델이 가장 낮은 성능 저하 폭을 보였다. 이를 통해 수면 위에 존재하는 부유쓰레기 탐지에 있어서 YOLOv7 모델이 YOLOv5s와 YOLOv8s 모델에 비해 강인한 모델임을 확인하였다. 본 연구에서 제안하는 딥러닝 기반 부유쓰레기 탐지 기법은 부유쓰레기의 성상별 분포 현황을 공간적으로 파악할 수 있어 향후 정화작업 계획수립에 기여할 수 있을 것으로 판단된다.

3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발 (Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals)

  • 정찬혁;김상윤;허성구;;신민혁;유창규
    • Korean Chemical Engineering Research
    • /
    • 제61권4호
    • /
    • pp.523-541
    • /
    • 2023
  • 3D 프린터의 활용이 높아짐에 따라 발생하는 화학물질에 대한 노출 빈도가 증가하고 있다. 그러나 3D 프린팅 발생 화학물질의 독성 및 유해성에 대한 연구는 미비하며, 분자 구조 데이터의 결측치로 인해 in silico 기법을 사용한 독성예측 연구는 저조한 실정이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 결측치를 보간하여 3D 프린팅의 독성 및 유해성을 예측한 Data-centric QSAR 모델을 개발하였다. 먼저 MissForest 알고리즘을 사용해 3D 프린팅으로 발생되는 유해물질의 분자표현자 결측치를 보완하였으며, 서로 다른 4가지 기계학습 모델(결정트리, 랜덤포레스트, XGBoost, SVM)을 기반으로 Data-centric QSAR 모델을 개발하여 생물 농축 계수(Log BCF)와 옥탄올-공기분배계수(Log Koa), 분배계수(Log P)를 예측하였다. 또한, 설명 가능한 인공지능(XAI) 방법론 중 TreeSHAP (SHapley Additive exPlanations) 기법을 활용하여 Data-centric QSAR 모델의 신뢰성을 입증하였다. MissForest 알고리즘 기반 결측지 보간 기법은, 기존 분자구조 데이터에 비하여 약 2.5배 많은 분자구조 데이터를 확보할 수 있었다. 이를 바탕으로 개발된 Data-centric QSAR 모델의 성능은 Log BCF, Log Koa와 Log P를 각각 73%, 76%, 92% 의 예측 성능으로 예측할 수 있었다. 마지막으로 Tree-SHAP 분석결과 개발된 Data-centric QSAR 모델은 각 독성치와 물리적으로 상관성이 높은 분자표현자를 통하여 선택함을 설명할 수 있었고 독성 정보에 대한 높은 예측 성능을 확보할 수 있었다. 본 연구에서 개발한 방법론은 다른 프린팅 소재나 화학공정, 그리고 반도체/디스플레이 공정에서 발생 가능한 오염물질의 독성 및 인체 위해성 평가에 활용될 수 있을 것으로 사료된다.