DOI QR코드

DOI QR Code

Application of K-means Clustering Model to XRD Experimental Data in the Korea Plateau

한국대지 XRD 실험자료 대상 k-평균 군집화 모델 적용성 분석

  • Ju Young Park (Department of Geoenvironmental Sciences, Kongju National University) ;
  • Sun Young Park (Petroleum Energy Research Center, Korea Institute of Geoscience and Mineral Resources) ;
  • Jiyoung Choi (Petroleum Energy Research Center, Korea Institute of Geoscience and Mineral Resources) ;
  • Sungil Kim (Petroleum Energy Research Center, Korea Institute of Geoscience and Mineral Resources) ;
  • Yuri Kim (Petroleum Energy Research Center, Korea Institute of Geoscience and Mineral Resources) ;
  • Bo Yeon Yi (Petroleum Energy Research Center, Korea Institute of Geoscience and Mineral Resources) ;
  • Kyungbook Lee (Department of Geoenvironmental Sciences, Kongju National University)
  • 박주영 (국립공주대학교 지질환경과학과) ;
  • 박선영 (한국지질자원연구원 석유에너지연구센터) ;
  • 최지영 (한국지질자원연구원 석유에너지연구센터) ;
  • 김성일 (한국지질자원연구원 석유에너지연구센터) ;
  • 김유리 (한국지질자원연구원 석유에너지연구센터) ;
  • 이보연 (한국지질자원연구원 석유에너지연구센터) ;
  • 이경북 (국립공주대학교 지질환경과학과)
  • Received : 2024.08.30
  • Accepted : 2024.10.07
  • Published : 2024.10.29

Abstract

Mineral composition used to identify the sedimentary environment can be obtained through X-ray diffraction (XRD) analysis. However, due to time constraints for analyzing a large number of samples, a machine learning-based mineral composition analysis model was developed. This model demonstrated reasonable reliability for samples with usual compositions but showed poor performance for unusual samples. Consequently, a clustering model has recently been developed to classify the unusual samples, allowing experts to handle. The purpose of this study is to examine the applicability of the clustering model, developed using XRD data from the Ulleung Basin in previous study, using samples from different regions. Research data consist of intensity profile from XRD experiment and its mineral composition analysis for a total of 54 sediment samples from the Korea Plateau, located northwest of the Ulleung Basin. Because the intensity of samples in the Korea Plateau comprises 7,420 values (3.005-64.996°), differing from 3,100 values (3.01-64.99°) of samples in the Ulleung Basin, linear interpolation was used to align the input feature. Then, min-max scaler was applied to intensity profile for each sample to preserve the trend and peak ratio of the intensity. Applying the clustering model to the 54 preprocessed intensity profiles, 35 samples and 19 samples were classified into expert and machine learning groups, respectively. For machine learning group, false positive was zero among the 19 samples. This means that the clustering model can increase reliability in when mineral composition from machine learning model because unusual sample did not belong to the machine learning group. For the 35 samples in expert group, the 31 samples were classified as false negative (FN). It means that although machine learning model can properly analyze these samples, they were assigned to expert group. However, when these FN samples were analyzed using machine learning based composition analysis model, a high mean absolute error of 2.94% was observed. Therefore, it is reasonable that the samples were assigned to expert group.

퇴적물 생성환경 규명에 사용되는 광물조성자료는 X-선 회절(X-ray diffraction, XRD)분석을 통해 얻을 수 있으나, 대규모 시료에 대한 조성분석 시 효율적인 분석을 위해 머신러닝 기반 광물조성 분석모델이 개발되었다. 해당 모델은 일반조성 시료에 대해 준수한 분석신뢰도를 보였으나, 특이조성을 가지는 시료에 대해서는 저조한 성능을 보였다. 이에 따라 최근 전체 시료 중 특이조성시료를 전문가가 분석할 수 있도록 분류하는 군집화모델이 개발되었다. 본 연구에서는 울릉분지 XRD 시료로 개발한 군집화모델의 타 지역 시료에 대한 적용가능성을 검토하고자 한다. 연구자료는 울릉분지 북서쪽에 위치한 한국대지의 54개 퇴적물 시료에 대한 XRD 실험 및 전문가 광물조성 분석결과로 구성된다. 한국대지 시료의 intensity는 7,420개(3.005-64.996°)로, 울릉분지 3,100개(3.01-64.99°)와 차이를 보여 선형보간을 활용해 일치시켰다. 이후 intensity 비율과 경향성을 보존하기 위해 시료별 최소-최대 정규화를 수행하였다. 전처리한 실험자료에 군집화모델을 적용한 결과, 54개 시료 중 전문가분석은 35개, 머신러닝분석은 19개로 배정되었다. 머신러닝분석으로 판단된 19개 시료 중 false positive(FP)는 0으로, 머신러닝분석 군집에 특이조성시료가 존재하지 않음을 확인하였다. FP는 실제 특이조성을 가져 전문가분석이 필요하지만 머신러닝이 분석하는 것으로 판단된 것을 의미하기 때문에 FP가 적을수록 머신러닝 모델 적용 시 높은 분석신뢰도를 기대할 수 있다. 전문가분석의 경우 35개 중 31개 시료가 false negative로 배정되었으며, 이는 머신러닝이 분석해도 무방하나 전문가가 분석해야할 시료 수가 전체의 57%임을 의미한다. 그러나 해당 시료들을 머신러닝기반 조성분석모델로 분석할 경우 2.94%의 높은 평균절대오차의 평균을 보이기 때문에 전문가분석 군집으로 배정된 것을 합리적으로 평가할 수 있다.

Keywords

Acknowledgement

본 연구는 가스하이드레이트 사업단의 지원하에 수행중인 한국지질자원연구원의 심층학습기반 GH 저류층 분석모델 개발(No. GP2021-010) 프로젝트의 지원으로 수행되었습니다. 또한 이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구이며(No. 2021R1C1C1004460), 2021년도 정부(산업통상자원부)의 재원으로 해외자원개발협회의 지원을 받아 수행된 연구입니다(데이터사이언스 기반 석유·가스 탐사 컨소시엄, 2021060001). 이 논문은 2023년 공주대학교 학술연구지원사업의 연구지원에 의하여 연구되었습니다.

References

  1. Arthur, D. and Vassilvitskii, S. (2007) K-means++: The advantages of careful seeding. Presented at the eighteenth annual ACMSIAM symposium on Discrete algorithms. New Orleans, LA, USA, 7-9 January.
  2. Jin, H., Park, J., Park, S.Y., Son, B.-K., Min, B. and Lee, K. (2024) Effect of preprocessing on performances of machine learning-based mineral composition analysis on gas hydrate sediments, Ulleung Basin, East Sea. Pet. Sci. (under 5th round review).
  3. Khim B.K., Park, Y.H., Bahk, J.J., Jim, J.H. and Lee, G.H. (2008) Spatial and temporal variation of geochemical properties and paleoceanographic implications in the South Korea Plateau (East Sea) during the late Quaternary. Quat. Int. v.176-177, p.46-61. doi: 10.1016/j.quaint.2007.04.004.
  4. Kim K.-J., Yoo, D.-G., Yi, B.-Y. and Kang, N.-K. (2023) Seismic stratigraphy and structural evolution of the South Korea Plateau, East Sea (Sea of Japan). Basin Res. v.36(1), e12805. doi: 10.1111/bre.12805.
  5. Lee, G.H., Kim, H.-J., Jou, H.-T. and Cho, H.-M. (2003) Opal-A/ opal-CT phase boundary inferred from bottom-simulating reflectors in the southern South Korea Plateau, East Sea (Sea of Japan). Geophys. Res. Lett. v.30(24), 2238. doi: 10.1029/2003GL018670.
  6. Lee, J.W., Park, W.B., Lee, J.H., Singh, S.P. and Sohn, K.S. (2020) A deep-learning technique for phase identification in multiphase inorganic compounds using synthetic XRD powder patterns. Nat. Commun. v.11, 86. doi: 10.1038/s41467-019-13749-3.
  7. Park, J.Y., Jin, H., Park, S.Y., Choi, J., Ning, F., Chen, Z. and Lee, K. (2024) Development of clustering model for XRD experimental data to improve mineral composition analysis in the Ulleung Basin, Korea. Geoenergy Sci. Eng. (under 1st round review).
  8. Park, S.Y., Son, B.-K., Choi, J., Jin, H. and Lee, K. (2022) Application of machine learning to quantification of mineral composition on gas hydrate-bearing sediments, Ulleung Basin, Korea. J. Pet. Sci. Eng. v.209, 109840. doi: 10.1016/j.petrol.2021.109840.
  9. Schuetzke, J., Benedix, A., Mikut, R. and Reischl, M. (2021) Enhancing deep-learning training for phase identification in powder X-ray diffractograms. IUCrJ. v.8(3), p.408-420. doi: 10.1107/S2052252521002402.
  10. Yoon, S.-H., Bahk, J.-J. and Han, S.-J. (2003) Late Quaternary Depositional Processes in the Korea Plateau and Ulleung Interplain Gap, East Sea. J. Korean Soc. Oceanogr., v.8(2), p.187-198.