A Study on DDPM-based Molecular Generation and Semi-Supervised Learning for Improving the Performance of Optical Chemical Structure Recognition

광학 분자구조 인식 성능 향상을 위한 DDPM 기반의 분자구조 생성 및 준지도학습 연구

  • Jin-Hyeok Kim (Division of Software, Hallym University) ;
  • Tae-Woong Song (Division of Software, Hallym University) ;
  • Jonghwan Choi (Division of Software, Hallym University)
  • 김진혁 (한림대학교 소프트웨어학부) ;
  • 송태웅 (한림대학교 소프트웨어학부) ;
  • 최종환 (한림대학교 소프트웨어학부)
  • Published : 2024.05.23

Abstract

문헌자료에 나타나는 분자구조 정보를 인식하고, 분석에 용이한 형태로의 데이터 변환하는 기술은 화학정보학 데이터 수집을 용이하게 만드는 중요 정보처리 기술 중 하나이다. 딥러닝 기반의 분자구조 인식 기술이 여럿 개발되었으나, 소규모 분자구조 이미지 데이터집합에 대해서는 학습이 충분하기 어려워 인식 정확도를 향상시키기 위한 학습 전략이 필요하다. 본 연구에서는 데이터 부족으로 인한 학습 효율 저하 문제를 극복하기 위해 이미지 생성 모델을 활용한 준지도학습 알고리즘을 연구하였다. 제안하는 학습 알고리즘은 대조군 대비 5.4%p 성능 향상을 보여주었다.

Keywords

Acknowledgement

본 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(RS-2024-00345226)

References

  1. Clevert, Djork-Arne, et al. "Img2Mol-accurate SMILES recognition from molecular graphical depictions." Chemical science 12.42 (2021): 14174-14181.
  2. Xu, Zhanpeng, et al. "SwinOCSR: end-to-end optical chemical structure recognition using a Swin Transformer." Journal of Cheminformatics 14.1 (2022): 41.
  3. Rajan, Kohulan, et al. "DECIMER 1.0: deep learning for chemical image recognition using transformers." Journal of Cheminformatics 13 (2021): 1-16.
  4. Qian, Yujie, et al. "MolScribe: Robust Molecular Structure Recognition with Image-to-Graph Generation." Journal of Chemical Information and Modeling, 2023.
  5. Lee, Dong-Hyun. "Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks." Workshop on challenges in representation learning, ICML. Vol. 3. No. 2. 2013.
  6. He, Junxian, et al. "Revisiting self-training for neural sequence generation." arXiv preprint arXiv:1909.13788 (2019).
  7. Amini, Massih-Reza, et al. "Self-training: A survey." arXiv preprint arXiv:2202.12040 (2022).
  8. Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved Denoising Diffusion Probabilistic Models" International Conference on Machine Learning. PMLR, 2021
  9. Weininger, David. "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules." Journal of chemical information and computer sciences 28.1 (1988): 31-36.
  10. David Bajusz, et al. "Why is Tanimoto index an appropriate choice for fingerprint-based similarity calculations?" Journal of Chemical Information and Modeling 2010. Vol. 50, No. 5, pp.742-754