DOI QR코드

DOI QR Code

Spatialization of Unstructured Document Information Using AI

AI를 활용한 비정형 문서정보의 공간정보화

  • Received : 2023.07.17
  • Accepted : 2023.08.25
  • Published : 2023.09.30

Abstract

Spatial information is essential for interpreting urban phenomena. Methodologies for spatializing urban information, especially when it lacks location details, have been consistently developed. Typical methods include Geocoding using structured address information or place names, spatial integration with existing geospatial data, and manual tasks utilizing reference data. However, a vast number of documents produced by administrative agencies have not been deeply dealt with due to their unstructured nature, even when there's demand for spatialization. This research utilizes the natural language processing model BERT to spatialize public documents related to urban planning. It focuses on extracting sentence elements containing addresses from documents and converting them into structured data. The study used 18 years of urban planning public announcement documents as training data to train the BERT model and enhanced its performance by manually adjusting its hyperparameters. After training, the test results showed accuracy rates of 96.6% for classifying urban planning facilities, 98.5% for address recognition, and 93.1% for address cleaning. When mapping the result data on GIS, it was possible to effectively display the change history related to specific urban planning facilities. This research provides a deep understanding of the spatial context of urban planning documents, and it is hoped that through this, stakeholders can make more effective decisions.

도시현상의 해석을 위해 공간정보는 필수적이다. 위치정보가 부족한 도시정보를 공간정보로 변환하기 위한 공간정보화 방법론이 꾸준히 개발되어왔다. 정형화된 주소정보나 지명 등을 이용한 Geocoding이나 이미 위치정보가 있는 공간정보와의 공간결합, 참조데이터를 활용한 수작업 형태 등이 대표적이다. 그러나 아직도 행정기관에서 작성되는 수많은 문서정보들은 비정형화된 문서형태로 인해 공간정보화의 수요가 있음에도 그동안 깊이 있게 다루어지지 못하였다. 본 연구는 자연어 처리 모델인 BERT를 활용하여 도시계획과 관련된 공개문서의 공간정보화를 진행한다. 주소가 포함된 문장 요소를 문서로부터 추출하고, 이를 정형화된 데이터로 변환하는 과정을 중점적으로 다룬다. 18년 동안의 도시계획 고시공고문을 학습 데이터로 사용하여 BERT 모델을 학습시켰으며, 모델의 하이퍼파라미터를 직접 조정하여 성능을 향상시켰다. 모델 학습 후의 테스트 결과, 도시계획시설의 유형을 분류하는 모델은 96.6%, 주소 인식 모델은 98.5%, 주소 정제 모델은 93.1%의 정확도를 보였다. 결과 데이터를 GIS 상에 맵핑하였을 때, 특정 지점의 도시계획시설에 관한 변경 이력을 효과적으로 표출할 수 있었다. 본 연구로 도시계획 문서의 공간적 맥락에 대한 깊은 이해를 제공하며, 이를 통해 이해관계자들이 더욱 효과적인 의사결정을 할 수 있게 지원하기를 기대한다.

Keywords

Acknowledgement

본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호 RS-2022-00143404).

References

  1. Colin, R., Kevin, H. 2017. Spatial Context from Open and Online Processing (SCOOP): Geographic, Temporal, and Thematic Analysis of Online Information Sources. International Journal of Geo-Information. 6(193):1-15.
  2. Devlin, J., Chang, M.W., Lee, K., Toutanova, K. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805v1 1-14.
  3. Kim, H.D., Kim, J.Y., Hong, S.U., Kim, D.H. 2020. Analysis on Voice Phishing using Artificial Intelligence Named Entity Recognition Model for Information Search. The Journal of Police Science. 20(4):255-283.
  4. Kim, I.H., Kim, S.H. 2022. Automatic Classification of Academic Articles Using BERT Model Based on Deep Learning. Journal of the Korean Society for Information Management 39(3):293-310. 
  5. Lee, C.J., Ra, D.Y. 2022. Korean Morphological Analysis Method Based on BERT-Fused Transformer Model. Journal of Information Processing Systems. 11(4):169-178.
  6. Lee, S.Y., Park, B.J. 2004. Design and Implementation of an Address correction System for Standard Address. Master's Thesis, Univ. of Kwangwoon, Seoul, Korea. pp.1-58.
  7. Noh, Y.D., Cho, K.C. 2021. A Text Content Classification Using LSTM For Objective Category Classification. Journal of The Korea Society of Computer and Information 26(5):39-46.
  8. Song, J.Y., Lim, H.C. 2014. A Korean road name address conversion model using hierarchical administrative division and word similarity. Master's Thesis. Korea University Graduate School of Computer and Information Technology, Seoul, Korea. pp.1-52.
  9. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I. 2017. Attention is all you need. NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems: 6000-6010.
  10. You, H.J., Song, Y.S., Kim, M.S., Yun, G.H., Cheong, Y.N. 2021. Error Analysis and Evaluation of Deep-learning Based Korean Named Entity Recognition. Korean Journal of Linguistics. 46(3):803-828.