DOI QR코드

DOI QR Code

GPT-enabled SNS Sentence writing support system Based on Image Object and Meta Information

이미지 객체 및 메타정보 기반 GPT 활용 SNS 문장 작성 보조 시스템

  • 이동희 (동서대학교 소프트웨어학과) ;
  • 문미경 (동서대학교 소프트웨어학과) ;
  • 최봉준 (동서대학교 소프트웨어학과)
  • Received : 2023.08.22
  • Accepted : 2023.09.25
  • Published : 2023.09.30

Abstract

In this study, we propose an SNS sentence writing assistance system that utilizes YOLO and GPT to assist users in writing texts with images, such as SNS. We utilize the YOLO model to extract objects from images inserted during writing, and also extract meta-information such as GPS information and creation time information, and use them as prompt values for GPT. To use the YOLO model, we trained it on form image data, and the mAP score of the model is about 0.25 on average. GPT was trained on 1,000 blog text data with the topic of 'restaurant reviews', and the model trained in this study was used to generate sentences with two types of keywords extracted from the images. A survey was conducted to evaluate the practicality of the generated sentences, and a closed-ended survey was conducted to clearly analyze the survey results. There were three evaluation items for the questionnaire by providing the inserted image and keyword sentences. The results showed that the keywords in the images generated meaningful sentences. Through this study, we found that the accuracy of image-based sentence generation depends on the relationship between image keywords and GPT learning contents.

본 연구에서는 SNS와 같이 이미지와 함께 글을 작성하는 활동을 보조하기 위해 YOLO와 GPT를 활용한 SNS 문장 작성 보조 시스템을 제안한다. YOLO 모델을 활용하여 글 작성 시 삽입되는 이미지에서 객체를 추출하고 메타정보인 GPS 정보, 생성 시간 정보도 추출하여 함께 GPT의 프롬프트 값으로 사용한다. YOLO 모델을 사용하기 위해 양식 이미지 데이터로 학습하여 사용했으며 해당 모델의 mAP score는 평균 약 0.25이다. GPT는 '맛집 리뷰' 주제의 1,000개의 블로그 텍스트 데이터를 학습하였으며, 본 연구에서 학습된 모델을 사용하여 이미지에서 추출한 2가지 타입의 키워드로 문장을 생성하였다. 생성된 문장의 실용성을 평가하기 위해 설문을 진행하였으며 설문 결과의 명확한 분석을 위해 폐쇄형 설문을 진행하였다. 삽입한 이미지와 키워드 문장을 제공하여 질문에 대해 3가지 평가 항목을 두어 진행하였다. 설문 결과 이미지의 핵심 키워드 경우 유의미한 문장을 생성한다는 결과를 얻을 수 있었다. 본 연구를 통해서 이미지 기반 문장 생성 시 이미지 키워드와 GPT 학습 내용과의 관계에 따라 결과물의 정확성이 달라진다는 결과를 얻을 수 있었다.

Keywords

Acknowledgement

이 논문은 2023년도 동서대학교 "Dongseo Cluster Project"지원에 의하여 이루어진 것임 (DSU-20230005)

References

  1. Keum Youn Han and Seon Kyung Choi, "A Research on the responses and demands of freshman about writing education as college's required course", Korean Journal of General Education, Vol. 10, No. 3, (33), pp. 549-576, 2016
  2. A. Crestodina (2022, September 22), New Blogging Statistics: What Content Strategies Work in 2022? We asked 1016 Bloggers. [Online]. Available: https://www.orbitmedia.com/blog/blogging-statistics
  3. Yong Hwa Jo, Hyuek Jae Lee, Young Hun Kim, "Implementation of a Classification System for Dog Behaviors using YOLI-based Object Detection and a Node.js Server", KICSP, Vol. 21, No. 1, pp. 29-37. 2020
  4. J. Redmon, S. Divvala, R. Girshick, A. Farthadi, "You Only Look Once: Unified, Real-time Object Detection.", IEEE Conference on, pp. 779-788, 2015
  5. Sayak Paul (2018, December 10), Beginner's Guide to Google's Vision API in Python. [Online], Available: https://www.datacamp.com/tutorial/beginner-guide-google-vision-api
  6. JEIDA, "Digital Still Camera Image File Format Standard(Exchangeable image file format for Digital Still Cameras: Exif) Version 2.1"JEIDA, 1998
  7. Sung Jin Hong, "A Study on Manipulation Detection of Exif GPS Information in Photographic Files", KDFS, 5, No.1, pp. 41-54, 2011
  8. A. Radford, K. Narasimhan, T. Salimans, I. Stuskever "Improving Language Understanding by Generative Pre-Training", NIPS, 2018
  9. wicidocs, (2022, Jan 13) Creating a koGPT2 chatbot, [Online], Available: https://wikidocs.net/157001
  10. Ji Bum Kim, So Ri Kim, Jeong Han Kang, "Survey Experiment on Close-Ended and Open-Ended Questions: 2016 Korean General Social Survey (KGSS)", KASR, Vol. 18, No. 4, pp. 127-147, 2017
  11. (2023, April 25), Check out YOLO V8 performance. [Online], Available: https://developer-lionhong.tistory.com/62, https://docs.ultralytics.com/