• Title/Summary/Keyword: text-to-image

검색결과 896건 처리시간 0.034초

Meme Analysis using Image Captioning Model and GPT-4

  • Marvin John Ignacio;Thanh Tin Nguyen;Jia Wang;Yong-Guk Kim
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.628-631
    • /
    • 2023
  • We present a new approach to evaluate the generated texts by Large Language Models (LLMs) for meme classification. Analyzing an image with embedded texts, i.e. meme, is challenging, even for existing state-of-the-art computer vision models. By leveraging large image-to-text models, we can extract image descriptions that can be used in other tasks, such as classification. In our methodology, we first generate image captions using BLIP-2 models. Using these captions, we use GPT-4 to evaluate the relationship between the caption and the meme text. The results show that OPT6.7B provides a better rating than other LLMs, suggesting that the proposed method has a potential for meme classification.

에지 및 컬러 양자화를 이용한 모바일 폰 카메라 기반장면 텍스트 검출 (Mobile Phone Camera Based Scene Text Detection Using Edge and Color Quantization)

  • 박종천;이근왕
    • 한국산학기술학회논문지
    • /
    • 제11권3호
    • /
    • pp.847-852
    • /
    • 2010
  • 자연 영상 내에 포함된 텍스트는 영상의 다양하고 중요한 특징을 갖는다. 그러므로 텍스트를 검출하고 추출하여 인식하는 것이 중요한 연구대상으로 연구되고 있다. 최근 모바일 폰 카메라를 기반으로 다양한 분야에서 많은 응용 기술이 연구 개발되고 있다. 본 논문은 에지 및 연결요소를 이용한 장면 텍스트 검출 방법을 제안한다. 그레이스케일 영상으로부터 에지 성분 검출과 지역적 표준편차를 이용하여 텍스트 영역의 경계선을 검출하고, RGB 컬러공간의 유클리디안 거리를 기준으로 연결요소를 검출한다. 검출된 에지 및 연결요소를 레이블링하고 각각 영역의 외곽사각형을 구한다. 텍스트의 휴리스틱 이용하여 후보 텍스트를 추출한다. 후보 텍스트 영역을 병합하여 하나의 후보 텍스트 영역을 생성하고, 후보 텍스트의 지역적 인접성과 구조적 유사성으로 후보 텍스트를 검증함으로서 최종적인 텍스트 영역을 검출하였다. 실험결과 에지 및 컬러 연결요소 특징을 상호 보완함으로서 텍스트 영역의 검출률을 향상시켰다.

Arabic Text Recognition with Harakat Using Deep Learning

  • Ashwag, Maghraby;Esraa, Samkari
    • International Journal of Computer Science & Network Security
    • /
    • 제23권1호
    • /
    • pp.41-46
    • /
    • 2023
  • Because of the significant role that harakat plays in Arabic text, this paper used deep learning to extract Arabic text with its harakat from an image. Convolutional neural networks and recurrent neural network algorithms were applied to the dataset, which contained 110 images, each representing one word. The results showed the ability to extract some letters with harakat.

모바일 네트워크를 이용한 임베디드 전광판제어기의 구현 (Implementation of the Embedded System Screen Control using Mobile Network)

  • 이연석;김양우
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2006년도 하계학술대회
    • /
    • pp.269-273
    • /
    • 2006
  • In this paper, a remote screen control by mobile networks on embedded system is implemented. For this system a server program is ported on the embedded system connected with internet. And on the side of a mobile phone, a client program is ported using GVM. The embedded system can display the text and image from the mobile phone on its LCD. In the implemented embedded system the text and image data from GVM emulator is sent to the system for display on its LCD. The realization of the proposed embedded system can display the text :md image from a working mobile phone.

  • PDF

Machine Learning Based Automatic Categorization Model for Text Lines in Invoice Documents

  • Shin, Hyun-Kyung
    • 한국멀티미디어학회논문지
    • /
    • 제13권12호
    • /
    • pp.1786-1797
    • /
    • 2010
  • Automatic understanding of contents in document image is a very hard problem due to involvement with mathematically challenging problems originated mainly from the over-determined system induced by document segmentation process. In both academic and industrial areas, there have been incessant and various efforts to improve core parts of content retrieval technologies by the means of separating out segmentation related issues using semi-structured document, e.g., invoice,. In this paper we proposed classification models for text lines on invoice document in which text lines were clustered into the five categories in accordance with their contents: purchase order header, invoice header, summary header, surcharge header, purchase items. Our investigation was concentrated on the performance of machine learning based models in aspect of linear-discriminant-analysis (LDA) and non-LDA (logic based). In the group of LDA, na$\"{\i}$ve baysian, k-nearest neighbor, and SVM were used, in the group of non LDA, decision tree, random forest, and boost were used. We described the details of feature vector construction and the selection processes of the model and the parameter including training and validation. We also presented the experimental results of comparison on training/classification error levels for the models employed.

공통기술표현포맷에 기반한 다매체자료의 검색효율 향상에 관한 연구 (A Study on the Improvement of Retrieval Efficiency Based on the CRFMD)

  • 박일종;정기태
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.5-21
    • /
    • 2006
  • 최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

<이야기 속의 이야기> 사운드 분석 (The sound analysis of )

  • 목혜정
    • 만화애니메이션 연구
    • /
    • 통권20호
    • /
    • pp.87-104
    • /
    • 2010
  • 애니메이션은 일반 영화와 마찬가지로 이미지와 사운드가 결합하여 의미와 감동을 만들어낸다. 유리 노르슈테인의 <이야기 속의 이야기>는 다양한 음악과 음향효과가 이미지와 잘 결합했다는 점에서, 애니메이션 사운드 분석의 좋은 사례가 되는 작품이다. 본 연구는 이 작품 속에서 사운드가 어떤 기능을 하면서 의미를 만드는가를 분석하는데 초점을 맞춘다. 일반적으로 사운드는 대사, 음악, 음향효과라는 세 개의 영역으로 나눠지며, 애니메이션은 각 영역에 독특한 미학적 특성이 있다. 대사에 사용되는 목소리는 캐릭터의 이미지에 맞춰 창조되며, 음악에서는 특별히 이미지와 리듬의 결합이 중요하다. 음향효과 면에서도 애니메이션에서는 단순한 소리의 모사가 아닌 움직임의 묘사라는 성격이 강하다. 본 연구는 이 세 가지 영역으로 나눠 사용된 사운드를 분석하되, 청점과 주관적 사운드, 사이음의 개념도 분석을 위해 사용했다. 작품에 사용된 러시아 자장가는 멜로디의 변주와 반복을 통해 전체 내러티브의 모티브로 기능을 한다. 아기와 늑대의 청점을 통한 주관적 사운드의 사용은 작품의 중심을 이루고 있는 캐릭터에 특별한 위상을 부여한다. 음악과 이미지의 반복적 결합, 음향효과의 언어적이고 주석적인 기능, 그리고 비교적 관습적인 음악과 음향사용은 작품의 가독성과 감동을 높여준다는 것들은 이 작품의 전체적 사운드사용의 특징이다.

  • PDF

An Image Retrieving Scheme Using Salient Features and Annotation Watermarking

  • Wang, Jenq-Haur;Liu, Chuan-Ming;Syu, Jhih-Siang;Chen, Yen-Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권1호
    • /
    • pp.213-231
    • /
    • 2014
  • Existing image search systems allow users to search images by keywords, or by example images through content-based image retrieval (CBIR). On the other hand, users might learn more relevant textual information about an image from its text captions or surrounding contexts within documents or Web pages. Without such contexts, it's difficult to extract semantic description directly from the image content. In this paper, we propose an annotation watermarking system for users to embed text descriptions, and retrieve more relevant textual information from similar images. First, tags associated with an image are converted by two-dimensional code and embedded into the image by discrete wavelet transform (DWT). Next, for images without annotations, similar images can be obtained by CBIR techniques and embedded annotations can be extracted. Specifically, we use global features such as color ratios and dominant sub-image colors for preliminary filtering. Then, local features such as Scale-Invariant Feature Transform (SIFT) descriptors are extracted for similarity matching. This design can achieve good effectiveness with reasonable processing time in practical systems. Our experimental results showed good accuracy in retrieving similar images and extracting relevant tags from similar images.

웹 콘텐츠의 정보제시유형이 어린이 뉴스정보처리과정에 미치는 영향 (The Effects of the Presentation Mode of Web Contents on the Children's Information Processing Process)

  • 최이정
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.113-122
    • /
    • 2005
  • 본 연구는 웹 콘텐츠 표현의 기본 4요소라고 할 수 있는 동영상, 오디오 이미지, 텍스트의 서로 다른 활용이 수용자의 정보처리과정에 어떤 영향을 미치는지를 특히 어린이 뉴스 사이트를 중심으로 실험연구를 통해 고찰한 것이다. 이를 위해 다섯 개의 어린이 피험자 그룹별로 똑같은 스토리의 뉴스정보를 각각 "동영상1(화면과 음성정보 중복)", "동영상2(화면과 음성정보 분리)", "오디오", "텍스트", "텍스트+이미지(사진)"의 서로 다른 형태로 제작한 웹사이트를 통해 전달하고 집단간 뉴스정보기억차이를 검증했다. 검증결과 동영상으로 뉴스를 전달하도록 디자인된 사이트는 다른 형식의 사이트에 비해 어린이의 뉴스정보기억과 관련하여 가장 효율적인 것으로 나타났고, 이런 동영상의 장점은 동영상내의 화면과 음성정보가 중복될 때 특히 강화되는 것으로 나타났다.

  • PDF

자연영상에서 교통 표지판의 기울기 보정 및 덱스트 추출 (Skew Compensation and Text Extraction of The Traffic Sign in Natural Scenes)

  • 최규담;김성동;최기호
    • 한국ITS학회 논문지
    • /
    • 제3권2호
    • /
    • pp.19-28
    • /
    • 2004
  • 본 논문은 자연영상에서 얻은 교통표지판의 기울기를 보정하고 텍스트를 추출하는 방법을 제안한다. 본 연구는 명도 이미지를 대상으로 모든 과정이 4단계로 이루어진다. 첫째, 자연 영상에서 에지 검출을 위한 전처리 및 Canny 에지 추출을 수행하며, 둘째, 영상의 기울기를 추출하기 위해 허프 변환에 대한 전처리와 후처리를 한 후, 셋째로 잡음영상과 선을 제거하고 텍스트가 가지고 있는 특징을 이용하여 후보영역 검출을 한다 마지막으로 검출된 텍스트 후보영역 안에서 지역적 이진화를 수행한 후, 불필요한 비텍스트 연결 요소를 추려내기 위해 텍스트와 비텍스트 간의 연결요소에 나타나는 특징 차이를 이용하여 텍스트 추출을 수행한다 100장의 샘플영상을 대상으로 실험한 결과 82.54$\%$ 텍스트 추출률과 79.69$\%$ 추출 정확도를 가짐으로써 기존의 런 길이 평활화 방법이나 퓨리어 변환을 이용한 방법보다 더 정확한 텍스트 추출 향상을 보였다. 또한 기울어진 각도 추출에서도 94.3$\%$의 추출률로 기존의 Hough 변환만을 이용한 방법보다 약 26$\%$의 향상을 보였다. 본 연구는 시각 장애인 보행 보조 시스템이나 무인 자동차 운행에 있어 위치 정보를 제공하는데 활용할수 있을 것이다.

  • PDF