• 제목/요약/키워드: 텍스트 기반 이미지 생성

검색결과 72건 처리시간 0.02초

프롬프트 기반 퓨샷 러닝을 통한 한국어 대화형 텍스트 기반 이미지 생성 (Image Generation from Korean Dialogue Text via Prompt-based Few-shot Learning)

  • 이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.447-451
    • /
    • 2022
  • 본 논문에서는 사용자가 대화 텍스트 방식의 입력을 주었을 때 이를 키워드 중심으로 변환하여 이미지를 생성해내는 방식을 제안한다. 대화 텍스트란 채팅 등에서 주로 사용하는 형식의 구어체를 말하며 이러한 텍스트 형식은 텍스트 기반 이미지 생성 모델이 적절한 아웃풋 이미지를 생성하기 어렵게 만든다. 이를 해결하기 위해 대화 텍스트를 키워드 중심 텍스트로 바꾸어 텍스트 기반 이미지 생성 모델의 입력으로 변환하는 과정이 이미지 생성의 질을 높이는 좋은 방안이 될 수 있는데 이러한 태스크에 적합한 학습 데이터는 충분하지 않다. 본 논문에서는 이러한 문제를 다루기 위한 하나의 방안으로 사전학습된 초대형 언어모델인 KoGPT 모델을 활용하며, 퓨샷 러닝을 통해 적은 양의 직접 제작한 데이터만을 학습시켜 대화 텍스트 기반의 이미지 생성을 구현하는 방법을 제안한다.

  • PDF

생성적 적대 네트워크를 활용한 텍스트와 스케치 기반 이미지 생성 기법 (Image Generation based on Text and Sketch with Generative Adversarial Networks)

  • 이제훈;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.293-296
    • /
    • 2018
  • 생성적 적대 네트워크를 활용하여 텍스트, 스케치 등 다양한 자원으로부터 이미지를 생성하기 위한 연구는 활발하게 진행되고 있으며 많은 실용적인 연구가 존재한다. 하지만 기존 연구들은 텍스트나 스케치 등 각 하나의 자원을 통해 이미지를 생성하기 때문에 설명이 부족한 텍스트, 실제 이미지와 상이한 스케치와 같이 자원의 정보가 불완전한 경우에는 제대로 된 이미지를 생성하지 못한다는 한계가 있다. 본 논문에서는 기존 연구의 한계점올 극복하기 위해 텍스트와 스케치 두 개의 자원을 동시에 활용하여 이미지를 생성하는 새로운 생성 기법 TS-GAN 을 제안한다. TS-GAN 은 두 단계로 이루어져 있으며 각 단계를 통해 더욱 사실적인 이미지를 생성한다. 본 논문에서 제안한 기법은 컴퓨터 비전 분야에서 많이 활용되는 CUB 데이터세트를 사용하여 이미지 생성 결과의 우수성을 보인다.

생성 AI 모델을 위한 텍스트 프롬프트 추정 기반 한국화 재생성에 대한 연구 (A Study on the Reproduction of Korean Painting through Text Prompt Estimation for Generative AI Models)

  • 문성원;이지원;남도원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.432-433
    • /
    • 2023
  • 스테이블 디퓨전(Stable diffusion)과 같은 텍스트 프롬프트 입력 기반 이미지 생성 AI 기술의 발전으로 원하는 형태의 고품질 이미지를 누구나 손쉽게 생성가능할 것으로 기대하였으나 대부분의 경우 원하는 이미지를 얻기 위해서는 텍스트 프롬프트를 정교하게 조정해가며 많은 실패를 겪어야만 한다. 이러한 한계를 극복하기 위해 클립 인터로게이터(CLIP Interrogator)와 같은 유사 이미지를 재생성하기 위한 텍스트 프롬프트 추정 기술이 개발되었으며 몇몇 이미지에 대해 뛰어난 결과를 보였다. 본 논문에서는 이러한 텍스트 프롬프트 추정 기술의 활용이 한국화를 재생성할 수 있는지 실험을 통해 가능성을 확인하고 향후 한국화 재생성을 위한 연구 방향을 제안하고자 한다.

내용 기반 이미지 검색을 위한 복합 질의문 계획 생성 기법 (Generating Combined Query Plan for Content-Based Image Retrieval)

  • 박미화;엄기현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권4호
    • /
    • pp.562-571
    • /
    • 2000
  • 이미지 데이터는 텍스트 데이터와는 달리 다양한 색상과 모양, 질감과 같은 비정형적인 특징을 가진다. 따라서 이미지 데이터베이스는 텍스트 기반의 전통 데이터베이스와는 다른 모델링 방법과 질의, 검색 방법을 사용한. 특히, 내용 기반 이미지 검색에서의 검색 속도와 정확도를 향상시키기 위해서는 새로운 복합 질의문 계획 생성 기법이 필요하다. 본 논문에서는 이를 위해 먼저, 단일 조건을 갖는 시각 질의에 대한 처리 기법들을 토대로 여러 조건을 갖는 복합 질의를 처리하기 위한 복합 질의문 계획 생성기법인 SSCC(Similarity Search for Conjunction Combination Query) 알고리즘을 제안한다. SSCC는 이미지 데이터베이스 검색 시스템에서 복합 질의를 처리하기 위한 질의 최적화 과정에서 질의 수행 시간과 투플 I/O를 최소화하는 질의문 계획을 생성하기 위해 사용된다. SSCC 알고리즘은 복합질의를 단일 질의들로 준해하고 퍼지 집합 이론을 도입하여 단일 질의의 결과들을 통합한다. 논문에서 연구된 내용 기반 복합 질의문 계획 생성 기법은 특정 이미지 영역에 국한되지 않으며 다양한 종류의 시각 질의를 수행하기 위한 효율적인 질의문 계획 생성 기법으로 사용될 수 있다.

  • PDF

요괴 캐릭터 연구:요괴 이미지의 생성원리를 중심으로 (A study of a Japanese goblin character:Centered around the making method of goblins' image)

  • 김윤아
    • 만화애니메이션 연구
    • /
    • 통권16호
    • /
    • pp.141-163
    • /
    • 2009
  • 일본 요괴 애니메이션에 등장하는 요괴 캐릭터의 이미지를 검토하고, 요괴 캐릭터의 생성 원리를 찾아내고자 했다. 이론적으로 줄리아 크리스테바의 '상호텍스트성' 개념과 롤랑 바르뜨의 '텍스트'개념을 방법론으로 채택하여 중국의 신화 지리지 "산해경"과 상호텍스트적 관계를 보이는 <포켓몬스터>의 여러 캐릭터들의 생성원리와 일본의 애니미즘적 사고에 기초한 '백귀야행도'에 등장하는 전통 요괴 캐릭터들의 현대적인 변용을 고찰하였다. 상호텍스트성은 기억 혹은 역사와 연관되며 이는 텍스트에서 드러나기 때문에 요괴 애니메이션의 캐릭터 연구에 유용한 이론적 틀을 제공한다. 또한 요괴담이나 요괴의 이미지들은 민담처럼 집단적 담론의 결과물이며 끊임없는 첨가와 삭제가 이루어지는 텍스트적 속성을 고려해 볼 때, 변화하는 집단 상상력의 산물이라 보인다. 상호텍스트성에 기반한 괴물이나 요괴의 이미지 생성은 크게 '하이브리드'와 '뮤턴트'로 구분해 볼 수 있으며, 구체적인 이미지 제시와 분석을 통해 요괴 이미지의 생성원리를 설명하였다. 인간의 공포에 상상력의 날개를 달아 만들어지는 요괴 캐릭터들은 이미지에 있어 시각적 쾌락을 보여주며 문화 컨텐츠의 아이콘으로 기능하는 것을 알 수 있다.

  • PDF

이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템 (Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features)

  • 임정우;장윤나;손준영;이승윤;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

상호 관계 기반 자동 이미지 주석 생성 (Correlation-based Automatic Image Captioning)

  • Hyungjeong, Yang;Pinar, Duygulu;Christos, Falout
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1386-1399
    • /
    • 2004
  • 본 논문에서는 상호 관계에 기반한 자동 이미지 주석 생성 방법을 보인다 새로운 실험 이미지를 위한 자동 주석의 생성은 훈련 데이타 내의 주석과 함께 주어진 이미지들을 이용하여 이미지의 시각적 속성과 텍스트 속성의 상호 관계를 발견해 냄으로 수행된다. 본 논문에서 제시하는 상호 관계 기반 자동주석 생성 모델은 1) 시각적 속성의 적절한 군집화, 2) 시각적 속성과 텍스트 속성의 가중치 부여, 3) 노이즈 제거를 위한 차원 축소 등의 요소를 고려하여 설계된다. 실험은 680 MB의 Corel 이미지 데이터를 이용하여 각 10개의 데이타 집합에 대해 수행되었으며, 실험 결과, 시각적 속성과 텍스트 속성에 대한 가중치 부여와 시각적 속성의 적절한 군집화가 모델의 성능을 향상시키며, 본 논문에서 제시한 상호 관계기반 모델이 기존의 EM을 이용한 자동 주석 생성 모델에 비해 45%의 상대적 성능 향상을 보인다.

A Design and Implementation of Generative AI-based Advertising Image Production Service Application

  • Chang Hee Ok;Hyun Sung Lee;Min Soo Jeong;Yu Jin Jeong;Ji An Choi;Young-Bok Cho;Won Joo Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.31-38
    • /
    • 2024
  • 본 논문에서는 생성형 AI 기반의 광고 이미지 자동 제작 서비스를 제공하는 ASAP(AI-driven Service for Advertisement Production) 애플리케이션을 제안한다. 이 애플리케이션은 GPT-3.5 Turbo Instruct를 이용하여 사용자가 입력한 키워드에 적합한 배경 분위기와 홍보 문구를 생성한다. 이를 입력으로 하여 배경 이미지와 텍스트 이미지를 생성하기 위해 OpenAI사의 DALL·E 3 모델과 Stability AI사의 SDXL 모델을 활용한다. 추가적으로 OCR 기술을 활용하여 텍스트 이미지의 정확도를 높이고, 생성된 출력물들을 모두 합성하여 최종적인 광고를 제작한다. 또한 PILLOW, OpenCV 라이브러리의 텍스트 박스를 이용하여 전화번호, 영업시간 등 세부 사항을 홍보물의 가장자리에 삽입할 수 있도록 구현한다. 본 애플리케이션은 광고 제작에 어려움이 많은 소상공인들에게 광고를 쉽고 편리하게 제작할 수 있고, 광고 제작 비용을 절감할 수 있는 효과를 제공한다.

Text Augmentation Using Hierarchy-based Word Replacement

  • Kim, Museong;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.57-67
    • /
    • 2021
  • 최근 딥 러닝(Deep Learning) 분석에 이질적인 데이터를 함께 사용하는 멀티모달(Multi-modal) 딥러닝 기술이 많이 활용되고 있으며, 특히 텍스트로부터 자동으로 이미지를 생성해내는 Text to Image 합성에 관한 연구가 활발하게 수행되고 있다. 이미지 합성을 위한 딥러닝 학습은 방대한 양의 이미지와 이미지를 설명하는 텍스트의 쌍으로 구성된 데이터를 필요로 하므로, 소량의 데이터로부터 다량의 데이터를 생성하기 위한 데이터 증강 기법이 고안되어 왔다. 텍스트 데이터 증강의 경우 유의어 대체에 기반을 둔 기법들이 다수 사용되고 있지만, 이들 기법은 명사 단어의 유의어 대체 시 이미지의 내용과 상이한 텍스트를 생성할 가능성이 있다는 한계를 갖는다. 따라서 본 연구에서는 단어가 갖는 품사별 특징을 활용하는 텍스트 데이터 증강 방안, 즉 일부 품사에 대해 단어 계층 정보를 활용하여 단어를 대체하는 방안을 제시하였다. 또한 제안 방법론의 성능을 평가하기 위해 MSCOCO 데이터를 사용하여 실험을 수행하여 결과를 제시하였다.

효과적인 이미지 검색을 위한 태그 기반의 폭소노미 이미지 카테고리화 기법 (A Categorization Scheme of Tag-based Folksonomy Images for Efficient Image Retrieval)

  • 하은지;김용성;황인준
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권6호
    • /
    • pp.290-295
    • /
    • 2016
  • 최근 사용자들이 협동적으로 이미지 주석인 태그를 만들고 활용하는 폭소노미 기반의 이미지 공유 사이트들이 많은 인기를 얻고 있다. 이러한 사이트는 사용자 질의에 대해 단순한 텍스트 매칭 기반의 검색을 수행하고 매칭되는 결과 이미지들을 포토 스트림 형태로 나열하여 보여 준다. 하지만 이러한 태그들은 매우 개인적이고 주관적이며, 이미지 역시 카테고리로 분류되어 있지 않기 때문에 검색의 정확도나 사용자 만족도가 떨어진다는 문제점이 있다. 본 연구에서는 태그를 기반으로 하는 이미지 검색에서 검색의 정확도를 높일 수 있는 폭소노미 이미지의 카테고리화 기법을 제안하고, 폭소노미 환경에서 생성된 태그와 이미지 정보를 모두 이용하며 의미적으로 유사한 이미지들끼리 분류된 검색 결과를 생성한다. 제안하는 기법의 성능 평가를 위해 폭소노미 이미지를 수집하고 텍스트, 이미지 특성에 따른 카테고리 분류를 수행하여 기존 검색 기법과 이미지 검색의 정확도를 비교한다.