• 제목/요약/키워드: 텍스트 기반 이미지 생성

검색결과 72건 처리시간 0.025초

이미지 객체 및 메타정보 기반 GPT 활용 SNS 문장 작성 보조 시스템 (GPT-enabled SNS Sentence writing support system Based on Image Object and Meta Information)

  • 이동희;문미경;최봉준
    • 융합신호처리학회논문지
    • /
    • 제24권3호
    • /
    • pp.160-165
    • /
    • 2023
  • 본 연구에서는 SNS와 같이 이미지와 함께 글을 작성하는 활동을 보조하기 위해 YOLO와 GPT를 활용한 SNS 문장 작성 보조 시스템을 제안한다. YOLO 모델을 활용하여 글 작성 시 삽입되는 이미지에서 객체를 추출하고 메타정보인 GPS 정보, 생성 시간 정보도 추출하여 함께 GPT의 프롬프트 값으로 사용한다. YOLO 모델을 사용하기 위해 양식 이미지 데이터로 학습하여 사용했으며 해당 모델의 mAP score는 평균 약 0.25이다. GPT는 '맛집 리뷰' 주제의 1,000개의 블로그 텍스트 데이터를 학습하였으며, 본 연구에서 학습된 모델을 사용하여 이미지에서 추출한 2가지 타입의 키워드로 문장을 생성하였다. 생성된 문장의 실용성을 평가하기 위해 설문을 진행하였으며 설문 결과의 명확한 분석을 위해 폐쇄형 설문을 진행하였다. 삽입한 이미지와 키워드 문장을 제공하여 질문에 대해 3가지 평가 항목을 두어 진행하였다. 설문 결과 이미지의 핵심 키워드 경우 유의미한 문장을 생성한다는 결과를 얻을 수 있었다. 본 연구를 통해서 이미지 기반 문장 생성 시 이미지 키워드와 GPT 학습 내용과의 관계에 따라 결과물의 정확성이 달라진다는 결과를 얻을 수 있었다.

클라우드 컴퓨팅 기반 스트리밍 미디어의 검색 가능 이미지 암호 시스템의 설계 (Design of Searchable Image Encryption System of Streaming Media based on Cloud Computing)

  • 차병래;김대규;김남호;최세일;김종원
    • 한국전자통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.811-819
    • /
    • 2012
  • 본 논문에서는 클라우드 기반의 스트리밍 미디어의 보안 인증과 프라이버시를 제공하기 위한 검색 가능 이미지 암호 시스템을 설계한다. 검색 가능 암호 시스템의 기본 설계를 모태로 텍스트의 검색에서 확장하여 스트리밍 서비스의 검색을 가능하며, 암호화 및 CBIR 기술을 이용하여 개인의 프라이버시 및 보안 인증을 제공한다. Partial Story Cut과 Image Keyword 생성의 간략한 시뮬레이션을 통하여 스트리밍 서비스 기반의 검색 가능 암호 시스템의 가능성을 확인할 수 있다.

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

데이터 내용 보호를 위한 이미지 특징 기반의 보안 접근 제어 (Image Features Based Secure Access Control for Data Content Protection)

  • 하선주;박대철
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.171-180
    • /
    • 2013
  • 데이터의 보안은 항상 중요한 문제이다. 특히 현재 각광받고 있는 클라우드 컴퓨팅 시스템은 필연적으로 데이터 보안의 문제가 제기되고 있다. 그러나 단순한 보안방법으로는 더 이상 데이터가 안전하지 않으며, 데이터 보안을 위해서 보다 진보된 방법을 요구하고 있다. 본 논문에서는 기존의 텍스트 기반의 암호 방식보다 더 높은 레벨의 보안방식을 제시하기 위해 이미지 정보 기반의 데이터 내용 접근 제어 방식에 관하여 연구하였다. 원본 이미지에서 히스토그램 값을 이용하여 칼라키를 생성하고 이미지를 변환시켜 위치정보와 색상정보를 추출하여 보안 키를 생성하여 보안처리된 데이터 내용을 접근한다. 끝으로 본 몬문은 제안한 기법를 평가하기 위해 데이터 내용의 접근을 제어할 수 있는 인터페이스를 설계하고 구현하였다.

Mass Collaboration 사례를 통한 SNS 정보 활용 접근 방법 (A Methodology of approach on Information from Social Network Service)

  • 임수민;김형중;주상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1579-1581
    • /
    • 2011
  • 페이스북(Facebook)과 트위터(Twitter)등으로 각광 받는 소셜 네트워크 서비스(Social Network Service)는 사용자의 온라인과 오프라인에 구축된 인맥 네트워크를 기반으로 한다. SNS내의 소셜커머스, 소셜어플리케이션 등의 다양한 기능이 추가 되면서 새로운 온라인 서비스 시장이 등장하게 되었다. 초기의 새로운 가상 인맥 늘리기 수단으로 사용되었던 SNS서비스는 스마트폰의 등장과 카메라, 마이크 등의 추가 디바이스와 서비스간의 연계가 가능해 지면서 이용자들의 새로운 정보 생성과 실시간 커뮤니케이션이 가능해 졌다. 또한 SNS를 통한 정보의 흐름은 텍스트 기반의 한방향 정보 전달 틀에서 소리와 이미지, 동영상등의 다양한 미디어가 취합되는 공간이 됨으로서 사용자와 다른 사용자간의 상호 작용이 가능한 쌍방향 소통으로 현실의 정보를 보다 정확하고 빠르게 전달할 수 있는 하나의 미디어 형태로 진화하는 중이다. 본 논문에서는 소셜 서비스에서 생성된 정보가 집단 협업(Mass Collaboration)을 이룰 때 갖는 신뢰성을 기대하여 키워드 중심의 정보 형성에 따른 SNS 활용 방법을 제시한다.

내용기반 이미지 검색에 있어 이미지 속성정보를 활용한 검색 효율성 향상 (A Study on Increasing the Efficiency of Image Search Using Image Attribute in the area of content-Based Image Retrieval)

  • 모영일;이철규
    • 한국시뮬레이션학회논문지
    • /
    • 제18권2호
    • /
    • pp.39-48
    • /
    • 2009
  • 본 연구는 내용 기반 이미지 검색 관련한 기존의 이미지 검색 방식에 관한 고찰을 통하여 이미지 검색의 한계점을 살펴보고, 보다 효율적인 내용기반의 이미지 검색을 위한 사용자용 인터페이스와 이미지 속성 활용 방법에 대하여 제안 하고자 한다. 현재 이미지 검색에 관련된 대부분의 연구들은 내용기반을 위주로 연구가 진행되고 있으며, 대표적으로는 이미지의 색상, 질감, 모양, 전체적인 이미지 형태를 기준으로 검색을 시도하고 있다. 하지만 여러 가지 기술적 한계로 인하여 만족할 만한 검색결과를 얻지 못하고 있다. 이에 본 연구에서는 내용기반 이미지 검색과 종래의 키워드 검색 방식을 적용한 새로운 검색방식을 제안하였다. 이는 이미지 내에 텍스트로 속성을 부여하는 방법과, 이미지 내의 속성정보들을 키워드화 하여 검색에 활용함으로써 이미지를 빠르게 검색하는 방법에 대한 것이다. 또한 인터넷상에서의 질의어 생성을 위한 사용자 인터페이스용 시뮬레이션과 이미지 속성을 기반으로 한 검색 시스템개발 시 활용할 수 있는 분야로 인터넷 쇼핑몰의 의류상품 검색을 중심으로 설명 하였다. 본 연구로 인해 인터넷 쇼핑몰에서 새로운 구매유형이 추가될 수 있고, 유사 이미지 검색 분야의 발전에 기여할 것이다.

개인정보보호를 위한 다중 유형 객체 탐지 기반 비식별화 기법 (Multi-type object detection-based de-identification technique for personal information protection)

  • 길예슬;이효진;류정화;이일구
    • 융합보안논문지
    • /
    • 제22권5호
    • /
    • pp.11-20
    • /
    • 2022
  • 인터넷과 웹 기술이 모바일 장치 중심으로 발전하면서 이미지 데이터는 사람, 텍스트, 공간 등 다양한 유형의 민감정보를 담고 있다. 이러한 특성과 더불어 SNS 사용이 증가하면서 온라인 상의 개인정보가 노출되고 악용되는 피해 규모가 커지고 있다. 그러나 개인정보보호를 위한 다중 유형 객체 탐지 기반의 비식별화 기술에 관한 연구는 미흡한 상황이다. 이에 본 논문은 기존의 단일 유형 객체 탐지 모델을 병렬적으로 이용하여 다중 유형의 객체를 탐지 및 비식별화하는 인공지능 모델을 제안한다. Cutmix 기법을 통해 사람과 텍스트 객체가 함께 존재하는 이미지를 생성하여 학습 데이터로 구성하고, 사람과 텍스트라는 다른 특징을 가진 객체에 대한 탐지 및 비식별화를 수행하였다. 제안하는 모델은 두 가지 객체가 동시에 존재할 때 0.724의 precision과 0.745의 mAP@.5 를 달성한다. 또한, 비식별화 수행 후 전체 객체에 대해 mAP@.5 가 0.224로, 0.4 이상의 감소폭을 보였다.

SMIL 저작도구를 위한 아이콘 기반의 동기화 표현 기법 (Icon-based Synchronization Representation for SMIL Authoring Tool)

  • 노승진;장진희;성미영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.403-405
    • /
    • 2001
  • 이 연구는 오디오, 비디오, 이미지, 텍스트 등의 다양한 멀티미디어 객체들을 동기적으로 통합하여 표현하기 위한 SMIL(Synchronized Multimedia Integration Language) 표준을 지원하는 GUI 기반 저작도구의 구현에 대한 것이다. 현재까지 멀티미디어 저작을 위한 다양한 인터페이스가 개발되어 왔다. 본 논문에서는 멀티미디어의 논리적인 프리젠테이션 과정을 직관적으로 표현하기 위한 그래픽 사용자 인터페이스를 제안한다. 본 논문에서 제안하는 사용자 인터페이스는 일반적인 미디어객체들 간의 시간관계를 직관적으로 표현하고 편집할 수 있는 아이콘 기반의 인터페이스와, 미디어간의 세부적인 편집을 지원하는 시간기반의 인터페이스, 미디어 객체들의 공간적 재생 위치를 지정하는 배치(layout) 인터페이스 등이다. 이와 같은 다양한 인터페이스를 통합하여 위지위그(WYSIWYG) 방식으로 SMIL파일을 생성할 수 있다.

  • PDF

연속적 I/O와 클러스터 인덱싱 구조를 이용한 이미지 데이타 검색 연구 (A study on searching image by cluster indexing and sequential I/O)

  • 김진옥;황대준
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.779-788
    • /
    • 2002
  • 이미지, 비디오, 오디오와 같은 멀티미디어 데이터들은 텍스트기반의 데이터에 비하여 대용량이고 비정형적인 특성때문에 검색이 어렵다. 또한 멀티미디어 데이터의 특징은 행렬이나 벡터의 형태로 표현되기 때문에 완전일치 검색이 아닌 유사 검색을 수행하여 원하는 이미지와 유사한 이미지를 검색해야 한다. 본 논문에서는 멀티미디어 데이터 검색에 클러스터링과 인덱싱 기법을 같이 적용하여 유사한 이미지는 인접 디스크에 클러스터하고 이 클러스터에 접근하는 인덱스를 구축함으로써 이미지 근처의 클러스터를 찾아 빠른 검색 결과를 제공하는 유사 검색방법을 제시한다. 본 논문에서는 트리 유사 구조의 인덱스 대신 해싱 방법을 이용하며 검색시 I/O 시간을 줄이기 위해 오브젝트를 가진 클러스터 위치를 찾는데 한번의 I/O를 사용하고 이 클러스터를 읽기 위해 연속적인 파일 I/O를 사용하여 클러스터를 찾는 비용을 최소화한다. 클러스터 인덱싱 접근은 클러스터링을 생성하는 알고리즘과 해싱 기법의 인덱싱을 이용함으로써 고차원 데이터가 갖는 차원의 문제를 해결하며 클러스터링 또는 인덱싱 만을 이용하는 내용기반의 이미지 검색보다 효율적인 검색 적합성을 보인다.

유니버설 디자인에 기반을 둔 새로운 그래픽 패스워드 기법 (A New Graphical Password Scheme Based on Universal Design)

  • 양기철;김황용
    • 디지털융복합연구
    • /
    • 제12권5호
    • /
    • pp.231-238
    • /
    • 2014
  • 텍스트 기반 패스워드 인증의 문제점을 해결하기 위해서 이미지를 사용하는 그래픽 패스워드가 발전 하였다. 기본적으로 그래픽 패스워드는 화면에 보이는 이미지 위의 정확한 점의 위치를 순서대로 선택(클릭)하여 인증을 처리하는 방식이다. 이러한 기존의 그래픽 패스워드 방식은 화면상의 정확한 지점을 선택하여 클릭하지 못하면 인식에 실패한다. 본 논문에서는 이러한 단점을 개선한 신 개념의 그래픽 패스워드 방식인 PassPositions를 소개한다. PassPositions는 지금까지의 그래픽 패스워드 방식에서 사용하지 않았던 상대위치를 패스워드 생성에 사용한 신개념의 그래픽 패스워드 기법이다. PassPositions는 유니버설 디자인에 기반을 둔 그래픽 패스워드 기법으로 사용자의 신체적 조건에 관계없이 모두가 편리하게 사용할 수 있다.