• 제목/요약/키워드: Image-text generation

검색결과 64건 처리시간 0.024초

모바일 기반 Air Writing을 위한 객체 탐지 및 광학 문자 인식 방법 (Object Detection and Optical Character Recognition for Mobile-based Air Writing)

  • 김태일;고영진;김태영
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제15권5호
    • /
    • pp.53-63
    • /
    • 2019
  • 모바일 환경에서 딥러닝을 통한 손 제스처 인터페이스를 제공하려면 높은 인식률을 제공하면서 실행속도의 저하를 막기 위한 네트워크 경량화의 연구가 필수적이다. 본 논문은 딥러닝 모델의 경량화를 통해 모바일 기기에서 손가락을 이용하여 공중에 쓴 문자를 실시간으로 인식하는 방법을 제안한다. MobileNet을 특징 추출기로 활용하는 객체 탐지 모델인 SSD (Single Shot Detector)를 기반으로 집게손가락을 탐지하고 손끝 경로를 이어 결과문자 영상을 생성한다. 이 영상은 서버로 전송되어 정규화 과정을 수행한 다음 학습된 OCR 모델을 이용하여 문자를 인식한다. 본 방법을 검증하기 위하여 12명의 사용자가 GALAXY S10+ 기기를 사용하여 1,000개의 단어를 실험한 결과 평균 88.6%의 정확도로 손가락을 인식하고 124 ms 이내로 인식된 텍스트가 출력되어 실시간으로 활용 가능함을 알 수 있었다. 본 연구결과는 모바일 환경에서 손가락을 이용한 간단한 문자 전송, 메모 및 공중 서명 등에 활용될 수 있다.

가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템 제안 (Proposal for Deep Learning based Character Recognition System by Virtual Data Generation)

  • 이승주;박구만
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.275-278
    • /
    • 2020
  • 본 논문에서는 가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템을 제안한다. 지도학습에서 가장 큰 비중을 차지하는 학습 데이터를 확보하기 위하여 가상 데이터를 생성하였다. 또한 가상 데이터를 생성 후 증강 파라미터를 이용하여, 실제 다양한 데이터에 대응하기 위해서 데이터 일반화를 하였다. 최종적으로 학습 데이터 구성은 증강 파라미터와 폰트 인자에 다양한 값을 대입하여 데이터를 생성하였다. 문자인식 성능을 측정하기 위한 테스트 데이터는 실제 촬영된 이미지 데이터에서 문자영역을 크롭하여 구성하였다. 테스트 데이터는 실제환경에서 발생할 수 있는 이미지 왜곡을 고려하여 데이터 증강하였다. 딥러닝 알고리즘은 실시간 검출에 용이한 YOLO v3를 사용하였으며, 추론결과는 후처리를 통하여 최종 검출결과를 출력한다.

고령화 세대의 스마트폰 사용자를 위한 GUI 디자인 융복합 가이드라인 연구 (Study of GUI design convergence guideline for the users of aged generation)

  • 전인규;정진헌
    • 디지털융복합연구
    • /
    • 제13권7호
    • /
    • pp.323-331
    • /
    • 2015
  • 21세기는 전 세계적으로 빠른 속도로 초고령화 사회로 진입하고 있다. 이중 실버세대의 사용자들은 시각적, 청각적, 물리적인 노화가 진행되고 있고, 정보의 80% 이상을 처리하는 시각이 노화함에 따라 GUI 디자인융복합 연구가 필요하다. 본 연구는 스마트폰 GUI의 기본 구성 요소인 색상, 글자(text), 아이콘(icon) 요소에 대해 실버세대를 대상으로 조사함으로써 적합한 시각적인 요소를 도출하여 실버세대의 스마트폰 사용자를 위한 스마트폰 GUI 디자인 융복합 가이드라인을 제시하고자 한다. 이를 위해 선행연구논문 및 관련서적 등의 내용을 고찰하여 UX디자인 전문가와 평가항목을 도출하였으며, 설문에 필요한 화면을 디자인 및 제작하였다. 65세 이상의 고령자 101명을 조사하여 실버세대를 위한 스마트폰 GUI 디자인융복합 가이드라인을 제시하였다.

기억으로서의 영상매체와 기억산업의 문화콘텐츠 - 중국 6세대 영화의 대항기억을 중심으로 - (Cultural Contents of Image Texts and Memory Industry as the Memory - Focused on the Counter Memory of the Sixth Generation Chinese Movies -)

  • 김계환
    • 한국콘텐츠학회논문지
    • /
    • 제9권2호
    • /
    • pp.163-172
    • /
    • 2009
  • 문화콘텐츠가 문화산업의 중심으로 부상하면서, 콘텐츠와 이를 활용한 문화산업에 대한 관심이 어느 때 보다 높다. 문화는 기억을 중심으로 이루어지며, 기억을 배제한 문화란 존재할 수 없다. 기억은 개인의 차원을 넘어 집단적, 사회적 기억으로 작용한다. 또한 문화는 기억을 담지할 매체를 필연적으로 요구하는데, 최근의 영상텍스트는 새로운 기억매체로서 주목받고 있다. 이러한 점에서 이 논문은 사회 문화적 기억으로서 '기억'의 의미를 탐색해 보고, 중국 6세대 영화를 중심으로 사회 문화적 기억과 그것을 담지해내는 영상텍스트의 기억복원의 의미를 분석하는 데 초점을 두었다. 또한 '대항기억'으로서 '개인기억'의 문화적 의의를 탐색하고, 이를 통해 기억산업과 콘텐츠의 접합 가능성을 찾아보는 시도를 모색했다. 6세대 영화를 주목한 이유는 중국 당국이 제시하는 '공식기억'에 대항하며 '지하'에서 만들어졌던 이들 영화가 국제적인 영화제에서 괄목한 만한 성과를 획득해 나가고 있기 때문이다.

GAN을 이용한 게임 캐릭터 이미지 생성 (Game Character Image Generation Using GAN)

  • 김정기;정명준;차경애
    • 대한임베디드공학회논문지
    • /
    • 제18권5호
    • /
    • pp.241-248
    • /
    • 2023
  • GAN (Generative Adversarial Networks) creates highly sophisticated counterfeit products by learning real images or text and inferring commonalities. Therefore, it can be useful in fields that require the creation of large-scale images or graphics. In this paper, we implement GAN-based game character creation AI that can dramatically reduce illustration design work costs by providing expansion and automation of game character image creation. This is very efficient in game development as it allows mass production of various character images at low cost.

WWW Based Instruction Systems for English Learning: GAIA

  • Park, Phan-Woo
    • 정보교육학회논문지
    • /
    • 제3권2호
    • /
    • pp.113-119
    • /
    • 2000
  • I studied a distance education model for English learning on the Internet. Basic WWW files, that contain courseware, are constructed with HTML, and functions, which are required in learning, are implemented with Java. Students and educators can access the preferred unit composed of the appropriate text, voice and image data by using a WWW browser at any time. The education system supports the automatic generation facility of English problems to practice reading and writing by making good use of the courseware data or various English text resources located on the Internet. Our system has functions to manage and control the flow of distance learning and to offer interaction between students and the system in a distributed environment. Educators can manage students' learning and can immediately be aware of who is attending and who is quitting the lesson in virtual space. Also, students and educators in different places can communicate and discuss a topic through the server. I implemented these functions, which are required in a client/server environment of distance education, with the use of Java. The URL for this system is "http://park.taegu-e.ac.kr" in the name of GAIA.

  • PDF

멀티모달 개념계층모델을 이용한 만화비디오 컨텐츠 학습을 통한 등장인물 기반 비디오 자막 생성 (Character-based Subtitle Generation by Learning of Multimodal Concept Hierarchy from Cartoon Videos)

  • 김경민;하정우;이범진;장병탁
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.451-458
    • /
    • 2015
  • 기존 멀티모달 학습 기법의 대부분은 데이터에 포함된 컨텐츠 모델링을 통한 지식획득보다는 이미지나 비디오 검색 및 태깅 등 구체적 문제 해결에 집중되어 있었다. 본 논문에서는 멀티모달 개념계층모델을 이용하여 만화 비디오로부터 컨텐츠를 학습하는 기법을 제안하고 학습된 모델로부터 등장인물의 특성을 고려한 자막을 생성하는 방법을 제시한다. 멀티모달 개념계층 모델은 개념변수층과 단어와 이미지 패치의 고차 패턴을 표현하는 멀티모달 하이퍼네트워크층으로 구성되며 이러한 모델구조를 통해 각각의 개념변수는 단어와 이미지패치 변수들의 확률분포로 표현된다. 제안하는 모델은 비디오의 자막과 화면 이미지로부터 등장 인물의 특성을 개념으로서 학습하며 이는 순차적 베이지안 학습으로 설명된다. 그리고 학습된 개념을 기반으로 텍스트 질의가 주어질 때 등장인물의 특성을 고려한 비디오 자막을 생성한다. 실험을 위해 총 268분 상영시간의 유아용 비디오 '뽀로로'로부터 등장인물들의 개념이 학습되고 학습된 모델로부터 각각의 등장인물의 특성을 고려한 자막 문장을 생성했으며 이를 기존의 멀티모달 학습모델과 비교했다. 실험결과는 멀티모달 개념계층모델은 다른 모델들에 비해 더 정확한 자막 문장이 생성됨을 보여준다. 또한 동일한 질의어에 대해서도 등장인물의 특성을 반영하는 다양한 문장이 생성됨을 확인하였다.

DESIGN AND IMPLEMENTATION OF 3D TERRAIN RENDERING SYSTEM ON MOBILE ENVIRONMENT USING HIGH RESOLUTION SATELLITE IMAGERY

  • Kim, Seung-Yub;Lee, Ki-Won
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume I
    • /
    • pp.417-420
    • /
    • 2006
  • In these days, mobile application dealing with information contents on mobile or handheld devices such as mobile communicator, PDA or WAP device face the most important industrial needs. The motivation of this study is the design and implementation of mobile application using high resolution satellite imagery, large-sized image data set. Although major advantages of mobile devices are portability and mobility to users, limited system resources such as small-sized memory, slow CPU, low power and small screen size are the main obstacles to developers who should handle a large volume of geo-based 3D model. Related to this, the previous works have been concentrated on GIS-based location awareness services on mobile; however, the mobile 3D terrain model, which aims at this study, with the source data of DEM (Digital Elevation Model) and high resolution satellite imagery is not considered yet, in the other mobile systems. The main functions of 3D graphic processing or pixel pipeline in this prototype are implemented with OpenGL|ES (Embedded System) standard API (Application Programming Interface) released by Khronos group. In the developing stage, experiments to investigate optimal operation environment and good performance are carried out: TIN-based vertex generation with regular elevation data, image tiling, and image-vertex texturing, text processing of Unicode type and ASCII type.

  • PDF

Automatic Poster Generation System Using Protagonist Face Analysis

  • Yeonhwi You;Sungjung Yong;Hyogyeong Park;Seoyoung Lee;Il-Young Moon
    • Journal of information and communication convergence engineering
    • /
    • 제21권4호
    • /
    • pp.287-293
    • /
    • 2023
  • With the rapid development of domestic and international over-the-top markets, a large amount of video content is being created. As the volume of video content increases, consumers tend to increasingly check data concerning the videos before watching them. To address this demand, video summaries in the form of plot descriptions, thumbnails, posters, and other formats are provided to consumers. This study proposes an approach that automatically generates posters to effectively convey video content while reducing the cost of video summarization. In the automatic generation of posters, face recognition and clustering are used to gather and classify character data, and keyframes from the video are extracted to learn the overall atmosphere of the video. This study used the facial data of the characters and keyframes as training data and employed technologies such as DreamBooth, a text-to-image generation model, to automatically generate video posters. This process significantly reduces the time and cost of video-poster production.

디지털 네이티브 세대를 위한 제안, 움직이는 픽토그램 (Moving Pictogram, a Suggestion for the Digital Native Generation)

  • 공수경
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권6호
    • /
    • pp.1017-1024
    • /
    • 2017
  • 기술의 발달은 콘텐츠 미디어의 변화를 가져왔다. 구술 시대의 음성, 소리 미디어에서 시작하여 텍스트, 페인팅을 거쳐, 사실성의 사진 미디어, 이미지에 사운드를 더한 영상 미디어의 발달로 이어져 왔다. 여기서 생각해보아야 할 것은 기술의 발달로 인한 미디어의 변화라는 일방적 영향만이 아니라, 어떤 세대가 어떤 미디어를 접하느냐에 따라 정보의 이해도 및 집중력, 몰입도 등이 달라진다는 것이다. 이에 디지털을 주미디어로 활용하고 있는 디지털 네이티브 세대에 주목하게 된다. 디지털 네이티브 세대의 특징으로는 시각정보를 빠르게 처리하며, 멀티태스킹이 가능하고, 분할주의 능력을 지니고 있는 세대로 연구된 바 있다. 이에 본 논문에서는 디지털 네이티브 세대를 위하여 움직이는 픽토그램을 제안, 픽토그램 중에서도 한계성을 보이고 있는 비상구 픽토그램을 움직이는 픽토그램으로 제안하였으며, 설문지를 통하여 근거를 마련하였다. 디지털 네이티브 세대 특성에 맞춘 새로운 동적 픽토그램, 더 나아가 인터랙티브 동적 픽토그램은 생각하고 연구되어야 하는 분야로 본 논문은 첫 발을 내딛는 연구라고 볼 수 있다.