• 제목/요약/키워드: 텍스트 이미지

검색결과 728건 처리시간 0.027초

에지 및 국부 최소/최대 변환을 이용한 자연이미지로부터 텍스트 영역검출 (Text Region Detection using Edge and Local Minima/Maxima Transformation From Natural Scene Images)

  • 박종천;황동국;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2008년도 추계학술발표논문집
    • /
    • pp.257-259
    • /
    • 2008
  • 자연이미지에 내포된 텍스트는 많은 정보를 제공함으로 이를 효과적으로 검출하여 다양한 응용분야에 활용될 수 있다. 본 논문에서는 텍스트 영역의 에지 특징과 국부 최소/최대 변환을 이용하여 자연이미지로부터 텍스트 영역 검출 방법을 제안한다. 에지 검출은 캐니-에지 검출기로 추출하고, 국부 최소/최대 변환을 이용하여 텍스트 영역의 연결성분을 추출한다. 각각 추출된 에지 및 연결성분으로부터 텍스트 영역 후보를 검출하고, 각각의 결과를 결합하여 최종적인 텍스트 후보 영역을 검출하고, 후보 텍스트 영역에 대한 검증을 수행함으로서 최종적인 텍스트 영역을 검출한다. 제안한 방법은 다양한 종류의 자연이미지를 대상으로 실험한 결과, 에지 및 연결성분의 두 가지 특징을 결합함으로서 자연이미지에 존재하는 다양한 형태의 텍스트 영역을 효과적으로 검출하였다.

  • PDF

사용자 편의성과 효율성을 증진하기 위한 신뢰도 높은 이미지-텍스트 융합 CAPTCHA (Reliable Image-Text Fusion CAPTCHA to Improve User-Friendliness and Efficiency)

  • 문광호;김유성
    • 정보처리학회논문지C
    • /
    • 제17C권1호
    • /
    • pp.27-36
    • /
    • 2010
  • 웹 서비스 신청 단계에서 신청자가 실제 인간 사용자임을 확인하기 위해 사용되는 텍스트 기반 캡차(text-based CAPTCHA)의 변형된 문자를 광학문자인식 기술로 파악하는 것이 가능하기에 캡차의 신뢰성이 떨어지는 문제가 발생하고 있다. 이 문제를 해결하기 위해 제안되었던 기존의 이미지 기반 캡차(image-based CAPTCHA)에서도 여러 문제점이 존재한다. 인공지능 프로그램을 사용하여 시스템이 보유하고 있는 제한된 수의 이미지 내용을 파악함으로써 신뢰도가 떨어지는 문제가 발생할 수 있으며, 제공된 이미지에 대해 사용자가 다른 유사한 단어를 입력하는 경우에는 오답으로 판정되어 반복적으로 캡차를 시도해야 하는 불편함이 발생 할 수 있으며 또한, 사용자에게 캡차 문제를 제공하기 위해 여러 이미지 파일을 전송해야 하기에 전송 비용의 비효율성 문제가 존재한다. 이러한 기존 이미지 기반 캡차의 문제점들을 해결하기 위해 본 논문에서는 이미지와 관련 키워드 일부를 융합하여 제공하는 이미지-텍스트 융합 캡차를 제안하였다. 본 논문에서 제안한 이미지-텍스트 융합 캡차에서는 이미지와 관련된 단어의 일부분을 힌트로 활용하여 쉽게 정답을 입력할 수 있도록 사용자 편리성을 제공하며 이미지와 텍스트를 한 이미지 파일 내에 융합시켰기 때문에 전송 비용을 절약하여 효율성을 증진할 수 있다. 또한, 캡차 시스템의 신뢰성 증진을 위해 인터넷 검색으로 캡차용 이미지를 대량으로 수집하도록 하였으며 수집되는 캡차 이미지의 정확성을 유지하기 위해 필터링 과정을 거치도록 하였다. 또한, 본 논문에서는 실제 실험을 통해 제안된 이미지-텍스트 융합 캡차가 기존 이미지 기반 캡차보다 사용자에게 편리하고 신뢰성이 증진될 수 있음을 입증하였다.

분산맵을 이용한 웹 이미지 텍스트 영역 추출 (Text Region Segmentation from Web Images using Variance Maps)

  • 정인숙;오일석
    • 한국콘텐츠학회논문지
    • /
    • 제9권9호
    • /
    • pp.68-79
    • /
    • 2009
  • 분산맵은 텍스트 영역이 주변과의 색상 혹은 밝기 변화가 심하다는 특징을 이용하는 방법으로 특히 잦은 포맷 변환에 의하여 해상도가 낮거나 일정하지 않은 웹 이미지의 텍스트 영역을 추출하는 데 적용할 수 있다. 그러나 이전의 분산맵을 적용한 방법들은 입력 영상 전역에 고정된 마스크를 한 번만 적용하는 광역 분산맵을 사용하므로 텍스트 크기가 매우 작거나 큰 경우, 획의 색상에 gradation효과가 있는 경우, 각도, 위치, 색상 등이 복잡한 경우 텍스트 추출 성능이 안정 적이지 못하다. 본 논문은 2단계 분산맵을 사용하여 Web 이미지에서 텍스트 영역을 안정적으로 추출하는 방법을 제안한다. 제안된 방법은 광역 및 지역 분산맵이 각 단계에서 적용되며 서로 계층적 관계를 가진다. 1단계는 텍스트 영역 추출 재현율을 높일 수 있도록, 충분히 큰 글자 혹은 작은 글자도 추출할 수 있는 일정한 마스크 크기를 가진 광역의 수직 및 수평 색 분산맵을 적용하여 유사 텍스트 영역을 추출한다. 2단계에서는 1단계의 각 연결요소영역에 새로운 마스크 크기를 가진 명암 분산맵을 적용하여 최종적인 텍스트 영역을 추출한다. 2단계 분산맵 적용에 의하여 1단계에서 구한 유사 텍스트 영역에 남아 있는 배경 부분이 많이 사라지게 되어 추출 정확률이 높아진다. 제안한 방법을 400개의 Web 이미지에 적용한 결과 배경이 복잡해도 비교적 안정적으로 텍스트 영역을 추출하는 것을 확인할 수 있었다.

생성 AI 모델을 위한 텍스트 프롬프트 추정 기반 한국화 재생성에 대한 연구 (A Study on the Reproduction of Korean Painting through Text Prompt Estimation for Generative AI Models)

  • 문성원;이지원;남도원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.432-433
    • /
    • 2023
  • 스테이블 디퓨전(Stable diffusion)과 같은 텍스트 프롬프트 입력 기반 이미지 생성 AI 기술의 발전으로 원하는 형태의 고품질 이미지를 누구나 손쉽게 생성가능할 것으로 기대하였으나 대부분의 경우 원하는 이미지를 얻기 위해서는 텍스트 프롬프트를 정교하게 조정해가며 많은 실패를 겪어야만 한다. 이러한 한계를 극복하기 위해 클립 인터로게이터(CLIP Interrogator)와 같은 유사 이미지를 재생성하기 위한 텍스트 프롬프트 추정 기술이 개발되었으며 몇몇 이미지에 대해 뛰어난 결과를 보였다. 본 논문에서는 이러한 텍스트 프롬프트 추정 기술의 활용이 한국화를 재생성할 수 있는지 실험을 통해 가능성을 확인하고 향후 한국화 재생성을 위한 연구 방향을 제안하고자 한다.

텍스트와 공간이미지의 구조 - "갈매기" 의 극공간 구조와 의미작용을 중심으로 - (The Structure of Text and Spatial Image - Focused on the Signification and Dramatic Space of ${\ulcorner}$the Sea-gull${\lrcorner}$ -)

  • 오경환
    • 디자인학연구
    • /
    • 제14권4호
    • /
    • pp.199-207
    • /
    • 2001
  • 극의 공연은 희곡 텍스트를 무대라는 시각적 이미지로 바꾸어 표현하고 전달하는 것이 본질이다. 시각적 이미지는 두대라는 골간을 통해 형성된다. 무대는 시각적 이미지의 모태이다. 다시 말해서 극의 시각적 이미지는 결국 총체적인 공간이미지가 되는 것이다. 본 연구는 극텍스트의 공간이미지를 기호학적 관점에서 해석해 보고, 그것을 통하여 구현되는 공간의 구조와 체계를 파악해 보고자 하는 시도이다. 특히 본고에서 관심을 갖는 것은 이미지 속에 도입된 문자의 기호학이 아니라 텍스트의 언술내용 자체를 도입하는 공간의 이미지텍스트, 극공간의 구조와 의미작용을 파악하는 과정과 내용이며, 결국 이를 통하여 텍스트 그리고 실제 기념적·상징적 공간의 해석방법론으로서 기호학적 측면에서의 '공간 구현의 체계'를 제시하였다.

  • PDF

형태 모멘트를 이용한 텍스트 이미지 경사 측정 및 교정 (Skew Estimation and Correction in Text Images using Shape Moments)

  • Choo, Moon-Won;Chin, Seong-Ah
    • 한국콘텐츠학회논문지
    • /
    • 제3권1호
    • /
    • pp.14-20
    • /
    • 2003
  • 문서 이미지 처리에서 텍스트 블록의 수평화 프로세스는 문서 인식 솔루션을 위한 전처리 단계로서 많은 연구가 진행되고 있다. 이 논문에서는 텍스트 이미지 블록의 직교각 속성과 형태 모멘트에 후프 변환을 적용하여 경사진 텍스트 블록을 원래 문서의 텍스트와 수평화된 텍스트 이미지로 변환하는 효율적인 방식을 제안한다. 실험을 통하여 제안된 방식의 비교 성능 결과를 보인다.

  • PDF

이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템 (Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features)

  • 임정우;장윤나;손준영;이승윤;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

중국대학생 동영상 학습에서 텍스트 제시방식과 이미지 제시방식이 학습몰입, 학습만족, 학업성취에 미치는 효과 (Effect of text and image presenting method on Chinese college students' learning flow, learning satisfaction and learning outcome in video learning environment)

  • 장정;제혜금;김보경
    • 한국산학기술학회논문지
    • /
    • 제22권1호
    • /
    • pp.633-640
    • /
    • 2021
  • 본 연구는 동영상 학습에서 텍스트와 이미지 제시방식이 학습자의 학습몰입, 학습만족, 학업성취에 미치는 차이를 분석하였다. 이때 텍스트 제시방식은 2~3단어로 구성된 짧은 문장형태와 키워드형태로 구분하였고, 이미지 제시방식은 상세정보와 관계정보를 모두 표현하는 이미지와 관계정보만을 표현하는 이미지로 구분하였다. 실험연구를 위해 중국 형태대학교 1학년 167명을 텍스트와 이미지 제시방식에 따른 4가지 유형의 동영상 집단에 무선배정한 후 학습하게 하였다. 분석하기 위해 SPSS 25.0을 사용하여 다변량분산분석(MANOVA)을 실시하였다. 연구결과, 짧은 문장형태로 텍스트가 제시된 동영상을 학습한 집단이 키워드 형태의 텍스트가 제시된 동영상을 학습한 집단보다 학습몰입, 학습만족, 학업성취가 통계적으로 유의하게 높았다. 둘째, 상세정보와 관계정보를 모두 표현하는 이미지가 제시된 동영상을 학습한 집단이 관계정보만 표현하는 이미지가 제시된 동영상을 학습한 집단보다 학습몰입, 학습만족, 학업성취가 통계적으로 유의하게 높았다. 짧은 문장형태의 텍스트와 관계정보만 표현한 이미지가 제시된 동영상을 학습한 집단의 종속변인 평균이 가장 높았다. 반면에, 키워드 형태의 텍스트와 관계정보만 표현한 이미지가 제시된 동영상을 학습한 집단의 종속변인 평균이 가장 낮았다. 이러한 결과는 교수자 내레이션이 포함된 동영상을 설계할 때 이미지와 텍스트의 제시할 때 시사점을 준다.

한국어 및 영어 이미지 캡션이 가능한 범용적 모델 및 목적에 맞는 텍스트를 생성해주는 기법 (A general-purpose model capable of image captioning in Korean and Englishand a method to generate text suitable for the purpose)

  • 조수현;오하영
    • 한국정보통신학회논문지
    • /
    • 제26권8호
    • /
    • pp.1111-1120
    • /
    • 2022
  • Image Captioning은 이미지를 보고 이미지를 언어로 설명하는 문제이다. 해당 문제는 이미지 처리와 자연어 처리 두 가지의 분야를 하나로 묵고 이해하고 하나로 묶어 해결할 수 있는 중요한 문제이다. 또한, 이미지를 자동으로 인식하고 텍스트로 설명함으로써 시각 장애인을 위해 이미지를 텍스트로 변환 후 음성으로 변환하여 주변 환경을 이해하는 데 도움을 줄 수 있으며, 이미지 검색, 미술치료, 스포츠 경기 해설, 실시간 교통 정보 해설 등 많은 곳에 적용할 수 있는 중요한 문제이다. 지금까지의 이미지 캡션 구 방식은 이미지를 인식하고 텍스트화시키는 데에만 집중하고 있다. 하지만 실질적인 사용을 하기 위해 현실의 다양한 환경이 고려되어야 하며 뿐만 아니라 사용하고자 하는 목적에 맞는 이미지 설명을 할 수 있어야 한다. 본 논문에서는 범용적으로 사용 가능한 한국어 및 영어 이미지 캡션 모델과 이미지 캡션 목적에 맞는 텍스트 생성 기법을 제한한다.

이미지 분류 정확도 향상을 위한 텍스트 활용 이미지 분류 모델 (Image classification model utilizing text to improve image classification accuracy)

  • 이주혁;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.724-726
    • /
    • 2023
  • 컴퓨터 비전 문제 중 이미지 분류는 핵심적인 주제 중 하나이다. 딥러닝의 발전으로 이미지 분류 문제에서 높은 정확도와 성능을 보여준다. 하지만 대부분 이미지 분류 연구에서 시각정보인 이미지 내의 특징에만 의존하고 있다. 그렇기에 이미지의 본질적인 맥략과 함께 있는 텍스트 정보를 활용하지 못하는 경우도 있다. 이에 본 논문은 텍스트 정보를 활용하여 이미지 분류 성능을 개선하는 방식을 제안한다.