• 제목/요약/키워드: text-to-image

검색결과 896건 처리시간 0.029초

텍스트 마이닝 기법을 활용한 인공지능과 헬스케어 융·복합 분야 연구동향 분석 (Research Trend Analysis by using Text-Mining Techniques on the Convergence Studies of AI and Healthcare Technologies)

  • 윤지은;서창진
    • 한국IT서비스학회지
    • /
    • 제18권2호
    • /
    • pp.123-141
    • /
    • 2019
  • The goal of this study is to review the major research trend on the convergence studies of AI and healthcare technologies. For the study, 15,260 English articles on AI and healthcare related topics were collected from Scopus for 55 years from 1963, and text mining techniques were conducted. As a result, seven key research topics were defined : "AI for Clinical Decision Support System (CDSS)", "AI for Medical Image", "Internet of Healthcare Things (IoHT)", "Big Data Analytics in Healthcare", "Medical Robotics", "Blockchain in Healthcare", and "Evidence Based Medicine (EBM)". The result of this study can be utilized to set up and develop the appropriate healthcare R&D strategies for the researchers and government. In this study, text mining techniques such as Text Analysis, Frequency Analysis, Topic Modeling on LDA (Latent Dirichlet Allocation), Word Cloud, and Ego Network Analysis were conducted.

JPEG 재압축이 컬러 이미지 품질에 미치는 영향에 관한 연구 (A study on the effect of JPEG recompression with the color image quality)

  • 이성형;조가람;구철희
    • 한국인쇄학회지
    • /
    • 제18권2호
    • /
    • pp.55-68
    • /
    • 2000
  • Joint photographic experts group (JPEG) is a standard still-image compression technique, established by the international organization for standardization (ISO) and international telecommunication standardization sector (ITUT). The standard is intended to be utilized in the various kinds of color still imaging systems as a standard color image coding format. Because JPEG is a lossy compression, the decompressed image pixel values are not the same as the value before compression. Various distortions of JPEG compression and JPEG recompression has been reported in various papers. The Image compressed by JPEG is often recompressed by same type compression method in JPEG. In general, JPEG is a lossy compression and the quality of compressed image is predicted that is varied in according to recompression Q-factor. In this paper, four difference color samples(photo image, gradient image, gradient image, vector drawing image, text image) were compressed in according to various Q-factor, and then the compressed images were recompressed according to various Q-factor once again. As the result, this paper evaluate the variation of image quality and file size in JPEG recompression and recommed the optimum recompression factor.

  • PDF

문서 영상의 그림 영역에서 통계적 분석을 이용한 단어 영상 추출 (Word Image Decomposition from Image Regions in Document Images using Statistical Analyses)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.591-600
    • /
    • 2006
  • 본 논문에서는 문서 영상의 그림 영역에서 통계적 분석을 통한 단어 영상을 추출하는 방법을 제안한다. 제안 방법은 그림 영역의 구성 요소를 문자 성분과 그래픽 성분으로 분류하기 위하여 연결요소에 대한여 통계적 분석 방법인 상자그림 분석을 적용하고, 분류된 문자 성분들에 대하여 지역적 밀집도를 분석하여 문자 영역을 추출한다. 추출된 문자 영역에서 투영 히스토그램 분석을 통하여 문자열을 추출하고, 문자열을 단어단위 영상으로 분리하기 위하여 투영 히스토그램 분석과 갭 군집화, 특수 기호 검출 등을 수행한다. 제안 방법은 임계값의 사용 대신에 그림 영역의 구성 요소들에 대하여 통계적 분석을 수행하기 때문에 그림의 형태 변화에 민감하지 않으며, 지역적 밀집도 분석으로 보다 정확한 문자 영역을 추출하였다. 또한 제안 방법의 응용 분야인 주제어 검색을 위한 오프라인의 전처리에 해당하는 문서 영상의 단어단위 영상 추출에 적용하여 제안 방법에 대한 연구의 필요성을 제시하였다.

효과적인 도서목록 검색을 위한 개선된 OCR알고리즘에 관한 연구 (Improvement OCR Algorithm for Efficient Book Catalog RetrievalTechnology)

  • 하문;백영현;문성룡
    • 전자공학회논문지CI
    • /
    • 제47권1호
    • /
    • pp.152-159
    • /
    • 2010
  • 본 논문에서는 기울어진 문자, 다양한 크기, 글씨체, 흐린 문자를 포함한 입력영상의 문자 복원과 인식, 효율적인 도서 검색을 위한 광학문자인식 알고리즘을 제안한다. 본 논문에서 제안한 광학문자 인식알고리즘은 검출부와 인식부로 구성되며, 검출부에서는 복잡한 배경에서 정확한 도서 영역 검출을 위하여 로버츠 에지 연산자와 허도로프 거리 알고리즘을 적용하여 필요한 영역을 검출하였다. 또한 인식부에서는 문자의 크기와 경사도, 부분 손실 등의 영상에 강인성을 갖는 바이큐빅 보간법을 적용하여 데이터 손실 복원과, 반자동 기울기를 갖는 입력 영상의 보정을 하였다. 모의실험 결과 기존 알고리즘 보다 인식률에서는 6%, 검색시간에서는 1.077초 더 우수함을 확인하였다.

수어 동작 키포인트 중심의 시공간적 정보를 강화한 Sign2Gloss2Text 기반의 수어 번역 (Sign2Gloss2Text-based Sign Language Translation with Enhanced Spatial-temporal Information Centered on Sign Language Movement Keypoints)

  • 김민채;김정은;김하영
    • 한국멀티미디어학회논문지
    • /
    • 제25권10호
    • /
    • pp.1535-1545
    • /
    • 2022
  • Sign language has completely different meaning depending on the direction of the hand or the change of facial expression even with the same gesture. In this respect, it is crucial to capture the spatial-temporal structure information of each movement. However, sign language translation studies based on Sign2Gloss2Text only convey comprehensive spatial-temporal information about the entire sign language movement. Consequently, detailed information (facial expression, gestures, and etc.) of each movement that is important for sign language translation is not emphasized. Accordingly, in this paper, we propose Spatial-temporal Keypoints Centered Sign2Gloss2Text Translation, named STKC-Sign2 Gloss2Text, to supplement the sequential and semantic information of keypoints which are the core of recognizing and translating sign language. STKC-Sign2Gloss2Text consists of two steps, Spatial Keypoints Embedding, which extracts 121 major keypoints from each image, and Temporal Keypoints Embedding, which emphasizes sequential information using Bi-GRU for extracted keypoints of sign language. The proposed model outperformed all Bilingual Evaluation Understudy(BLEU) scores in Development(DEV) and Testing(TEST) than Sign2Gloss2Text as the baseline, and in particular, it proved the effectiveness of the proposed methodology by achieving 23.19, an improvement of 1.87 based on TEST BLEU-4.

블록의 속성과 질감특징을 이용한 문서영상의 블록분류 (Block Classification of Document Images by Block Attributes and Texture Features)

  • 장영내;김중수;이철희
    • 한국멀티미디어학회논문지
    • /
    • 제10권7호
    • /
    • pp.856-868
    • /
    • 2007
  • 본 논문에서는 블록의 속성과 질감특징을 이용하여 효과적인 블록 분류 방법을 제안하였다. 제안한 방법에서는 먼저 명암도 문서영상을 이진화한 후, 평활화 기법을 적용하여 블록의 위치정보와 본 논문에서 사용할 특징 중에 하나인 각 블록의 내부에 있는 작은 블록들의 최대 높이 값을 구하였다. 이 위치정보들을 이용하여 문서영상을 각 블록으로 분할한다. 이 블록의 명암도 블록영상에서 문서의 속성이 잘 반영된 (0,1) 방향의 공간 명암도 의존 행렬을 구하여 7가지 질감특징을 구하였다. 먼저 블록의 속성을 최소거리 규칙(Nearest Neighbor Rule)에 입력하여 문자와 비문자 영역으로, 상세분류를 위하여 7가지 질감특징을 이용하여 큰 문자, 작은 문자, 표, 그래픽 및 사진 등으로 구분함으로써 문서인식을 위한 구조 해석뿐만 아니라 다양한 응용 분야에 효과적으로 이용될 수 있도록 하였다.

  • PDF

카메라 기반 문서영상에서의 문자 추출 (Text extraction from camera based document image)

  • 박희주;김진호
    • 한국산업정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.14-20
    • /
    • 2003
  • 본 논문에서는 카메라로 획득한 문서영상에 대해 조명의 영향에 관계없이 고속으로 문자영역을 추출하는 알고리즘을 제안하였다. 카메라 문서는 스캐너 문서와는 달리 주변 환경이나 조명의 영향으로 인하여 문자영역을 추출하는 것이 매우 어렵다. 먼저 영상 사전처리 단계에서 컬러영상을 명도영상으로 변환한 후 조명의 영향에 무관하게 배경 그림으로부터 문자 영역을 정확히 추출하기 위해서 명도레벨 정규화를 사용하였다. 또한 배경 그림 및 잡음은 제거하고 문자 획의 손실 없이 문자 영역을 추출하기 위하여 국소-적응적-이진화-방법(local adaptive binarization method)을 새롭게 개발하여 문서영상을 이진화시켰다. 문자영역 추출 단계에서는 수평 및 수직 투영과 연결요소 정보에 의해 문자열, 단어 및 개별 문자 영역을 단계적으로 추출하였다. 제안된 방법의 타당성을 검증하기 위하여 ETRI에서 구축한 한글/영어/숫자/특수기호가 혼합된 현장 문서영상 DB를 가지고 실험해 보았다.

  • PDF

A Consistent Quality Bit Rate Control for the Line-Based Compression

  • Ham, Jung-Sik;Kim, Ho-Young;Lee, Seong-Won
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권5호
    • /
    • pp.310-318
    • /
    • 2016
  • Emerging technologies such as the Internet of Things (IoT) and the Advanced Driver Assistant System (ADAS) often have image transmission functions with tough constraints, like low power and/or low delay, which require that they adopt line-based, low memory compression methods instead of existing frame-based image compression standards. Bit rate control in the conventional frame-based compression systems requires a lot of hardware resources when the scope of handled data falls at the frame level. On the other hand, attempts to reduce the heavy hardware resource requirement by focusing on line-level processing yield uneven image quality through the frame. In this paper, we propose a bit rate control that maintains consistency in image quality through the frame and improves the legibility of text regions. To find the line characteristics, the proposed bit rate control tests each line for ease of compression and the existence of text. Experiments on the proposed bit rate control show peak signal-to-noise ratios (PSNRs) similar to those of conventional bit rate controls, but with the use of significantly fewer hardware resources.

DCT계수와 천이지도 분석을 이용한 개선된 영상 내 자막영역 검출방법 (An Improved Method for Detecting Caption in image using DCT-coefficient and Transition-map Analysis)

  • 안권재;주성일;김계영;최형일
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권4호
    • /
    • pp.61-71
    • /
    • 2011
  • 본 논문은 DCT계수와 천이지도 분석을 이용하여 영상 내 자막영역을 검출하는 방법에 대해 제안한다. 기존 DCT계수 분석방법을 이용한 문자영역탐지 방법은 검출률은 높으나 오검출률이 매우 높은 단점이 있고, 천이지도를 이용한문자영역 탐지 방법은 임계값이 정적이기때문에 문자영역 검증단계에서 실제문자영역이 기각되는 일이 빈번히 발생한다. 이러한 문제점을 해결하기 위해 DCT계수 분석방법을 이용하여 유망문자영역맵을 작성하고 이를 천이지도를 이용한 문자영역탐지 방법에 적용하여 임계값을 단계별로 정한다. 그 결과로서 DCT계수 분석을 이용한 문자영역검출방법에 비해 오검출률이 크게 감소하였으며, 기존 천이지도를 이용한 문자영역검출 방법보다 검출률이 크게 향상되었다.

지식 그래프와 딥러닝 모델 기반 텍스트와 이미지 데이터를 활용한 자동 표적 인식 방법 연구 (Automatic Target Recognition Study using Knowledge Graph and Deep Learning Models for Text and Image data)

  • 김종모;이정빈;전호철;손미애
    • 인터넷정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.145-154
    • /
    • 2022
  • 자동 표적 인식(Automatic Target Recognition, ATR) 기술이 미래전투체계(Future Combat Systems, FCS)의 핵심 기술로 부상하고 있다. 그러나 정보통신(IT) 및 센싱 기술의 발전과 더불어 ATR에 관련이 있는 데이터는 휴민트(HUMINT·인적 정보) 및 시긴트(SIGINT·신호 정보)까지 확장되고 있음에도 불구하고, ATR 연구는 SAR 센서로부터 수집한 이미지, 즉 이민트(IMINT·영상 정보)에 대한 딥러닝 모델 연구가 주를 이룬다. 복잡하고 다변하는 전장 상황에서 이미지 데이터만으로는 높은 수준의 ATR의 정확성과 일반화 성능을 보장하기 어렵다. 본 논문에서는 이미지 및 텍스트 데이터를 동시에 활용할 수 있는 지식 그래프 기반의 ATR 방법을 제안한다. 지식 그래프와 딥러닝 모델 기반의 ATR 방법의 핵심은 ATR 이미지 및 텍스트를 각각의 데이터 특성에 맞게 그래프로 변환하고 이를 지식 그래프에 정렬하여 지식 그래프를 매개로 이질적인 ATR 데이터를 연결하는 것이다. ATR 이미지를 그래프로 변환하기 위해서, 사전 학습된 이미지 객체 인식 모델과 지식 그래프의 어휘를 활용하여 객체 태그를 노드로 구성된 객체-태그 그래프를 이미지로부터 생성한다. 반면, ATR 텍스트는 사전 학습된 언어 모델, TF-IDF, co-occurrence word 그래프 및 지식 그래프의 어휘를 활용하여 ATR에 중요한 핵심 어휘를 노드로 구성된 단어 그래프를 생성한다. 생성된 두 유형의 그래프는 엔터티 얼라이먼트 모델을 활용하여 지식 그래프와 연결됨으로 이미지 및 텍스트로부터의 ATR 수행을 완성한다. 제안된 방법의 우수성을 입증하기 위해 웹 문서로부터 227개의 문서와 dbpedia로부터 61,714개의 RDF 트리플을 수집하였고, 엔터티 얼라이먼트(혹은 정렬)의 accuracy, recall, 및 f1-score에 대한 비교실험을 수행하였다.