• 제목/요약/키워드: Picture classification

검색결과 79건 처리시간 0.024초

FACE DETECTION USING SKIN-COLOR MODEL AND SUPPORT VECTOR MACHINE

  • Seld, Yoko;Yuyama, Ichiro;Hasegawa, Hiroshi;Watanabe, Yu
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 IWAIT
    • /
    • pp.592-595
    • /
    • 2009
  • In this paper, we propose a face detection technique for still pictures which sequentially uses a skin-color model and a support vector machine (SVM). SVM is a learning algorithm for solving the classification problem. Some studies on face detection have reported superior results of SVM over neural networks. The SVM method searches for a face in a picture while changing the size of the window. The detection accuracy and the processing time of SVM vary largely depending on the complexity of the background of the picture or the size of the face. Therefore, we apply a face candidate area detection method using a skin-color model as a preprocessing technique. We compared the method using SVM alone with that of the proposed method in respect to face detection accuracy and processing time. As a result, the proposed method showed improved processing time while maintaining a high recognition rate.

  • PDF

CNN-based Fast Split Mode Decision Algorithm for Versatile Video Coding (VVC) Inter Prediction

  • Yeo, Woon-Ha;Kim, Byung-Gyu
    • Journal of Multimedia Information System
    • /
    • 제8권3호
    • /
    • pp.147-158
    • /
    • 2021
  • Versatile Video Coding (VVC) is the latest video coding standard developed by Joint Video Exploration Team (JVET). In VVC, the quadtree plus multi-type tree (QT+MTT) structure of coding unit (CU) partition is adopted, and its computational complexity is considerably high due to the brute-force search for recursive rate-distortion (RD) optimization. In this paper, we aim to reduce the time complexity of inter-picture prediction mode since the inter prediction accounts for a large portion of the total encoding time. The problem can be defined as classifying the split mode of each CU. To classify the split mode effectively, a novel convolutional neural network (CNN) called multi-level tree (MLT-CNN) architecture is introduced. For boosting classification performance, we utilize additional information including inter-picture information while training the CNN. The overall algorithm including the MLT-CNN inference process is implemented on VVC Test Model (VTM) 11.0. The CUs of size 128×128 can be the inputs of the CNN. The sequences are encoded at the random access (RA) configuration with five QP values {22, 27, 32, 37, 42}. The experimental results show that the proposed algorithm can reduce the computational complexity by 11.53% on average, and 26.14% for the maximum with an average 1.01% of the increase in Bjøntegaard delta bit rate (BDBR). Especially, the proposed method shows higher performance on the sequences of the A and B classes, reducing 9.81%~26.14% of encoding time with 0.95%~3.28% of the BDBR increase.

교과서와 AI 웹앱을 활용한 효과적인 교육방식 (Effective teaching using textbooks and AI web apps)

  • Sobirjon, Habibullaev;Yakhyo, Mamasoliev;Kim, Ki-Hawn
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.211-213
    • /
    • 2022
  • Images in the textbooks influence the learning process. Students often see pictures before reading the text and these pictures can enhance the power of imagination of the students. The findings of some researches show that the images in textbooks can increase students' creativity. However, when learning major subjects, reading a textbook or looking at a picture alone may not be enough to understand the topics and completely realize the concepts. Studies show that viewers remember 95% of a message when watching a video than reading a text. If we can combine textbooks and videos, this teaching method is fantastic. The "TEXT + IMAGE + VIDEO (Animation)" concept could be more beneficial than ordinary ones. We tried to give our solution by using machine learning Image Classification. This paper covers the features, approaches and detailed objectives of our project. For now, we have developed the prototype of this project as a web app and it only works when accessed via smartphone. Once you have accessed the web app through your smartphone, the web app asks for access to use the camera. Suppose you bring your smartphone's camera closer to the picture in the textbook. It will then display the video related to the photo below.

  • PDF

어린이도서 분류를 위한 KDC 6판 개선 및 적용 방안에 관한 연구 (A Study on the Improvement and Application of KDC 6th ed. for Classifying the Children's Books)

  • 오영옥;이미화
    • 한국도서관정보학회지
    • /
    • 제50권1호
    • /
    • pp.105-124
    • /
    • 2019
  • 본 연구는 어린이도서 분류를 위한 KDC 6판의 개선 및 적용 방안을 마련하고자 문헌연구 및 설문조사를 실시하였다. 첫째, 어린이도서의 KDC 간략화 및 세분전개 방안으로 서울시교육청 20개 도서관 및 대표적인 C 도서관이 소장한 어린이도서 주제별 통계 분포를 바탕으로 중분류, 소분류로 간략화 할 분야를 제시하고, 세분화 전개가 필요한 항목은 도서관별 분류지침을 적용하여 확장할 것을 제안하였다. 둘째, 지식그림책과 동화는 내용과 주제에 따라 각 해당항목에 분류하고, 각 나라의 동화는 세목 추가 및 장르 구분을 추가하여 특정 기호에 편중된 자료를 분산시킬 것을 제시하였다. 셋째, 이용자를 위해 연령별, 독서수준별에 따른 배가 방안과 이를 위한 가이드라인의 배포, 분류와 관련한 이용자 교육 실시를 제안하였다. 본 연구는 향후 KDC 6판 개정 시 어린이도서의 간략판 개발 마련에 기여할 수 있을 것이다.

DCT와 정보 화소 밀도를 이용한 PDA로 획득한 명함 영상에서의 영역 해석 (Region Analysis of Business Card Images Acquired in PDA Using DCT and Information Pixel Density)

  • 김종흔;장익훈;김남철
    • 한국통신학회논문지
    • /
    • 제29권8C호
    • /
    • pp.1159-1174
    • /
    • 2004
  • 본 논문에서는 PDA에 장착된 카메라를 사용하여 획득한 명함 영상에 대한 효율적인 영역 해석 알고리듬을 제안한다. 제안된 방법은 크게 영역 분할, 정보 영역 분류, 문자 영역 분류의 3개 과정으로 구성된다. 영역 분할에서는 입력 명함 영상을 8${\times}$8 크기의 블록으로 나누고 각 블록을 저주파 대역에서의 정규화 된 DCT 계수의 에너지를 이용하여 정보 블록과 배경 블록으로 분류한 다음, 블록에 대한 영역 라벨링을 통하여 정보 영역과 배경 영역으로 분할한다. 정보 영역 분류에서는 각 정보 영역을 블록 신호의 수평, 수직 방향 에지 성분과 저주파 대역에서의 DCT 계수의 에너지 비와 이진화 된 정보 영역 내에서의 흑화소인 정보 화소의 밀도를 이용하여 문자 영역과 배경 영역으로 분류한다. 문자 영역 분류에서는 분류된 문자 영역을 정보 화소의 밀도와 평균 런 길이를 이용하여 다시 큰 문자와 작은 문자 영역으로 분류한다. 실험결과 제안된 영역 해석 방법은 여러 종류의 명함을 다양한 주변 여건에서 PDA로 획득한 시험 영상에 대하여 정보 영역과 배경 영역을 잘 분할하고, 정보 영역을 문자 영역과 그림 영역으로 잘 분류하며, 다시 문자 영역을 큰 문자와 작은 문자 영역으로 잘 분류함을 보였다 그리고 제안된 영역 분할 방법과 정보 영역 분류 방법은 기존의 방법들보다 각각 약 2.2-10.1%와 7.7%의 에러율 향상을 보였다.

RBF 커널과 다중 클래스 SVM을 이용한 생리적 반응 기반 감정 인식 기술 (Physiological Responses-Based Emotion Recognition Using Multi-Class SVM with RBF Kernel)

  • 마카라 완니;고광은;박승민;심귀보
    • 제어로봇시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.364-371
    • /
    • 2013
  • Emotion Recognition is one of the important part to develop in human-human and human computer interaction. In this paper, we have focused on the performance of multi-class SVM (Support Vector Machine) with Gaussian RFB (Radial Basis function) kernel, which has been used to solve the problem of emotion recognition from physiological signals and to improve the accuracy of emotion recognition. The experimental paradigm for data acquisition, visual-stimuli of IAPS (International Affective Picture System) are used to induce emotional states, such as fear, disgust, joy, and neutral for each subject. The raw signals of acquisited data are splitted in the trial from each session to pre-process the data. The mean value and standard deviation are employed to extract the data for feature extraction and preparing in the next step of classification. The experimental results are proving that the proposed approach of multi-class SVM with Gaussian RBF kernel with OVO (One-Versus-One) method provided the successful performance, accuracies of classification, which has been performed over these four emotions.

내재된 기본 감정으로서의 칠정(七情)에 관한 초보적 연구 (The Primary Study on Chiljung of Inherent Basic Emotion)

  • 정종효;최금애;김경수;김경옥
    • 동의신경정신과학회지
    • /
    • 제20권1호
    • /
    • pp.107-118
    • /
    • 2009
  • Objectives : One's mind turned over by environment and personal relationship is Emotion. Emotion is composed by several basic feelings. This basic feeling is called Chiljung in Oriental Medicine. This study is confirmed difference of Chiljung by Constitution. Methods : 80 persons of Oriental medicine university students were tested by Qustionnaire for the Sasang Constitution Classification II(QSCCII) and Thematic Apperception Test(TAT). Constitution is distinguished by QSCCII. 11 pieces picture of TAT were showed one minute and then had person to discribe one's feelings. Two data were analyzed by statistical analysis. Results : Result is as follows, tested TAT about expression of inherent basic emotion. 1. It has relations with cognitive thought process 2. Expression of Chiljung has some relations with constitution and personal trait. Conclusion : Chiljung of inherent basic emotion is cognitive and has difference between constitutions by TAT.

  • PDF

GIS와 원격탐사를 이용한 경관유형의 특성분석 (An Analysis of Landscape Type Characteristics using the Technology of GIS and Remote Sensing)

  • 한갑수
    • 한국지리정보학회지
    • /
    • 제6권3호
    • /
    • pp.117-128
    • /
    • 2003
  • 본 연구는 춘천시를 대상으로 수치표고모델, 토지이용 데이터 및 토지피복분류 데이터를 구축하고 이를 이용한 토지이용 CG(computer graphics)화상과 토지피복 CG화상의 작성과 가시권분석을 통해 광역적 도시경관의 특성을 파악하였다. 토지피복분석의 결과, 1989년에서 2000년까지 시가지는 $7.7km^2$ 증가하였으며, 녹지는 $12.7km^2$가 감소하였다. 용도지역상 시가지, 개발제한구역, 녹지지역 등에서 녹지의 감소와 시가지의 증가가 나타났다. 춘천시의 도시경관은 3개의 유형으로 대분할 수 있었다. 유형1은 개발제한구역을 중심으로 형성된 경관, 유형2는 자연녹지, 생산녹지 등의 녹지를 중심으로 한 경관, 그리고 유형3은 시가지와 수역을 중심으로 한 경관특성을 가지고 있었다. 토지피복 CG화상은 모든 유형에서 녹지의 감소와 시가지의 증가가 나타났다. 가시권 분석의 결과, 경관적 중요도가 높은 영역에서도 녹지감소의 경향이 동일하게 나타나 이 영역에서 녹지경관의 보전 및 관리가 요구되었다.

  • PDF

압축비디오에서 인트라픽쳐 부분 복호화를 이용한 샷 움직임 분류 (Shot Motion Classification Using Partial Decoding of INTRA Picture in Compressed Video)

  • 김강욱;권성근
    • 한국멀티미디어학회논문지
    • /
    • 제14권7호
    • /
    • pp.858-865
    • /
    • 2011
  • 압축 상태에서 비디오 구조화 및 분류를 하기 위해서는 먼저 압축된 비디오에서 장면전환을 검출해서 비디오를 샷(shot)으로 분리하고 샷내 움직임 정보에 따라 샷을 특징화해야 한다. 장면전환을 검출하는 방법에는 DC 영상의 분산값 이나 복원영상의 에지 픽셀의 분포를 이용한 방법, P-픽쳐의 인트라 블록의 개수를 이용한 방법 등이 있으며 움직임에 따른 샷의 특징 분류는 움직임 벡터의 각 성분들의 평균값을 이용하는 것이 일반적인 방법이다. 그러나 움직임 벡터를 이용한 샷 움직임 분류 방법은 움직임 벡터 자체가 블록의 국부적(local) 움직임을 나타내는 것이므로 글로벌(global)한 카메라 동작을 예측하기 위해서는 많은 제약이 있다. 따라서 본 논문에서는 이러한 것을 보완하기 위해서 MPEG으로 압축된 비디오에서 인트라 프레임을 부분적으로 복호화 하고 빠른 1차원적인 연산을 통해 수평 및 수직 방향으로 평균 밝기 값의 변화 방향을 추정하여 좀더 정확히 샷내 카메라의 움직임을 분류하고자 한다.

족근 관절 골절에서 사면상 단순 방사선 사진의 유용성 (Usefulness of the Oblique Radiographic View in Ankle Fractures)

  • 조덕연;송상준;윤형구;한수홍;장지훈;윤병호
    • 대한족부족관절학회지
    • /
    • 제9권1호
    • /
    • pp.94-98
    • /
    • 2005
  • Purpose: To compare the radiographic evaluations between two radiographic views (AP and lateral views) and four radiographic views (AP, lateral and both oblique views) in ankle fractures. Materials and Methods: From January 2000 to June 2002, 60 cases of ankle fractures were treated with open reduction and internal fixation and its followed up periods were at least 2 years. All cases were classified into three groups according to the method of preoperative radiographic evaluation. Two radiographic views (AP and lateral views) were taken in group A and four radiographic views (AP, lateral and both oblique views) were taken in group B. 12 Cases were evaluated with three dimensional computed tomography (3D CT). Four radiographic views and 3D CT were taken in group C. All cases were classified according to the Danis-Weber and Lauge-Hansen classification. Displacement of fracture fragment of medial, lateral, posterior malleolus and size of fracture fragment of posterior malleous were measured using picture archiving communication system (PACS). Results: Although kappa value between two or four radiographic views were good or excellent in Danis-Weber classification and Lauge-Hansen classification of ankle fractures, the displacements of medial and lateral malleoli were statistically different. Four radiographic views evalulated the degree of displacement of medial and lateral fragments more accurately compared to two radiographic views. Conclusion: Four radiographic views will be more useful than two radiographic views to decide the method of treatment and operation considering the displacement of fracture fragment.

  • PDF