• 제목/요약/키워드: 영상 언어 모델

검색결과 75건 처리시간 0.027초

BERT 모델과 지식 그래프를 활용한 지능형 챗봇 (An Intelligent Chatbot Utilizing BERT Model and Knowledge Graph)

  • 유소엽;정옥란
    • 한국전자거래학회지
    • /
    • 제24권3호
    • /
    • pp.87-98
    • /
    • 2019
  • 인공지능이 활발하게 연구되면서 이미지, 영상, 자연어 처리와 같은 다양한 분야에 적용되고 있다. 특히 자연어 처리 분야는 사람이 말하고 쓰는 언어들을 컴퓨터가 이해할 수 있도록 하기 위한 연구들이 진행되고 있고 인공지능 기술에서 매우 중요한 영역 중 하나로 여겨진다. 자연어 처리에서 컴퓨터에게 사람의 상식을 이해할 수 있도록 학습시키고 사람의 상식을 기반으로 결과를 생성하도록 하는 것은 복잡하지만 중요한 기술이다. 단어들의 관계를 이용해 연결한 지식 그래프는 컴퓨터에게 쉽게 상식을 학습시킬 수 있다는 장점이 있다. 하지만 기존에 고안된 지식 그래프들은 특정 언어나 분야에만 집중해 구성되어 있거나 신조어 등에는 대응하지 못하는 한계점을 갖고 있다. 본 논문에서는 실시간으로 데이터를 수집 및 분석하여 자동으로 확장 가능한 지식 그래프를 구축하고, 이를 기반 데이터로 활용하는 챗봇 시스템을 제안하고자 한다. 특히 자동 확장 그래프에 BERT 기반의 관계 추출 모델을 적용시켜 성능을 향상시키고자 한다. 자동 확장 지식 그래프를 이용해 상식이 학습되어 있는 챗봇을 구축하여 지식 그래프의 활용 가능성과 성능을 검증한다.

청각 장애인을 위한 의료 기관에서의 쌍방향 소통 웹페이지 개발 (Interactive Communication Web Service in Medical Institutions for the Hearing Impaired)

  • 김도하;김도희;송여진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1047-1048
    • /
    • 2023
  • 청각장애인은 수화 언어, 즉 수어를 통해 의사소통한다. 따라서 본 논문에서는 의료 상황에서 청각 장애인이 겪는 소통의 어려움을 해결하기 위해 의료 상황 중심의 수어 데이터셋을 구축한 뒤, R(2+1)D 딥러닝 모델을 이용해 수어 동작을 영상 단위로 인식하고 분류할 수 있도록 하였다. 그리고 이를 Django를 이용한 웹 사이트로 만들어 사용할 수 있게 하였다. 이 웹 페이지는 청각장애인 개인 뿐만 아니라 의료 사회 전반적으로 긍정적인 효과를 줄 것으로 기대한다.

영상 기반 위치 인식을 위한 대규모 언어-이미지 모델 기반의 Bag-of-Objects 표현 (Large-scale Language-image Model-based Bag-of-Objects Extraction for Visual Place Recognition)

  • 정승운;박병재
    • 센서학회지
    • /
    • 제33권2호
    • /
    • pp.78-85
    • /
    • 2024
  • We proposed a method for visual place recognition that represents images using objects as visual words. Visual words represent the various objects present in urban environments. To detect various objects within the images, we implemented and used a zero-shot detector based on a large-scale image language model. This zero-shot detector enables the detection of various objects in urban environments without additional training. In the process of creating histograms using the proposed method, frequency-based weighting was applied to consider the importance of each object. Through experiments with open datasets, the potential of the proposed method was demonstrated by comparing it with another method, even in situations involving environmental or viewpoint changes.

딥러닝을 이용한 대규모 한글 폰트 인식 (Large-Scale Hangul Font Recognition Using Deep Learning)

  • 양진혁;곽효빈;김인중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.8-12
    • /
    • 2017
  • 본 연구에서는 딥러닝을 이용해 3300종에 이르는 다양한 한글 폰트를 인식하였다. 폰트는 디자인 분야에 있어서 필수적인 요소이며 문화적으로도 중요하다. 한글은 영어권 언어에 비해 훨씬 많은 문자를 포함하고 있기 때문에 한글 폰트 인식은 영어권 폰트 인식보다 어렵다. 본 연구에서는 최근 다양한 영상 인식 분야에서 좋은 성능을 보이고 있는 CNN을 이용해 한글 폰트 인식을 수행하였다. 과거에 이루어진 대부분의 폰트 인식 연구에서는 불과 수 십 종의 폰트 만을 대상으로 하였다. 최근에 이르러서야 2000종 이상의 대용량 폰트 인식에 대한 연구결과가 발표되었으나, 이들은 주로 문자의 수가 적은 영어권 문자들을 대상으로 하고 있다. 본 연구에서는 CNN을 이용해 3300종에 이르는 다양한 한글 폰트를 인식하였다. 많은 수의 폰트를 인식하기 위해 두 가지 구조의 CNN을 이용해 폰트인식기를 구성하고, 실험을 통해 이들을 비교 평가하였다. 특히, 본 연구에서는 3300종의 한글 폰트를 효과적으로 인식하면서도 학습 시간과 파라미터의 수를 줄이고 구조를 단순화하는 방향으로 모델을 개선하였다. 제안하는 모델은 3300종의 한글 폰트에 대하여 상위 1위 인식률 94.55%, 상위 5위 인식률 99.91%의 성능을 보였다.

  • PDF

글로벌 브랜드 타임랩스 광고에 나타난 영상 연구 (Media Research in Global Brand Timelapse Advertisement)

  • 유정선;정진헌
    • 디지털융복합연구
    • /
    • 제15권8호
    • /
    • pp.333-340
    • /
    • 2017
  • 타임랩스는 일정하게 정해진 간격으로 움직임을 촬영한 후 정상 속도로 영사하는 영상 기법이다. 글로벌 브랜드의 타임랩스 광고 영상을 살펴보고, 새로운 영상기법인 타임랩스의 구성요소와 표현방식을 분석하는 모델을 제시하고자 하였다. 선행연구로 문헌연구와 인터넷 자료조사, 유투브 영상자료 등을 조사하였다. 연속촬영이 영상기법으로 발전하면서 국내외 다큐멘터리, 국내외 드라마, 영화, 광고 등에 적용된 제작 현황을 살펴보았다. 2015-2016년 최근 광고에 타임랩스 기법이 사용된 아이폰광고(2016년), 랄프로렌 폴로광고(2015년), 캐논EOS(2013년) 영상의 기법을 분석한다. 타임랩스 구성요소는 정적요소로 정적모티브는 주로 인위적인 구조물이었고, 장소는 야외이며, 컬러는 장소의 특성을 잘 보여주는 시간에 촬영되었으며, 레이아웃은 모두 중앙에 배치 하였다. 동적요소로 동적 모티브는 움직이는 대상이며, 동선은 대상에 따른 스토리로 구성되었고, 시간은 짧게는 11-15초, 길게는 1분 30초 정도이며, 편집은 주로 브랜드 로고가 강조된 제품 중심이었다. 결론적으로 광고에 주목하게 하고 눈길을 사로잡는 것이 영상의 역할이다. 구매자의 마음을 움직이게 하는 데는 마음속에 내재된 감정을 유도하여 비언어적 기호인 영상으로 자극하는 타임랩스와 같은 연출과 편집이 필요하다. 향후 연구는 영상의 시간적 편집에 관한 다양한 시도가 나타날 것으로 보인다.

광역 객체 컴퓨팅 환경에서 부하를 고려한 선정된 객체의 통합 바인딩 서비스의 구축 (A Construction of Integrated Binding Service of The Selected Objects Considering Loads in Wide-Area Object Computing Environments)

  • 강명석;정창원;주수종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (중)
    • /
    • pp.1487-1490
    • /
    • 2002
  • 최근 분산 컴퓨팅 환경은 급진적으로 광역화되고, 이질적이며, 연합형태의 광역 시스템 구조로 변화하고 있다. 이러한 환경은 네트워크상에 광범위한 서비스를 제공하는 통신 네트워크 기반에서 구현된 수많은 객체로 구성된다. 더욱, 지구상에 존재하는 모든 객체들은 이름이나 속성에 의해 중복된 특성을 갖는다. 이러한 같은 특성을 갖는 객체들은 중복 객체로 정의된다. 그러나 기존의 네이밍이나 트레이딩 메커니즘은 독립적인 위치 투명성이 결여로 중복된 객체들의 바인딩 서비스 지원이 불가능하다. 서로 다른 시스템 상에 존재하는 중복된 객체들이 동일한 서비스를 제공한다면, 각 시스템의 부하를 고려하여 클라이언트의 요청을 분산시킬 수 있다. 이러한 이유로 본 논문에서는 광역 컴퓨팅 환경에서 중복된 객체들의 위치 관리뿐만 아니라 시스템들간의 부하 균형화를 유지하기 위해서 최소부하를 갖는 시스템에 위치한 객체의 선정하여 동적 바인딩 서비스를 제공할 수 있는 새로운 모델을 설계하고 구현하였다. 이 모델은 네이밍 및 트래이딩 기능을 통합한 서비스에 의해 중복된 객체들에 대한 단일 객체 핸들을 얻는 부분과, 얻어진 객체핸들을 사용하여 위치 서비스에 의해 하나 이상의 컨택 주소를 얻는 부분으로 구성하였다. 주어진 모델로부터, 우리는 Naming/Trading 서비스와 위치 서비스에 의한 전체 바인딩 메커니즘의 처리과정을 나타내고, 통합 바인딩 서비스의 구성요소들에 대만 구조를 상세하게 기술하였다. 끝으로 우리의 모델을 구현하기 위해, 윈도우 운영체제와 Solaris 2.5/2.7에서 사용되는 CORBA 사양을 따르는 VisBroker 4.1과 자바 언어, SQL Server 2000 그리고 LSF를 이용하였다. 그리고 구현 환경과 구성요소에 대한 수행 화면을 보였다.ool)을 사용하더라도 단순 다중 쓰레드 모델보다 더 많은 수의 클라이언트를 수용할 수 있는 장점이 있다. 이러한 결과를 바탕으로 본 연구팀에서 수행중인 MoIM-Messge서버의 네트워크 모듈로 다중 쓰레드 소켓폴링 모델을 적용하였다.n rate compared with conventional face recognition algorithms. 아니라 실내에서도 발생하고 있었다. 정량한 8개 화합물 각각과 총 휘발성 유기화합물의 스피어만 상관계수는 벤젠을 제외하고는 모두 유의하였다. 이중 톨루엔과 크실렌은 총 휘발성 유기화합물과 좋은 상관성 (톨루엔 0.76, 크실렌, 0.87)을 나타내었다. 이 연구는 톨루엔과 크실렌이 총 휘발성 유기화합물의 좋은 지표를 사용될 있고, 톨루엔, 에틸벤젠, 크실렌 등 많은 휘발성 유기화합물의 발생원은 실외뿐 아니라 실내에도 있음을 나타내고 있다.>10)의 $[^{18}F]F_2$를 얻었다. 결론: $^{18}O(p,n)^{18}F$ 핵반응을 이용하여 친전자성 방사성동위원소 $[^{18}F]F_2$를 생산하였다. 표적 챔버는 알루미늄으로 제작하였으며 본 연구에서 연구된 $[^{18}F]F_2$가스는 친핵성 치환반응으로 방사성동위원소를 도입하기 어려운 다양한 방사성의 약품개발에 유용하게 이용될 수 있을 것이다.었으나 움직임 보정 후 영상을 이용하여 비교한 경우, 결합능 변화가 선조체 영역에서 국한되어 나타나며 그 유의성이 움직임 보정 전에 비하여 낮음을 알 수 있었다. 결론: 뇌활성화 과제 수행시에 동반되는 피험자의 머리 움직임에 의하여 도파민 유리가 과대평가되었으며 이는 이 연구에서 제안한 영상정합을 이용한 움직임 보정기법에 의해서 개선되

  • PDF

텔레비전 뉴스의 영상의제설정 효과 -환경뉴스를 중심으로- (Visual Agenda-Setting Effect of Television News -Mainly on Environmental News-)

  • 박덕춘
    • 한국콘텐츠학회논문지
    • /
    • 제11권1호
    • /
    • pp.72-82
    • /
    • 2011
  • 본 논문은 '환경관련 텔레비전 뉴스에서 영상과 자막이 수용자의 의제설정에 영향을 미치는지', 그리고 '텔레비전 수용자의 환경관여도에 따라 영상과 자막이 수용자의 환경 중요성 인식에 미치는 영향에 차이가 있는지' 의제설정효과와 정교화 가능성 모델(ELM)을 이론적 배경으로 살펴본 실험연구이다. 연구결과 환경이슈에 노출된 수용자는 노출빈도가 높을수록 환경을 더 중요하게 생각하며, 그 과정에서 텔레비전의 시각적 요소인 영상과 자막이 수용자들의 환경인식에 영향을 미친 것으로 나타났다. 그리고 영상과 자막이 환경이슈에 관심이 많은 수용자보다 관심이 적은 수용자들에게 통합적 주변단서로써, 환경 인식에 더 큰 영향을 미친 것으로 나타났다. 그러나 영상과 자막이 개별적인 주변단서로써 관여도가 낮은 수용자들에게 더 큰 영향을 미치는 현상은 통계적으로 유의미하게 지지되지 못했다. 그동안 텔레비전 뉴스의 수용자 효과 연구들은 대부분 언어텍스트를 중심으로 이루어짐으로써, 시각적 요소가 수용자에 미치는 영향에 관한 연구는 극히 제한적으로 이루어져왔다. 따라서 본 연구는 최근 미국에서 확산되고 있는 '영상의제설정'이라는 새로운 연구분야의 초기 실험연구로써, 미디어 효과 연구 영역에서 중요한 함의를 가질 수 있을 것이다.

영화의 양식에 관한 교육 사례 I : 사운드와 카메라를 활용한 감상 및 실습교육을 중심으로 (Fundamental Education on Film Style I : Focusing on Basic Viewing Education Utilizing Sound and Camera)

  • 김계중
    • 한국콘텐츠학회논문지
    • /
    • 제11권2호
    • /
    • pp.195-203
    • /
    • 2011
  • 이 논문은 국내 대학교의 영화 관련학과에서 실행하는 영화언어에 관한 기초 교육 사례로서, 성결대학교 영화영상전공에서 실제로 시행된 수업을 토대로 제안되었다. 이 수업은 감상을 우선시하면서 이를 바로 실습과 연계시키는 방법으로 진행하였으며, 한 학기 수업 내용을 모두 다룰 수 없는 관계로 본 연구에서는 사운드와 카메라 활용 내용에 초점을 맞추었다. 사운드는 작은 카메라를 가지고 촬영과 동시에 나레이션을 말하는 방식과 마이크를 활용하여 사운드의 원근법적 '청점(聽點)'을 경험해볼 수 있도록 하였다. 카메라의 경우, 다양한 카메라 움직임을 직접 시연해 볼 수 있도록 하였다. 직접 카메라를 들고 움직임을 부여하는 핸드헬드 테크닉을 이용해서 트랙킹이나 크레인에 상응하는 효과를 내는 방법으로 유희적인 제작 방식을 유도하였다. 또한 '카메라와 놀기'라는 활동을 통해 영화를 사적인 매체로 발전시킬 수 있는 상상력을 유발 시키고자 하였다. 그리고 이런 방식의 제작과정을 고려하면서 가장 적합한 모델을 제시하기 위해 해당 양식이 사용된 영화의 클립을 감상하도록 하였다.

가상현실을 이용한 영상산업 활용에 관한 연구 (A Study on the Utilization of Video Industry Using Virtual Reality)

  • 백승만
    • 디자인학연구
    • /
    • 제15권1호
    • /
    • pp.163-170
    • /
    • 2002
  • 가상현실 기술은 인간이 현실세계에서 경험하는 것과 유사한 상호작용 행위를 가상의 공간을 통하여 체험할 수 있게 하는 기술이다. 가상현실 기술을 이용하여 3차인 가상공간에 참여한 사용자는 시간적 공간적 제약에 구애받지 않고 원하는 공간에서 다양한 경험을 할 수 있어서 영상산업, 오락, 시뮬레이션, 의료, 건축 및 설계분야 등 수많은 응용분야에서 그 기술이 활용되고 있다. 그 중 영상분야는 고 부가가치 산업으로 가장 각광을 받고 있는 분야라 할 수 있다. 이와 관련하여 본고에서는 영상산업의 영화, 방송, 광고, 인터넷 등 4가지로 분류하여 각각의 특징 및 적용사례와 발전 가능성을 관하여 살펴보고자 한다. 영상산업에서 가상현실 기술을 이용한 산업을 보면, 영화분야에서는 가상현실 기술을 이용하여 특수효과에 제작되고 있으며, 방송분야에서는 가상 스튜디오와 가상 캐릭터 도입으로 시청자에게 다양한 그래픽 가상세계를 제공하고 있다. 광고분야에서는 방송 생중계시 가상공간에 실시간으로 3차원적 광고 삽입하여 시청자에게 큰 시너지 효과를 줄 수가 있다. 또한, 가상현실 언어인 VRML의 등장으로 웹 상에서도 가상 박물관, 가상 모델하우스, 가상 홈쇼핑, 오락 등 3타원 가상현실 구현이 가능하게 되어 보다 다양한 엔터테인먼트 역할을 수행하고 있다. 이와 같이 본 고는 가상현실 기술을 이용하여 영상산업에 있어 활용방안을 모색하고자 하였다.

  • PDF

VRML을 이용한 융합 영상에서 간질환자 발작 진원지의 3차원적 가시화와 위치 측정 구현 (Visualization and Localization of Fusion Image Using VRML for Three-dimensional Modeling of Epileptic Seizure Focus)

  • 이상호;김동현;유선국;정해조;윤미진;손혜경;강원석;이종두;김희중
    • 한국의학물리학회지:의학물리
    • /
    • 제14권1호
    • /
    • pp.34-42
    • /
    • 2003
  • World Wide Web (WWW)에서 Virtual Reality Modeling Language (VRML)를 이용하는 3차원 (3D) 디스플레이는 사용자에게 직관적인 정보를 더 효과적으로 제공해 준다. 웹을 기반으로 하는 해부학적 영상과 융합되는 기능적 영상의 3D 가시화는 아직까지 체계적인 방식으로 연구가 활발히 진행되지 않았다. 이 연구의 목적은 2D 영상들과 함께 웹에서 VRML을 이용하여 구현되는 3D 해부학적 표면 영상들과 기능적 표면 영상들을 동시적으로 관찰할 수 있게 하고 VRML을 통해 만들어진 거리 측정 도구를 가지고 관심영역의 공간적인 위치 정보를 제공하는 것이다. 본 연구에서는 한 명의 간질 환자로부터 Magnetic Resonance (MR) 축면 영상과 발작기 및 발작간기 Single Photon Emission Computed Tomography (SPECT) 축면 영상들을 각각 획득하였다. 발작 진원지의 확인을 향상시키기 위해서 subtractionictal SPECT coregistered to MRI (SISCOM)을 수행하였다 SISCOM 결과로 나타난 각 2D 영상들은 모든 voxel들의 평균값 위로 1-표준편차와 2-표준편차에 해당하는 문턱 이상의 영상 값을 갖도록 하였다. SISCOM으로 나타나는 간질 발작 진원지들과 MRI 영상에서 회색질, 백색질 및 뇌척수액의 경계들을 각각 분할하고 marching cube 알고리즘에 의해 VRML 표면 영상들로 나타내었다. 축면 영상에서 실제 거리를 나타내는 x, y축의 길이를 획득하고 z축선의 길이를 계산하였다. VRML을 이용한 거리 측정도구를 만들어 이전의 VRML 표면 영상들과 융합하였다. MRI 영상을 이용하여 3D 표면 영상들의 단면을 나타내고 3D 표면 영상들의 투명도를 설정하기 위해 Java Script 루틴을 사용자 인터페이스 도구로서 삽입하였다 웹 페이지에서 구현되는 3D 표면 영상들의 투명도와 관찰 위치를 조절함에 따라 모델들 사이의 공간적인 정보를 직관적으로 알 수 있었다. 간질 발작 진원지에 대응하는 해부학적 구조를 3D 표면 영상들을 가로지르는 MRI 평면 영상들을 통해서 확인하였다 간질 발작 진원지는 뇌의 오른쪽 측두엽에서 나타났고 공간적으로 발작 진원지의 실제 위치를 VRML 거리 측정 도구에 의해 알 수 있었다. 결론적으로 본 연구에서 제시하는 웹에 근거한 3D 융합 영상의 가시화와 위치 측정은 진단 및 치료 방사선학과 외과학 등의 분야에서 온라인 방식의 연구와 교육에 있어 많은 도움을 줄 것이다.

  • PDF