• 제목/요약/키워드: 검색정보시각화

검색결과 193건 처리시간 0.03초

한국어 및 영어 이미지 캡션이 가능한 범용적 모델 및 목적에 맞는 텍스트를 생성해주는 기법 (A general-purpose model capable of image captioning in Korean and Englishand a method to generate text suitable for the purpose)

  • 조수현;오하영
    • 한국정보통신학회논문지
    • /
    • 제26권8호
    • /
    • pp.1111-1120
    • /
    • 2022
  • Image Captioning은 이미지를 보고 이미지를 언어로 설명하는 문제이다. 해당 문제는 이미지 처리와 자연어 처리 두 가지의 분야를 하나로 묵고 이해하고 하나로 묶어 해결할 수 있는 중요한 문제이다. 또한, 이미지를 자동으로 인식하고 텍스트로 설명함으로써 시각 장애인을 위해 이미지를 텍스트로 변환 후 음성으로 변환하여 주변 환경을 이해하는 데 도움을 줄 수 있으며, 이미지 검색, 미술치료, 스포츠 경기 해설, 실시간 교통 정보 해설 등 많은 곳에 적용할 수 있는 중요한 문제이다. 지금까지의 이미지 캡션 구 방식은 이미지를 인식하고 텍스트화시키는 데에만 집중하고 있다. 하지만 실질적인 사용을 하기 위해 현실의 다양한 환경이 고려되어야 하며 뿐만 아니라 사용하고자 하는 목적에 맞는 이미지 설명을 할 수 있어야 한다. 본 논문에서는 범용적으로 사용 가능한 한국어 및 영어 이미지 캡션 모델과 이미지 캡션 목적에 맞는 텍스트 생성 기법을 제한한다.

빅데이터 연구영역의 지식창출 구조 (Knowledge Creation Structure of Big Data Research Domain)

  • 남수현
    • 디지털융복합연구
    • /
    • 제13권9호
    • /
    • pp.129-136
    • /
    • 2015
  • 본 논문은 학제간 연구의 대표적인 사례인 빅데이터 연구가 어떤 주제로 구성되어 있는지를 상향식 접근법을 이용하여 분석한다. 분석을 위해서 연구재단에서 제공하는 학술지 인용색인시스템을 이용하였다. 영문 키워드 "big data"로 모든 등재지와 등재후보지를 대상으로 검색을 하여 이것을 원천 데이터로 하였다. 논문 저자가 직접 제공하는 키워드를 본 연구에서 사용하기 위해서 정제작업을 거친 후, 주요 키워드 분포, 참여 저널의 성격 분포, 참여저자 수의 분포, 연도별 키워드 분포 등을 이용하여 빅데이터 연구주제의 구조를 설명하였다. 식별된 주요 키워드들은 사회네트워크 분석, 하둡, 맵리듀스, 개인정보/보호, 클라우드 컴퓨팅, 시각화, 데이터마이닝 등이다. 또한 빅데이터가 지속가능하고 융복합적인 경영혁신 도구로 사용되기 위해 향후 추가적으로 보완되어야 할 연구 키워드들을 제안한다.

동질성 문턱 값 기반 영상분할에서 과분할 영역 축소 방법 (A Reduction Method of Over-Segmented Regions at Image Segmentation based on Homogeneity Threshold)

  • 한기태
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.55-68
    • /
    • 2012
  • 본 논문에서는 영상의 동질성 문턱 값(Homogeneity Threshold:$H_T$)을 이용한 영상분할방법에서 영상의 과분할 발생을 해결하기 위한 개선된 영상분할 방법을 제안한다. $H_T$을 기반으로 한 영역성장(Region Growth) 알고리듬은 선택된 윈도우의 중심화소만을 사용하기 때문에 과 분할이 발생하였으나, 제안한 방법에서는 선택된 윈도우에 대한 동질성 여부를 조사하여 동질성을 만족할 경우 선택된 윈도우 화소전체를 영역병합에 사용하고 선택 윈도우가 동질성 윈도우를 만족하지 않을 때에는 윈도우의 중심화소를 사용함으로써 영역의 과 분할을 현저하게 줄일 수 있었다. 제안한 방법의 타당성을 보이기 위하여 기존방법과 동일한 영상을 동일한 조건으로 실험하였으며, 그 결과 제안한 방법은 기존 방법에 비해 영역의 개수를 40% 이상 줄이면서도 시각적으로 영상의 품질에 차이가 없음을 볼 수 있었다. 특히 분할된 영역의 크기순으로 결합한 영상을 가지고 비교 했을 때, 기존방법에서는 분할된 영역의 큰 영역으로부터 1,000개 이상의 영역을 결합하여도 어떠한 영상인지 구분하기가 힘들었으나, 제안한 방법에서는 10개 내외의 영역만 결합하여도 어떠한 이미지인지 식별할 수 있음을 확인할 수 있었다. 따라서 제안한 방법은 특정 영상으로부터의 객체 추출이나 정보검색 혹은 해부학이나 생물학 분야의 연구 및 영상 시각화와 애니메이션 등 다양한 분야에서 활용될 수 있을 것으로 기대한다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

이용자 관점에서 본 이미지 색인의 객관성에 대한 연구 (An Investigation of the Objectiveness of Image Indexing from Users' Perspectives)

  • 이지연
    • 정보관리학회지
    • /
    • 제19권3호
    • /
    • pp.123-143
    • /
    • 2002
  • 이미지 색인은 이미지 정보로의 접근에 핵심적인 역할을 수행하는 부분으로 다양한 이미지 색인 방법 및 시스템이 이미지 정보의 종류에 따라 소개되어 왔다. 이미지 색인은 Panofsky의 정보의 단계별 색인에서 출발하여 시소러스, 분류체계, 이미지 기술요소, 범주화 방식 등을 이용하는 방식으로 발전하여 왔다. 이 연구는 Panofsky의 이미지 정보 중 이차 이미지 정보의 색인(iconographical analysis of image information)에 있어 이용자들을 대상으로 하여 그 객관성을 측정하고, 색인의 객관성과 관련된 이미지 기술요소들을 밝혀내고자 하였다. 이미지 속의 인물이나 물체 등 사실적이고 정형화된 일차 이미지 정보와는 대조적으로, 보다 주관적이고 해석적인 이차 이미지 정보의 예로 감정정보를 택하여 48명의 이용자들을 대상으로 2차에 걸친 실험을 하였다. 1차 실험에서는 같은 이미지 안에서 각각의 이용자들이 읽어내는 감정정보의 일치도를 측정하였고 2차 실험에서는 이용자들이 이미지 탐색 과정 중 검색된 이미지에 부여된 색인어에 대한 동의 정도를 통하여 색인의 객관성을 측정하였다. 1차와 2차 실험 결과는 이용자들이 같은 이미지에 대하여 다양한 해석을 내리고 있으며 주관적인 해석이나 개인차가 이차 이미지 정보의 색인에 영향을 미치는 요소로 작용하고 있음을 보여 주었다. 이 연구의 결과는 이차 이미지 정보에 대한 이용자들의 주관적인 반응을 수렴할 수 있는 색인 시스템이나 탐색기법에 대한 계속적인 연구 및 개발의 필요성을 강조하고 있다.

미국 정보 대학의 데이터사이언스 학위 현황 연구 (Degree Programs in Data Science at the School of Information in the States)

  • 박형주
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.305-332
    • /
    • 2022
  • 본 연구의 목적은 문헌정보학 프로그램이 있는 정보 대학에서 수여하는 데이터사이언스 학위의 현황을 알아보는 것이다. 데이터 수집의 대상은, 2022년 미국도서관협회의 인가를 받은 문헌정보학 프로그램이 있는 64개의 대학에서 수여하는 데이터사이언스 학위였다. 분석의 대상은 각 대학의 데이터사이언스 학위 과정, 부전공, 세부 전공, 수료증, 취업 후 예상 진로, 취업률 등이었다. 교과 분석을 위해 미국 정보 대학에서 제시한 교과목 명, 교과 설명, 중점 교육 분야를 분석했다. 데이터사이언스를 학위 명으로 개설한 대학은 총 8개 정보 대학의 12개 학위였으며, 학사 학위 5개, 석사 학위 6개, 박사 학위 1개였다. 개설된 교과의 주제는 데이터사이언스 입문, 정보검색, 데이터마이닝, 데이터베이스, 데이터와 인문학, 머신 러닝, 메타데이터, 연구 방법론, 데이터 분석 및 시각화, 실습/캡스톤, 윤리 및 보안, 이용자, 정책, 큐레이션 및 관리였다. 대부분의 대학은 전통적인 문헌정보학 교과를 개설하지 않고 있었다. 정보 대학이 제시한 졸업 후 예상 취업 진로는 데이터사이언티스트, 데이터 엔지니어, 데이터 분석가 등이었다. 본 연구의 결과는 정보학의 관점에서 데이터사이언스 학위 과정, 세부 전공, 수료증 또는 교과과정 개발 및 개정을 위한 논의에 활용될 수 있는 기초 자료로 활용되기를 기대한다.

Analysis of Major Changes in Press Articles Related to 'High School Credit System'

  • Kwon, Choong-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권7호
    • /
    • pp.183-191
    • /
    • 2020
  • 본 연구의 목적은 최근 교육정책 중 관심거리가 되고 있는 '고교학점제' 관련 언론사 기사들의 최근 변화(2017년~2019년: 3년간) 모습을 객관적으로 분석하여 제시하는 것이다. 주요 연구방법론은 BIGKinds 서비스의 특정 검색어 뉴스 검색, 뉴스 트렌드 분석, 키워드 추출 및 워드클라우드 구현, 네트워크 분석 및 네트워크 그림 제시 등 이었다. 연구결과는 첫째, 2017년~2019년 3년간 국내 주요 언론사에 등장한 고교학점제 관련 기사건수는 총 3,649건이며, 정부(교육부)의 관련 정책발표를 계기로 4번 정도 특정 시점에서 기사건수가 급격하게 증가하는 뉴스 트렌드를 보였다. 둘째, 분석대상 3년간의 고교학점제 관련 언론사 기사들에서 추출한 상위출현빈도 20위 키워드들을 제시하였으며, 연도별 키워드의 변화가 나타난 것을 확인하였다. 셋째, 고교학점제 관련 언론사 기사들의 연도별 네트워크는 인물, 기관, 키워드 별로 다른 모습으로 시각화하여 제시하였다. 이와 같은 연구결과는 고교학점제 교육정책이 문재인 정부의 대표적인 교육정책으로 채택되어, 정책 결정 단계를 거쳐 정책 집행 단계로 진행되고 있음을 확인해 주었다.

오령산 구성성분-타겟 네트워크 분석 (Analysis of a Compound-Target Network of Oryeong-san)

  • 김상균
    • 한국지식정보기술학회논문지
    • /
    • 제13권5호
    • /
    • pp.607-614
    • /
    • 2018
  • 오령산은 몸 속의 수분을 순환시키고 소변으로 배출이 잘 되게 하는 효능이 있어 수분이 정체되어 나타나는 질환에 많이 쓰이는 처방이다. 본 연구에서는 시스템 약리학 접근 방법을 이용해서 오령산의 작용 기전을 탐색하기 위해서 오령산의 구성약재의 성분-타겟 네트워크를 구축하고 분석하였다. 우선, 오령산의 475개 성분에 대해서 STITCH 데이터베이스에서 연관된 타겟을 검색하였으며, 성분과 타겟의 상호작용에 대한 검색 결과는 XML 파일로 다운로드하였다. 본 연구에서 성분-타겟 네트워크는 Gephi를 이용해서 시각화하고 탐색하였다. 노드는 성분과 타겟이 되고, 링크는 성분과 타겟들간에 상호작용이 존재하면 연결되며, 상호작용의 신뢰도에 따라 링크에 가중치를 부여하였다. MCL 알고리즘을 이용해서 네트워크를 클러스터링 하였으며, 총 130개의 클러스터가 생성되었다. 가장 많은 노드를 가지는 클러스터에서 노드의 개수는 32개였다. 성분-타겟 네트워크에서 약재의 유효 성분들이 신장의 혈압 조절 기능과 관련된 타겟들과 연결되어 있는 것을 발견할 수 있었다. 향후에는 질병 데이터베이스와 연계해서 보다 명확한 오령산의 작용 기전을 밝힐 수 있도록 할 계획이다.

건설공사 기획단계 전자매뉴얼의 적용 모형 구성 및 효과 분석 (Model Design and Applicability Analysis of Interactive Electronic Technical Manual for Planning Stage of Construction Projects)

  • 곽중민;강인석
    • 토지주택연구
    • /
    • 제12권2호
    • /
    • pp.121-139
    • /
    • 2021
  • 건설분야 기술문서들은 과거 종이 문서형태에서 전자화 형태로 변화되고 있으며, 휴대용 전자기기로 관련 규정을 검색하여 활용하는 사례도 증대되고 있다. 그러나 이러한 기술문서들의 전자화 형태는 접근성은 개선될 수 있지만 여전히 규정 자체의 전자 문서화에 그치고 있다. 규정에 관련된 기술 내용의 시각적 이해도를 높이기 위한 동영상, 에니메이션(Animation), 가상현실(Virtual Reality, VR)정보 등이 연동되지 않아 실무자들의 기술적 이해도를 높이는 데는 한계가 있다. 이러한 점을 개선할 수 있는 것이 전자매뉴얼이다. 전자매뉴얼은 시방서, 가이드라인 등 문서형태에 멀티미디어 기능이 연계되어 사용자와 대화형태로 운용되면서 실시간으로 정보 습득이 가능하도록 하는 전자 문서체계이다. 본 연구는 건설분야의 기획단계에 운용가능한 전자매뉴얼의 구성 방안과 모형을 구축하고, 적용 시나리오를 구성하여 활용성을 검증한다. 또한 전자매뉴얼의 적용시 파급효과를 AHP기법으로 분석하여 건설분야 전자매뉴얼의 활용성을 제고하는데 목적이 있다.

위키피디아 링크를 이용한 랭크 기반 개념 계층구조의 자동 구축 (Automated Development of Rank-Based Concept Hierarchical Structures using Wikipedia Links)

  • 이가희;김한준
    • 한국전자거래학회지
    • /
    • 제20권4호
    • /
    • pp.61-76
    • /
    • 2015
  • 흔히 대용량 텍스트 데이터의 분류를 위한 인덱싱 데이터 구조로서 계층 개념 트리가 활용된다. 본 논문은 개념 계층구조를 자동적으로 구축하기 위해 위키피디아를 이용한 일반성 랭크 기반 기법을 제안한다. 이것의 목적은 위키피디아 문서를 하나의 개념으로 정의하여 이들 간의 계층적 위상관계를 생성하는 것이다. 이를 위해 위키피디아 문서들 간의 링크 개수를 주요 인자로 하여 개념 일반성을 가늠하는 랭킹함수를 고안하였으며, 이를 활용하여 개념 간 확률적 포함관계를 산출함으로써 안정적인 개념 간 계층 구조를 생성한다. 결과적으로 계층적 관계를 담은 개념쌍은 DAG 구조로 시각화 된다. Open Directory Project 계층구조를 사용한 성능 분석을 통해 제안 기법이 기준 기법에 비해 성능이 우수하며 고품질 계층 관계를 안정적으로 추출할 수 있음을 확인하였다.