• 제목/요약/키워드: Information retrieval techniques

검색결과 274건 처리시간 0.025초

영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법 (Methods for Video Caption Extraction and Extracted Caption Image Enhancement)

  • 김소명;곽상신;최영우;정규식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.235-247
    • /
    • 2002
  • 디지털 비디오 영상을 효과적으로 색인하고 검색하기 위해서 비디오의 내용을 함축적으로 표현하고 있는 비디오 자막을 추출하여 인식하는 연구가 필요하다. 본 논문에서는 압축되지 않은 비디오 영화 영상에 인위적으로 삽입한 한글 및 영어 자막을 대상으로 자막 영역을 추출하고, 추출된 자막 이미지를 향상시키는 방법을 제안한다. 제안한 방법의 특징은 동일한 내용의 자막을 갖는 프레임들의 위치를 자동으로 찾아서 동일 자막 프레임들을 다중 결합하여 배경에 포함되어 있는 잡영의 일부 또는 전부를 우선 제거한다. 또한, 이 결과 이미지에 해상도 중대, 히스토그램 평활화, 획 기반 이진화, 스무딩의 이미지 향상 방법을 단계적으로 적용하여 인식 가능한 수준의 이미지로 향상시킨다. 제안한 방법을 비디오 영상에 적용하여 동일한 내용의 자막 그룹 단위로 자막 이미지를 추출하는 것이 가능해졌으며, 잡영이 제거되고 복잡한 자소의 획이 보존된 자막 이미지를 추출할 수 있었다. 동일한 내용의 자막 프레임의 시작 및 글위치를 파악하는 것은 비디오 영상의 색인과 검색에 유용하게 활용될 수 있다. 한글 및 영어 비디오 영화 자막에 제안한 방법을 적용하여 향상된 문자 인식 결과를 얻었다.

PoC Box 단말의 RTSP 운용을 위한 사용자 요구 중심의 효율적인 다중 수신 버퍼링 기법 및 패킷화 방법에 대한 성능 분석에 관한 연구 (A Study of Performance Analysis on Effective Multiple Buffering and Packetizing Method of Multimedia Data for User-Demand Oriented RTSP Based Transmissions Between the PoC Box and a Terminal)

  • 방지웅;김대원
    • 한국멀티미디어학회논문지
    • /
    • 제14권1호
    • /
    • pp.54-75
    • /
    • 2011
  • PoC(Push-to-talk Over Cellular)는 그룹 음성 및 영상 통화와 인터넷, 멀티미디어 서비스를 통합한 단말 기술이다. PoC는 부재, 긴급 상황, 배터리 방전 등과 같은 다양한 이유로 인해 PoC 세션에 참여하지 못하는 사용자에게 종래 MMS 서비스에서의 MM Box와 비슷한 기능을 가진 PoC Box를 사용하는 기능을 제공하고 있다. PoC 표준안에서는 PoC Box에서 PoC 단말로 미디어 전송 시 RTSP (Real-Time Streaming Protocol)를 사용하도록 권장하고 있다. 기존의 RTSP를 적용한 VOD 서비스의 경우는 빠른 유선 네트워크 망을 고려하여 패킷의 크기를 크게 구현하는 반면 PoC 서비스는 무선 통신 환경이기 때문에 이러한 특성을 고려한 RTSP 전송 방법이 필요하다. 무선 통신 환경에서는 패킷의 손실률이 비교적 유선 통신 환경에서보다 다소 높기 때문에 PoC 단말 측에서 미디어 재생 시 화면 끊김 현상, 영상과 음성의 비동기화 발생, 버퍼링 대기 시간 등이 발생한다. 따라서 PoC 단말 측에서의 이러한 문제점은 사용자가 미디어 콘텐츠를 재생하는데 있어 자신이 원하는 정보를 빠르게 습득하기 어렵게 만든다. 본 논문에서는 RTSP를 이용하여 사용자가 미디어 검색 시 단시간 내에 전송되는 미디어에서 효과적으로 중요한 정보를 습득하고 재생 지연 현상을 줄일 수 있는 "교차 이중 수신 버퍼링 기법", "사전 분할 다중 수신 버퍼링 기법", "On-Demand 다중 수신 버퍼링 기법"과 전송 시 미디어 데이터의 패킷화 방법인 "동일 순위 패킷화 전송 방식", "우선 순위 패킷화 전송 방식"을 제안하였고 실험을 통해 그 성능의 적정성 및 우수성을 검증하였다. 실시된 시뮬레이션 성능 평가에서 사용자의 미디어 검색 성향에 따라 제안된 다중 수신 버퍼링 및 패킷화 방식이 기존 단일 수신 버퍼링 방식과 비교하여 효율성 및 우수성 평가에서 6-9점 이상 우수한 결과를 보였다. 그 중 On-Demand 다중 수신 버퍼링 기법은 동일순위 패킷화 방법과 사용될 때 타 기법과 비교하여 3-24점 사이의 우수성을 보임으로써 사용자의 다양한 미디어 검색 성향에 대해 빠르게 대응할 수 있었다. 또한 단시간 내에 사용자가 집중적으로 미디어 검색이 이루어지는 재생 시간대에 대해 많은 미디어 데이터를 수신 받기 때문에 단말 사용자에게 빠른 정보를 제공할 수 있었다.

CBD 프로세스 지원을 위한 컴포넌트 저장소의 구축 (Construction of Component Repository for Supporting the CBD Process)

  • 차정은;김행곤
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권7호
    • /
    • pp.476-486
    • /
    • 2002
  • 컴포넌트 기반 개발(CBD : Component Based Development)은 비즈니스 시스템의 요구를 해결할 수 있는 최상의 전략적 방법으로 빠르게 확산되고 있다. 이는 CBD가 소프트웨어 컴포넌트의 조립을 통해 어플리케이션 개발이 가능한 새로운 패러다임으로서, 비즈니스 프로세스의 빠른 변화에 능동적으로 대처하며, 증가되는 생산성 향상의 요구를 충족시킬 수 있기 때문이다. 특히, 컴포넌트 저장소는 컴포넌트의 개발과 유통 그리고 재사용을 위해 가장 중요한 부분으로 컴포넌트 그 자체뿐 아니라 컴포넌트 개발의 각 단계로부터 생산된 결과물들을 저장하고 관리할 수 있다. 본 논문에서는 CBD 프로세스의 효과적인 지원을 위해 컴포넌트 저장소 구축을 중심으로 실제적인 적용 기술을 제시하고 이를 바탕으로 컴포넌트 저장소 관리 시스템(CRMS : Component Repository Management System)의 프로토터이핑을 개발한다. CRMS는 컴포넌트 아키텍쳐에 기반하여 다양한 컴포넌트의 형상을 관리하며, 어플리케이션 개발자들은 자신의 프로젝트에 이용하기 위한 컴포넌트를 검색하고 관련 이해 정보를 획득할 수 있다 본 논문을 통해 CBD 환경을 실제화 하는 공용 컴포넌트 저장소 구축으로의 실제적 접근을 제시함으로써 컴포넌트 개발을 지원하는 CBD 프로세스 및 컴포넌트의 저장소에 대한 선행 연구로 이용하고자 한다.

XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지 (Detecting Errors in POS-Tagged Corpus on XGBoost and Cross Validation)

  • 최민석;김창현;박호민;천민아;윤호;남궁영;김재균;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권7호
    • /
    • pp.221-228
    • /
    • 2020
  • 품사부착말뭉치는 품사정보를 부착한 말뭉치를 말하며 자연언어처리 분야에서 다양한 학습말뭉치로 사용된다. 학습말뭉치는 일반적으로 오류가 없다고 가정하지만, 실상은 다양한 오류를 포함하고 있으며, 이러한 오류들은 학습된 시스템의 성능을 저하시키는 요인이 된다. 이러한 문제를 다소 완화시키기 위해서 본 논문에서는 XGBoost와 교차 검증을 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 제안된 방법은 먼저 오류가 포함된 품사부착말뭉치와 XGBoost를 사용해서 품사부착기를 학습하고, 교차검증을 이용해서 품사오류를 검출한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류기로서 오류를 검출할 수 없다. 따라서 본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의 출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기 위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. 이 말뭉치는 오류 검출 대상의 전체 말뭉치로부터 임의로 추출된 것을 전문가에 의해서 오류가 부착된 것이다. 본 논문에서는 성능 평가의 척도로 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 또한 모집단의 모든 오류 후보를 수작업으로 확인할 수 없으므로 표본 집단과 모집단의 오류 분포를 비교하여 본 논문의 타당성을 보였다. 앞으로 의존구조부착 말뭉치와 의미역 부착말뭉치에서 적용할 계획이다.

NATM 터널 공정리스크 데이터베이스 구축 및 리스크 분류체계 개발 (Establishment of Risk Database and Development of Risk Classification System for NATM Tunnel)

  • 김현비;바타갈래 위누리 키만디가 가루나라내;김병수
    • 한국건설관리학회논문집
    • /
    • 제25권1호
    • /
    • pp.32-41
    • /
    • 2024
  • 건설산업은 안전사고뿐 아니라 공기지연, 원가상승, 환경오염 등의 여러 복합적인 리스크가 발생하며 이를 해결하기 위한 관리기술이 필요하다. 그 중에서 프로젝트에 직접적인 영향을 미치는 공정리스크의 관리는 그 중요성에 비해 관련정보가 부족한 실정이다. 본 연구는 각 프로젝트마다 상이한 분류체계 사용으로 인한 리스크 정보검색의 어려움을 해소하기 위하여 MATM 터널 공정리스크분류체계를 개발하고자 하였다. 리스크수집은 기존 문헌검토와 Experience Mining 기법을 사용하였고 DB구축은 자연어처리 개념을 활용하였다. 분류체계의 구조는 자료의 호환성을 고려하여 기존 WBS 구조를 채택하였고, WBS의 공종과 연결된 RBS를 구축하였다. 연구결과 공종별 리스크를 쉽게 파악하고 리스크에 연결된 리스크특성과 리스크요인이 직관적으로 드러나는 리스크분류체계가 완성되었다. 구축된 분류체계의 활용성 검증결과 사용자의 키워드 입력으로 공종별 리스크와 리스크요인이 쉽게 식별되어 분류체계는 유효한 것으로 나타났다. 본 연구를 통해 NATM터널 계획 및 설계 시 작업공종에 따르는 리스크를 미리 식별하고 그 요인에 맞는 대응방안을 수립하여 비용과 공사기간의 증가를 방지하는데 기여할 수 있을 것으로 기대된다.

오디오 포렌식을 위한 소리 데이터의 요소 기술 식별 연구 (A Study on Elemental Technology Identification of Sound Data for Audio Forensics)

  • 유혜진;박아현;정성균;정두원
    • 정보보호학회논문지
    • /
    • 제34권1호
    • /
    • pp.115-127
    • /
    • 2024
  • 최근 디지털 오디오 매체의 증가로 인해 소리 데이터의 규모와 다양성이 크게 확대되었으며, 이로 인해 디지털 포렌식 과정에서 소리 데이터 분석의 중요도가 증가하였다. 하지만 소리 데이터 분석에 대한 표준화된 절차나 가이드 라인이 부족하여 분석 결과의 일관성과 신뢰성에 문제가 발생하고 있다. 디지털 환경은 다양한 오디오 형식과 녹음 조건을 포함하고 있지만, 현재 오디오 포렌식 방법론은 이러한 다양성을 충분히 반영하지 못하고있다. 이에 본 연구에서는 모든 상황에서 효과적인 분석을 수행할 수 있도록 Life-Cycle 기반 소리 데이터 요소기술을 식별하여 소리 데이터 분석의 전반적인 가이드라인을 제시하였다. 이와 더불어, 식별한 요소 기술을 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발에 활용하기 위해 분석을 진행하였다. 본 연구에서 제시한 Life-Cycle별 소리 데이터 요소 기술 식별 체계의 효과성을 입증하기 위하여 소리 데이터 기반으로 응급상황을 검색할 수 있는 기술을 개발하는 과정에 대한 사례 연구를 제시하였다. 해당 사례 연구를 통해 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발 과정에서 Life-Cycle 기반으로 식별한 요소 기술이 데이터 분석의 질과 일관성을 보장하게 하고 효율적인 소리 데이터 분석을 가능하게 함을 확인하였다.

쿠쿠 필터 유사도를 적용한 다중 필터 분산 중복 제거 시스템 설계 및 구현 (Design and Implementation of Multiple Filter Distributed Deduplication System Applying Cuckoo Filter Similarity)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제10권10호
    • /
    • pp.1-8
    • /
    • 2020
  • 최근 몇 년 동안 기업이 수행하는 비즈니스 활동에서 생성된 데이터를 기반으로 하는 기술이 비즈니스 성공의 열쇠로 부상함에 따라 대체 데이터에 대한 저장, 관리 및 검색 기술에 대한 필요성이 대두되었다. 기존 빅 데이터 플랫폼 시스템은 대체 데이터인 비정형 데이터를 처리하기 위해 실시간으로 생성된 대량의 데이터를 지체 없이 로드하고 중복 데이터 발생 시 서로 다른 스토리지의 중복 제거 시스템을 활용하여 스토리지 공간을 효율적으로 관리해야 한다. 본 논문에서는 빅 데이터의 특성을 고려하여 쿠쿠 해싱 필터 기법의 유사도를 이용한 다중 계층 분산 데이터 중복 제거 프로세스 시스템을 제안한다. 가상 머신 간의 유사성을 쿠쿠 해시로 적용함으로써 개별 스토리지 노드는 중복 제거 효율성으로 성능을 향상시키고 다중 레이어 쿠쿠 필터를 적용하여 처리 시간을 줄일 수 있다. 실험 결과 제안한 방법은 기존 블룸 필터를 이용한 중복 제거 기법에 의해 8.9%의 처리 시간 단축과 중복 제거율이 10.3% 높아짐을 확인하였다.

반복적 부스팅 학습을 이용한 문서 여과 (Text Filtering using Iterative Boosting Algorithms)

  • 한상윤;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권4호
    • /
    • pp.270-277
    • /
    • 2002
  • 문서 여과 문제 (text filtering)는 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 따라서 증가하고 있는 추세이다. 이 논문에서는 새로운 학습 방법인 에이다부스트 학습 방법을 문서 여과 문제에 적용하여 기존의 방법들보다 우수한 분류 결과를 나타내는 문서 여과 시스템을 생성하고자 한다. 에이다 부스트는 간단한 가설의 집합을 생성하고 묶는 기법인데, 이 때 각각의 가설들은 문서가 특정 단어를 포함하고 있는지 검사하여 이에 따라 문서의 적합성을 판별한다. 먼저 최종 여과 시스템을 구성하는 각 가설의 출력이 1 또는 -1이 되는 이진 가설을 사용하는 기존의 에이다부스트 알고리즘에서 출발하여 좀 더 최근에 제안된 확신 정도 (실수값)를 출력하는 가설을 이용하는 에이다부스트 알고리즘을 적용함으로써 오류 감소 속도와 최종 오류율을 개선하고자 하였다. 또 각 데이타에 대한 초기 가중치를 연속 포아송 분포에 따라 임의로 부여하여 여러 번의 부스팅을 수행한 후 그 결과를 결합하는 방법을 사용함으로써 적은 학습 데이타로 인해 발생하는 과도학습의 문제를 완화하고자 하였다. 실험 데이터로는 TREC-8 필터링 트랙 데이타셋을 사용하였다. 이 데이타셋은 1992년도부터 1994년도 사이의 파이낸셜 타임스 기사로 이루어져 있다. 실험 결과, 실수값을 출력하는 가설을 사용했을 때 이진값을 갖는 가설을 사용했을 때 보다 좋은 결과를 보였고 임의 가중치를 사용하여 여러번 부스팅을 하는 방법이 더욱 향상된 성능을 나타내었다. 다른 TREC 참가자들과의 비교결과도 제시한다.

트윗 데이터를 활용한 IT 트렌드 분석 (An Analysis of IT Trends Using Tweet Data)

  • 이진백;이충권;차경진
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.143-159
    • /
    • 2015
  • 불확실한 환경변화에 대처하고 장기적 전략수립을 위해 기업에게 있어서 IT 트렌드에 대한 예측은 오랫동안 중요한 주제였다. IT 트렌드에 대한 예측을 기반으로 새로운 시대에 대한 인식을 하고 예산을 배정하여 빠르게 변화하는 기술의 추세에 대비할 수 있기 때문이다. 해마다 유수의 컨설팅업체들과 조사기관에서 차년도 IT 트렌드에 대해서 발표되고는 있지만, 이러한 예측이 실제로 차년도 비즈니스 현실세계에서 나타났는지에 대한 연구는 거의 없었다. 본 연구는 현존하는 빅데이터 기술을 활용하여 서울지역을 중심으로 지난 8개월동안(2013년 5월1일부터 2013년12월31까지) 정보통신산업진흥원과 한국정보화진흥원에서 2012년 말에 발표한 IT 트렌드 토픽이 언급된 21,589개의 트윗 데이터를 수집하여 분석하였다. 또한 2013년에 나라장터에 올라온 프로젝트들이 IT트렌드 토픽과 관련이 있는지 상관관계분석을 실시하였다. 연구결과, 빅데이터, 클라우드, HTML5, 스마트홈, 테블릿PC, UI/UX와 같은 IT토픽은 시간이 지날수록 매우 빈번하게 언급되어졌으며, 이 같은 토픽들은 2013년 나라장터 공고 프로젝트 데이터와도 매우 유의한 상관관계를 가지고 있는 것을 확인할 수 있었다. 이는 전년도(2012년)에 예측한 트렌드들이 차년도(2013년)에 실제로 트위터와 한국정부의 공공조달사업에 반영되어 나타나고 있는 것을 의미한다. 본 연구는 최신 빅데이터툴을 사용하여, 유수기관의 IT트렌드 예측이 실제로 트위터와 같은 소셜미디에서 생성되는 트윗데이터에서 얼마나 언급되어 나타나는지 추적했다는 점에서 중요한 의의가 있고, 이를 통해 트위터가 사회적 트랜드의 변화를 효율적으로 추적하기에 유용한 도구임을 확인하고자 할 수 있었다.

보안 서비스를 고려한 이동 에이전트 모델과 클라이언트-서버 모델의 성능 비교 (A Performance Comparison of the Mobile Agent Model with the Client-Server Model under Security Conditions)

  • 한승완;정기문;박승배;임형석
    • 한국정보과학회논문지:정보통신
    • /
    • 제29권3호
    • /
    • pp.286-298
    • /
    • 2002
  • 분산 컴퓨팅 환경에서 프로세스 사이의 상호 협력을 위한 통신으로 인격 프로시져 호출이 전통적으로 사용되고 있다. 분산 응용이 더욱 복잡해짐에 따라 최근 이동 에이전트 패러다임이 등장하였다. 이처럼 다양한 상호 협력을 위한 통신 패러다임이 등장함에 따라 각 패러다임의 성능에 대한 평가와 비교 연구가 이루어지고 있다. 그러나 기존의 연구에서 성능 평가를 위해 사용한 성능 모델들은 보안 서비스를 위한 평가 요소를 고려하고 있지 않기 때문에 실제 분산 환경을 제대로 반영하지 못한다. 분산 환경은 개방되어 있으므로 정보의 노출이나 도청과 같은 공격에 있어서 상당히 취약하다. 이러한 분산 환경에서 안전하게 작업을 수행하기 위해서는 여러 가지 공격으로부터 응용 프로그램이나 정보를 보호하기 위한 보안 서비스가 고려되어야 한다. 본 논문에서는 상호 협력을 위한 통신 패러다임 중 인격 프로시져 호출과 이동 에이전트의 성능을 평가하고 비교한다. 분산 응용 프로그램을 안전하게 수행하기 위해 고려해야 하는 보안 서비스에 관하여 알아보고, 이러한 보안 서비스를 적용한 새로운 성능 모델을 제시한다. N개의 데이타베이스 서버에서 사용자가 필요한 정보를 검색하는 작업을 Petri Net으로 모델링하고, 각 파라미터에 수치 값을 할당해서 수행속도를 측정하여 두 패러다임의 성능을 비교한다. 본 논문에서 안전한 통신을 위하여 보안 서비스를 적용한 두 성능 모델의 비교 결과는 다음과 같다. 원격 프로시져 호출은 연산 비용이 높은 암호화 메커니즘을 포함하는 통신 횟수와 통신량이 많기 때문에 실행 시간이 급격하게 증가하지만, 이동 에이전트 패러다임은 통신 횟수와 통신량을 줄인 수 있으므로 실행시간이 완만하게 증가하는 것을 살펴볼 수 있다.멀티미디어 제작환경을 구축하는 것이 디지털 방송 시대의 방송 사업자에게 가장 중요한 과제중의 하나가 되었다. 멀티미디어 제작환경을 구축함으로써 영상, 음성 및 다양한 부가 데이터를 포함하는 멀티미디어 프로그램을 편리하게 제작할 수 있으며, 데이터베이스로부터 필요한 영상 이미지를 자유롭게 합성, 조작하는 등, 매우 다양하고 편리한 제작기법을 활용할 수 있다. 또한 멀티미디어를 응용한 제작 분야로서 컴퓨터 그래픽스 기술은 방송의 사전제작에 커다란 기여를 하고 있으며, 이미 선거방송을 비롯한 여러가지 프로그램은 가상스튜디오와 가상캐릭터 기술을 활용하여 제작하고 있다. 방송사업자는 이러한 멀티미디어 제작시스템을 근간으로 영상검색, 영상 합성, 스크립트 편집, 가상현실 응용 등 고도의 제작 기법을 활용함으로써 사용자 친화성, 다이나믹한 표현, 실시간, 대화성을 특징으로 하는 다양한 멀티미디어 서비스를 시청자에게 제공할 수 있을 것이다.is. Using the results, we can identify dominant overestimation sources that should be analyzed more accurately to get tighter WCET estimations. To make our method independent of any existing analysis techniques, we use simulation based methodology. We have implemented a MIPS R3000 simulator equipped with several switches, each of which determines the accuracy level of the timing analysis