• 제목/요약/키워드: 데이터 추출

검색결과 6,283건 처리시간 0.039초

선형 중첩된 광류 모델을 이용한 카메라 움직임 파라미터 추출 (Extraction of Camera Motion Parameters with Linear Composition of Optical Flow Models)

  • 박상철;한성식;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.388-390
    • /
    • 2001
  • 본 논문에서 제안하는 카메라 움직임 파라미터를 추출하는 새로운 방법은 먼저 광류(optical flow) 관계 수식을 이용하여, 카메라의 다양한 움직임에 의해 생성되는 광류 모델들을 생성한다. 입력 비디오 데이터의 인접 영상으로부터 산출된 광류를 생성된 광류 모델들을 이용하여 선형 분해한다. 분해 과정을 통해 각 모델에 대한 가중치를 산출할 수 있으며, 산출된 가중치는 각 모델의 생성에 사용된 파라미터에 적용하여 이들의 선형 조합을 통해 입력에 대한 카메라 움직임 파라미터를 추출할 수 있다. 제안된 방법의 성능을 평가하기 위하여 수치 데이터와 비디오 데이터에 대하여 실험한 결과, 제안된 카메라 움직임 파라미터 추출 방법이 적은 계산 비용으로 정확하게 카메라 움직임 파라미터를 추출할 수 있음을 확인할 수 있었다. 또한 입력 데이터에 노이즈가 포함된 경우에도 파라미터 추출 성능이 우수함을 알 수 있었다.

  • PDF

데이터 집합을 이용한 고유명사 추출 (Proper Noun Extraction Using Data Sets)

  • 김태현;이현숙;하유선;이만호;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.11-18
    • /
    • 2000
  • 본 논문에서는 한국어 고유명사의 특징에 대해 살펴보고, 이를 기반으로 문서로부터 고유명사를 추출하기 위한 기본 모델을 제안한다. 고유명사는 문서의 내용을 대표하는데 주도적인 역할을 하기 때문에, 이를 효과적으로 추출해내는 것은 문서의 의미를 보다 정확하게 표현할 수 있는 방법이 될 수 있다. 문서에서 고유명사를 효과적으로 추출할 수 있도록 하기 위해, 본 연구에서는 이름집합, 접사집합, 단서집합을 구성할 수 있는 데이터 수집기 모델과 데이터 집합을 기본으로 이용하여 고유명사를 추출하는 고유명사 추출기 모델을 제안하였다. 그리고 실제로 이 모델을 적용하여, 회사명과 관련된 데이터를 수집하고, 이를 이용해 문서로부터 회사명을 추출할 수 있도록 하는 시스템을 구현하였다. 구현된 회사명 추출 시스템을 이용해 고유명사 추출 실험을 수행한 결과, 외래어로 이루어진 회사명으로 인한 문제를 제외할 경우 만족할 만한 정확율과 재현율을 얻을 수 있었다.

  • PDF

모바일 환경에서의 웹 데이터 추출을 위한 정의 언어 설계 및 라이브러리 구현 (A Design and Implementation of Definition Language and Library for Web Data Extraction for Mobile Platform)

  • 장병국;최원익
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.97-99
    • /
    • 2011
  • 논문에서는 일반 웹 브라우저를 대상으로 제작된 웹 페이지로부터 사용자가 원하는 정보를 추출하여 모바일 환경에서 활용할 수 있는 방법을 제안한다. 기존에 별도의 프록시(proxy) 서버를 통해 데이터를 저장하고 이를 제공하는 방식이 제안되었으나 이는 보안에 민감한 데이터 및 실시간 데이터 처리에 적합하지 않다. 본 논문에서는 모바일 기기상에서 웹 데이터 추출을 직접 처리하는 방법을 제안하며 이를 위해 웹 페이지로부터 데이터를 추출하는 방법 및 절차를 기술하는 정의 언어 (Web Extraction Definition Language)를 설계한다. 또한 설계된 WEDL 문서를 기반으로 동작하는 웹 클라이언트 라이브러리를 구현하여 실제 웹 페이지를 대상으로 동작하는지 실험한다.

Bidirectional GRU-GRU CRF 기반 참고문헌 메타데이터 인식 (Bidirectional GRU-GRU CRF based Citation Metadata Recognition)

  • 김선우;지선영;설재욱;정희석;최성필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-464
    • /
    • 2018
  • 최근 학술문헌이 급격하게 증가함에 따라, 학술문헌간의 연결성 및 메타데이터 추출 등의 핵심 자원으로서 활용할 수 있는 참고문헌에 대한 활용 연구가 진행되고 있다. 본 연구에서는 국내 학술지의 참고문헌이 가진 각 메타데이터를 자동적으로 인식하여 추출할 수 있는 참고문헌 메타데이터 인식에 대하여, 연속적 레이블링 방법론을 기반으로 접근한다. 심층학습 기술 중 연속적 레이블링에 우수한 성능을 보이고 있는 Bidirectional GRU-GRU CRF 모델을 기반으로 참고문헌 메타데이터 인식에 적용하였으며, 2010년 이후의 10종의 학술지내의 144,786건의 논문을 활용하여 추출한 169,668건의 참고문헌을 가공하여 실험하였다. 실험 결과, 실험집합에 대하여 F1 점수 97.21%의 우수한 성능을 보였다.

  • PDF

하둡 기반 빈발 시퀀스 추출기 개발 (Development of Frequent Sequence Extractor Based on Hadoop)

  • 박준하;이병희;박상재;이정준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1199-1202
    • /
    • 2013
  • 최근 증권, 센서, 기후, 의료 분야 등에서 수많은 시계열 데이터들이 쏟아져 나오고 있고, 이러한 시계열 빅 데이터를 통해 의미를 찾아내고자 하는 시계열 해석 및 분석, 예측 작업의 수요가 증가하고 있다. 시계열 해석 및 분석, 예측 작업을 하기 위해서 사용 될 수 있는 기초 작업은 유사한 시계열 시퀀스를 찾아내는 유사 시퀀스 매칭과 이러한 매칭을 통해 특정 시계열 데이터의 하나의 특징이 되는 빈발 시퀀스 추출 기술이 필요하다. 본 논문에서는 이러한 시계열 빅 데이터에서 유사 시퀀스 매칭을 이용한 빈발 시퀀스 추출 문제를 효율적으로 해결하는 빈발 시퀀스 추출기(Frequent Sequence Extractor)를 개발 및 구현하였다. 또한 분산처리 플랫폼인 하둡을 이용한 데이터 파싱을 사용하여, 각 분야별 시계열 데이터를 분석하는 전문가에게 효율적인 분산처리 효과를 제공한다.

판결문 자동요약을 위한 학습 데이터의 품질 개선방안 (Method to improve the Quality of Training Data for Automatic Summarization of Judgments)

  • 고상영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.461-464
    • /
    • 2022
  • 법원도서관이 발간하는 판례공보를 기반으로 판결문 자동요약을 위한 학습 데이터들이 구축되고 있다. 그런데 판결문 요약에서는 뉴스 요약과는 달리 추출요약과 생성요약 방식이 함께 사용되는 특수성이 있고, 이러한 특수성 때문에 현재 판결문 요약 데이터셋이 요약 프로그램의 성능 향상을 이끌지 못하고 있다고 생각된다. 따라서 법률가들이 판결문을 요약하는 방식을 반영하여, 추출요약 방식으로 작성된 판결요지와 생성요약 방식으로 작성된 판결요지를 분리해서 요약 데이터셋을 만들 필요가 있다. 추출요약과 생성요약에 관한 데이터셋을 따로 구축하기 위해서는 판례공보의 판결요지를 추출요약과 생성요약으로 분류하는 작업이 필요한데, 감성 분석에 사용되는 알고리즘이 판결요지의 분류 작업에 응용될 수 있다는 것을 실험 결과로 알 수 있었다.

  • PDF

매트릭스 프로파일을 이용한 제조 시계열 데이터 패턴 추출 (Pattern Extraction of Manufacturing Time Series Data Using Matrix Profile)

  • 김태현;진교홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.210-212
    • /
    • 2022
  • 제조업에서 생산 설비의 상태를 모니터링하기 위해 각종 센서를 부착하고 있으며, 이를 통해 획득된 데이터의 경우 시계열 데이터인 경우가 많다. 생산 설비의 이상 여부를 판단하기 위해서는시계열 데이터로부터 패턴을 추출하는 과정이 선행되어야 하며 다양한 방법이 연구되고 있다. 본 논문에서는 수집된 다변량 시계열 데이터로부터 패턴을 추출하기 위해 매트릭스 프로파일 알고리즘을 적용하였으며, 이를 통해 현재 CNC 머신으로부터 수집 중인 다중 센서 데이터의 패턴을 추출하였다.

  • PDF

동적 그룹 바인딩 기반의 모바일 에이전트를 이용한 인텔리전트 분산 플랫폼 (Intelligent Distributed Platform using Mobile Agent based on Dynamic Group Binding)

  • 마테오 로미오;이재완
    • 인터넷정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.131-143
    • /
    • 2007
  • 오늘날 정보 기술 및 지능형 시스템에서는 분산 데이터베이스로부터 패턴들을 찾고 규칙들을 추출하기 위해 데이터 마이닝 기술을 사용한다. 분산환경에서 데이터 마이닝 기술을 이용해 추출된 규칙들은 동적인 중복, 적응형 부하 균형 및 기타 기술들에서 활용될 수 있다. 그러나 대량의 데이터 전송은 에러를 야기하며 신뢰할 수 없는 결과를 초래할 수 있다. 이 논문은 이동 에이전트를 사용하여 동적 그룹 바인딩을 기반으로 한 인텔리전트 분산 플랫폼을 제안한다. 그룹서비스를 통해 효율적인 객체 검색을 위한 분류 알고리즘을 구현한다. 지능형 모델은 동적 중복을 위해 추출된 규칙을 사용한다. 데이터 마이닝 에이전트와 데이터 압축 에이전트는 각각 서비스 노드 데이터베이스로부터 규칙을 추출하여 데이터를 압축한다. 제안한 알고리즘은 데이터를 전송하기 전에 neuro-fuzzy 분류기를 사용하여 빈도가 적은 데이터 ???V을 합하는 전처리 과정을 수행한다. 객체그룹 분류, 서비스 노드 데이터베이스 마이닝, 데이터 압축 및 규칙 추출에 대한 시뮬레이션을 수행했다. 효율적인 데이터 압축 및 신뢰성 있는 규칙 추출에 대한 실험 결과 제안한 알고리즘이 다른 방법들과 비교해 이러한 관점에서 성능이 우수함을 나타내었다.

  • PDF

챗GPT를 활용한 기록관리 메타데이터 추출 사례연구 (A Case Study on Metadata Extractionfor Records Management Using ChatGPT)

  • 김민지;강성희;이해영
    • 한국기록관리학회지
    • /
    • 제24권2호
    • /
    • pp.89-112
    • /
    • 2024
  • 기록관리에서 메타데이터는 기록을 구성하는 필수 요소 중 하나로 기록물을 적절하게 관리하고 이해하도록 하는데 매우 중요한 역할을 한다. 기록관리 업무에서 메타데이터 요소들의 자동 부여가 불가능할 경우에는 기록전문가가 메타데이터 값을 직접 입력해야 한다. 이러한 업무의 불편함을 개선하기 위해 본 연구에서는 신기술인 챗GPT를 활용하여 기록관리 메타데이터 요소의 추출 방안을 제시하고자 하였다. 챗GPT 기술을 활용하기 위해 파이썬 프로그램과 랭체인 라이브러리를 이용하여 PDF 문서를 제시하고 질문을 통해 기록물의 메타데이터를 추출해보았고, 챗GPT 온라인 서비스를 통해 여러 건의 PDF 문서를 첨부하여 기록물의 메타데이터 요소를 추출해보았다. 그 결과 챗GPT-3.5 turbo를 사용한 랭체인에서는 보안상으로는 안전한 추출 방법이긴 하나 메타데이터의 정확한 요소를 얻기에는 다소 한계가 있었고, 챗GPT-4 온라인 서비스에서는 보안상 중요 문서를 첨부할 수 없지만 비교적 정확한 결과를 추출하였다. 이를 통해 기록관리에서의 메타데이터 추출을 위한 챗GPT 기술 활용의 가능성을 타진할 수 있었고, 챗GPT 관련 기술의 발달에 따라 좀 더 안전하고 정확한 결과 추출이 가능해질 것이다. 이러한 챗GPT의 장점을 활용함으로써 기록관에서 기록 및 메타데이터의 관리적 측면에서 업무의 효율성 및 생산성을 증대시키는데 도움을 줄 수 있을 것이라 기대한다.

데이터웨어하우스 성장에 따른 개선된 메타프로세스 구현 (Enhanced Meta Process Implementation For Growing Data Warehouse)

  • 이동원;문승진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.7-9
    • /
    • 2000
  • 데이터 웨어하우스는 기업의 의사 결정 과정을 향상시킬 수 있게 하는 정보기술이다. 대표적인 정의로는 '기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며 시간성을 가지는 비휘발성 자료의 집합 '이다.[1] 즉, 기업들이 보유하고 있는 분산된 대량의 데이터를 추출, 변환, 통합하여 요약된 읽기 전용의 데이터베이스로 구축함으로써, 경영분석이나 기업내의 의사 결정 지원 자료로 주로 활용된다. 데이터 웨어하우스의 경우, 일반사용자는 웨어하우스내에 저장된 데이터를 직접 이용하는 경우가 대부분이다. 따라서, 데이터의 구조와 의미에 대한 일반 사용자의 이해가 필요하게 되었다. 즉, 데이터의 추출 및 정제규칙, 데이터의 통합규칙, 요약알고리즘, 데이터 처리스케쥴 등을 알아야만 한다. 메타데이터는 최소한의 데이터 구조, 데이터의 요약에 사용된 알고리즘, 운영 데이터베이스와 데이터 웨어하우스사이의 대응관계와 같은 정보를 포함하여야 한다.[3] 여기서 변환프로세스에 대한 정보를 데이터의 형식에 대한 정보와 일반적인 데이터들과 차별화하여 메타프로세스라 한다.[5] 메타프로세스는 데이터를 변환하여 데이터 웨어하우스에 적재하는 과정에서 생성되는 메타데이터의 일부로써 데이터 웨어하우스에 통합된 자료들이 어떤 변환과정을 거쳐 생성된 자료인지를 알려주는 변환프로세스에 관한 정보를 제공한다. 본 연구에서는 대부분의 데이터 웨어하우스에서 구현되고 있는 메타데이터들은 데이터 항목의 속성정보를 위주로 한 것이며, 변환 프로세스와 관련된 데이터 관리가 미약하다. 따라서, 데이터 웨어하우스의 메타데이터 중 메타프로세스 정보의 추출 및 관리 시스템을 제안하는 것이다.

  • PDF