• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.029 seconds

Automatically Constructing English-Korean Parallel Corpus from Web Documents (웹 문서로부터 한영 병렬말뭉치의 자동 구축)

  • Seo, Hyung-Won;Kim, Hyung-Chul;Cho, Hee-Young;Kim, Jae-Hoon;Yang, Sung-Il
    • Annual Conference of KIPS
    • /
    • 2006.11a
    • /
    • pp.161-164
    • /
    • 2006
  • 인터넷이 발전하면서 웹에는 같은 내용을 다양한 언어로 표현한 문서들이 많이 존재한다. 이와 같은 웹 문서의 성질을 이용하여, 이 논문은 웹으로부터 수집된 병렬문서(parallel document)를 이용하여 한영 병렬말뭉치 구축 시스템을 설계하고 구현한다. 이 논문에서 구축과정을 요약하면 다음과 같다. 첫째, 웹 문서수집기를 이용해서 웹으로부터 한영 웹문서(html 문서)를 각각 수집한다. 둘째, 수집된 각 언어의 웹 문서에서 불필요한 내용(태그와 광고 문구 등)을 제거하여 문장을 추출하고, 추출된 문장을 단락단위로 정렬한다. 셋째, 단락단위로 정렬된 문서를 문장정렬(sentence alignment) 방법을 이용해서 문장을 정렬한다. 끝으로 정렬된 병렬문장을 단어 단위로 분리하여 병렬말뭉치를 구축한다. 이와 같은 방법으로 이 논문에서는 약 42만 5천 문장의 한영 병렬말뭉치를 구축하였다.

  • PDF

Matching Agent using Automatic Weight-Control (가중치 자동 조절을 이용한 매칭 에이전트)

  • 김동조;박영택
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.439-445
    • /
    • 2000
  • 다차원의 속성들을 포함한 대용량의 데이터베이스 또는 점보 저장소의 데이터로부터 지식을 추출하고 이를 활용하기 위해서는 데이터 마이닝의 인공지능 기법 중 기계학습을 활용할 수 있다. 본 논문은 질의어를 바탕으로 각 작성들에 가중치를 적용하여 사용자가 원하는 데이터 집합을 분류하고, 사용자 피드백을 통하여 속성 가중치를 동적으로 변화시킴으로써 검색결과를 향상시키는 방법을 제안한다. 본 논문에서는 데이터 집합을 분류해내기 위해서 각 속성간의 거리에 가중치를 적용하는 k-nearest neighbor 분류법을 사용하였고, 속성 가중치를 동적으로 변화시키는 규칙을 추출하기 위한 방법으로는 결정 트리 생성에 의한 규칙(decision rule) 생성 방법을 적용하였다. 검색결과 향상을 \ulcorner이기 위한 실험으로써 온라인 커플매칭(online couple-matching) 시스템의 핵심부문을 구현하고 이를 적용하였다.

  • PDF

Automatic Hand Tracking System using Skin Color Histogram (피부색 히스토그램 검출을 통해 향상된 자동 손 추적 시스템)

  • Kim, Beom-Joon;Shin, Byeong-Seok
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1477-1479
    • /
    • 2015
  • 기존의 연구와 같이 정확한 피부색 영역을 추출하기 위해 색상공간을 조절하는 방식은 조명이나 주변환경의 영향에 따라 잘못된 결과를 낼 수 있다. Camshift 알고리즘을 이용한 추적을 할 때에도 대상에게 맞춰진 피부색 히스토그램을 이용해서 추적하지 않으므로 범용성이 떨어진다. 이러한 문제점을 해결하기 위해 Camshift 알고리즘의 최초추적 윈도우를 결정하고 히스토그램을 결정하여손 피부색 추적성능을 향상시켰다. 보편적인 피부색 필터를 이용하여 인체 전경을 추출하고, haar like feature detection (특징검출)을 이용하여 손 영역을 검색한다. 이후 피부색 필터를 통해 이진화 된 이미지를 이용해 원 영상을 마스킹 한 후 사용자 고유의 피부색의 히스토그램을 결정한다. 이 방법으로 얻은 히스토그램을 Camshift알고리즘에 적용하면 기존방식 으로 생성한 히스토그램을 사용할 때보다 좋은 추적 성능을 보인다.

Design and Implementation of Meaning Collecting Tool for New Words (새로 생겨난 단어의 의미를 기술하는 프로그램의 설계 및 구현)

  • Kim, Unghee;Lee, Samuel Sangkon
    • Annual Conference of KIPS
    • /
    • 2014.04a
    • /
    • pp.733-736
    • /
    • 2014
  • 웹에 실시간으로 등록되는 언론 기사를 수집하는 웹 에이전트를 개발하여 텍스트를 추출하고, 어휘 분석을 통하여 어미/조사를 자동으로 제거하고, 국어사전에 등록된 표제어를 제외하여 새롭게 생성된 신조어의 추출 작업을 지원하는 조사 도구를 본 논문에서 제작하였다. 본 프로그램은 웹 에이젼트를 개발하여 신어의 의미를 기술하고 그 결과물을 검색엔진 시스템의 내부에 준비해 두고 있다가 고객의 검색 요구에 따라 새로 생성된 신어의 의미를 국민들에게 대민 서비스하는데 본 논문의 목적이 있다.

Performance Evaluation of Intrusion Detection System with Attributed Agent (분산 에이전트 침입 탐지 시스템의 성능 평가)

  • Jeong, Jong-Geun;Kim, Young-Ho;Park, Chan-Ho;Lee, Yun-Bae
    • Annual Conference of KIPS
    • /
    • 2001.04a
    • /
    • pp.387-390
    • /
    • 2001
  • 최근 세계적으로 유수한 인터넷 사이트들의 해킹으로 인해 네트워크 보안의 중요성이 강조되고 있다. 네트워크 보안을 위해 방화벽보다는 좀더 신뢰성이 높은 네트워크 및 시스템에 대한 보안 솔루션으로 침입 탐지 시스템(Intrusion Detection System)이 차세대 보안 솔루션으로 부각되고 있다. 본 논문에서는 기존의 IDS의 단점이었던 호스트 레벨에서 확장된 분산환경에서의 실시간 침입 탐지는 물론 이기종간의 시스템에서도 탐지가 가능한 새로운 IDS 모델을 제안 설계하였다. 그리고, 프로토타입을 구현하여 그 타당성을 검증하였다. 이를 위해 서로 다른 이기종에서 분산 침입 탐지에 필요한 강사 파일을 자동적으로 추출하기 위해서 패턴 추출 에이전트를 이용하였다.

  • PDF

A Design and study on automatic extraction of kernel data structure to improve performance of rootkit detection tool, Gibraltar. (루트킷 탐지 도구(Gibraltar) 성능 향상을 위한 자동화된 커널 메모리 자료 구조 추출에 관한 연구)

  • Choi, Wonha;Yi, Hayoon;Cho, Yeongpil;Paek, Yunheung
    • Annual Conference of KIPS
    • /
    • 2015.04a
    • /
    • pp.384-387
    • /
    • 2015
  • 하이퍼바이저를 이용한 가상화 검사(Virtual Machine Introspection)의 하나인 Gibraltar[2]는 자동으로 무결성 명세서를 생성할 수 있고, 보안 위협이 높아지고 있는 데이터 영역에 대해서도 방어가 가능하다는 점에 존재하는 어떤 보안 도구보다 효과적인 시스템으로 여겨지고 있다. 본 연구에서는 루트킷 탐지 도구인 Gibraltar를 Linux/ARM 3.14 버전에서 구현하고, 커널 메모리 자료 구조 추출 자동화 툴을 개발함으로써 기존 연구의 문제점을 해결하여 성능을 개선하였다. 이를 바탕으로 향후 Gibraltar 연구의 추가 개선 방향을 제시한다.

Subjective Tests Sub-System Applied with Generalized Vector Space Model (일반화된 벡터 공간 모델을 적용한 주관식 문제 채점 보조 시스템)

  • Oh, Jung-Seok;Chu, Seung-Woo;Kim, Yu-Seop;Lee, Jae-Young
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.965-968
    • /
    • 2004
  • 기존의 주관식 문제 채점 보조 시스템은 자연어 처리의 어려움으로 인해 채점의 자동화가 어려워 전자우편 등을 통하여 채점자에게 채점 의뢰를 하는 수준이었다. 본 논문에서는 이러한 문제점을 해결하기 위하여 문제 공간을 벡터 공간으로 정의하고 벡터를 구성하는 각 자질간의 상관관계를 고려한 방법을 적용하였다. 먼저 학습자가 답안을 작성할 때 동의어 사용을 한다는 가정하에 출제자가 여러 개의 모범 답안을 작성하고 이들 답안을 말뭉치에 첨가하여 구성한 다음 형태소 분석기를 통하여 색인을 추출한다. 그리고 학습자가 작성한 답안 역시 색인을 추출한 다음, 이들 색인들을 각 자질로 정의한 벡터를 구성한다. 이렇게 구성된 벡터들을 이용하여 답안들간 유사도 측정을 하고, 유사도 범위에 따라 답안을 자동으로 정답과 오답으로 분류하려는 시스템을 제안한다. 170 문항의 주관식 문제을 제안된 방법으로 실험하여, 기존 모델에 비해 성능과 신뢰성 향상을 이룰 수 있었다.

  • PDF

Automatic Method for Extracting Homogeneity Threshold and Segmenting Homogeneous Regions in Image (영상의 동질성 문턱 값 추출과 영역 분할 자동화 방법)

  • Han, Gi-Tae
    • The KIPS Transactions:PartB
    • /
    • v.17B no.5
    • /
    • pp.363-374
    • /
    • 2010
  • In this paper, we propose the method for extracting Homogeneity Threshold($H_T$) and for segmenting homogeneous regions by USRG(Unseeded Region Growing) with $H_T$. The $H_T$ is a criterion to distinguish homogeneity in neighbor pixels and is computed automatically from the original image by proposed method. Theoretical background for proposed method is based on the Otsu's single level threshold method. The method is used to divide a small local part of original image int o two classes and the sum($\sigma_c$) of standard deviations for the classes to satisfy special conditions for distinguishing as different regions from each other is used to compute $H_T$. To find validity for proposed method, we compare the original image with the image that is regenerated with only the segmented homogeneous regions and show up the fact that the difference between two images is not exist visually and also present the steps to regenerate the image in order the size of segmented homogeneous regions and in order the intensity that includes pixels. Also, we show up the validity of proposed method with various results that is segmented using the homogeneity thresholds($H^*_T$) that is added a coefficient ${\alpha}$ for adjusting scope of $H_T$. We expect that the proposed method can be applied in various fields such as visualization and animation of natural image, anatomy and biology and so on.

The Analysis of Basin Parameters Using Digital Map (수치지도를 이용한 유역특성분석)

  • Kang, In-Joon;Choi, Hyun;Lee, Byung-Gul
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.19 no.3
    • /
    • pp.229-236
    • /
    • 2001
  • One of the basic tasks in hydrological analysis is to delineate drainage basins and channel networks. Characteristics of channel networks and drainage basin parameters have been used widely in hydrologic calculation and modeling. DEMs(Digital Elevation Models) are generally used to automatically map the channel networks and to delineate drainage basins. This paper presents an effort to analyze basin characteristics using various DEMs. The quantitative analysis of channel networks begins with Horton's method of classifying stream according to Horton orders in hydro-geomorphy. HGSIS(Hydro-Geo-Spatial Information System) is possible to extract parameters. Usually, hydrologists. surveyors and GSIS researchers have some difficulties in accessing satellite images and in extracting DEMs from them. Therefore, the extracted DEMs from contours of digital map is widely used to have the basic works of hydrological analysis. This study presents proper DEMs to calculate Horton's orders, width function, drainage area, main channel length, total channel length, basin elevation and basin slope at digital map of 1:25,000 scale.

  • PDF

A new Clustering Algorithm for GPS Trajectories with Maximum Overlap Interval (최대 중첩구간을 이용한 새로운 GPS 궤적 클러스터링)

  • Kim, Taeyong;Park, Bokuk;Park, Jinkwan;Cho, Hwan-Gue
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.9
    • /
    • pp.419-425
    • /
    • 2016
  • In navigator systems, keeping map data up-to-date is an important task. Manual update involves a substantial cost and it is difficult to achieve immediate reflection of changes with manual updates. In this paper, we present a method for trajectory-center extraction, which is essential for automatic road map generation with GPS data. Though clustered trajectories are necessary to extract the center road, real trajectories are not clustered. To address this problem, this paper proposes a new method using the maximum overlapping interval and trajectory clustering. Finally, we apply the Virtual Running method to extract the center road from the clustered trajectories. We conducted experiments on real massive taxi GPS data sets collected throughout Gang-Nam-Gu, Sung-Nam city and all parts of Seoul city. Experimental results showed that our method is stable and efficient for extracting the center trajectory of real roads.