• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.032 seconds

Semiautomatic Pattern Mining for Training a Relation Extraction Model (관계추출 모델 학습을 위한 반자동 패턴 마이닝)

  • Choi, GyuHyeon;nam, Sangha;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.257-262
    • /
    • 2016
  • 본 논문은 비구조적인 자연어 문장으로부터 두 개체 사이의 관계를 표현하는 구조적인 트리플을 밝히는 관계추출에 관한 연구를 기술한다. 사람이 직접 언어적 분석을 통해 트리플이 표현되는 형식을 입력하여 관계를 추출하는 규칙 기반 접근법에 비해 기계가 데이터로부터 표현 형식을 학습하는 기계학습 기반 접근법은 더 다양한 표현 형식을 확보할 수 있다. 기계학습을 이용하려면 모델을 훈련하기 위한 학습 데이터가 필요한데 학습 데이터가 수집되는 방식에 따라 지도 학습, 원격지도 학습 등으로 구분할 수 있다. 지도 학습은 사람이 학습 데이터를 만들어야하므로 사람의 노력이 많이 필요한 단점이 있지만 양질의 데이터를 사용하는 만큼 고성능의 관계추출 모델을 만들기 용이하다. 원격지도 학습은 사람의 노력을 필요로 하지 않고 학습 데이터를 만들 수 있지만 데이터의 질이 떨어지는 만큼 높은 관계추출 모델의 성능을 기대하기 어렵다. 본 연구는 기계학습을 통해 관계추출 모델을 훈련하는데 있어 지도 학습과 원격지도 학습이 가지는 단점을 서로 보완하여 타협점을 제시하는 학습 방법을 제안한다.

  • PDF

CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding (다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델)

  • Nam, Sangha;Han, Kijong;Kim, Eun-Kyung;Gwon, Seong-Gu;Jeong, Yu-Seong;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

Generation and Evaluation of DEM Automatically using SPOT Stereo Image (SPOT 입체영상을 이용한 자동 수치표고모형의 생성과 평가)

  • 연상호;이진덕
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2004.05a
    • /
    • pp.161-168
    • /
    • 2004
  • 우리가 살아가는 3차원 이상의 지형공간을 영상으로 구형하기 위하여 필수적으로 요구되는 DEM을 비교적 손쉽게 확보할 수 있는 SPOT 영상을 이용하여 자동으로 생성할 수 있는 방법을 제시하고 에피폴라 투영법에 의한 결과영상의 평가를 통하여 몇 가지 좋은 방법을 제안하고자 한다 현재 보유하고 우리나라 춘천시의 SPOT 위성 팬크로 영상과 수치지도의 DEM영상과의 생성결과를 비교 평가하였다. SPOT2-3호(10m)에서 수집한 중복영상에서 자동으로 수치표고모델을 작성함으로서 다양한 영상정보의 활용이 가능해 따라 입체영상지도제작 및 분석이 가능해지고 있다. 본 연구에서는 SPOT 60km의 춘천지역을 대상으로 한눈에 영상과 영상을 재현할 수 있도록 고해상도의 인공위성 영상자료를 처리하여 영상지도를 제작하기 위한 수치표고모형을 자동으로 추출할 수 있도록 하였다.

  • PDF

Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method (자동 정렬을 통한 영한 복합어의 역어 추출)

  • 이주호;최기선;이재성
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

Digital Mapping Based on Digital Ortho Images (수치정사투영영상을 이용한 수치지도제작)

  • 이재기;박경식
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.18 no.1
    • /
    • pp.1-9
    • /
    • 2000
  • In the recent day, the necessity and the effective usage are increased rapidly, and it is applied in many other fields as well as in the field of ortho-photo map. In this study, we extract each objects on the aerial image and automatically classify graphic information to produce digital map using only digital ortho-image without particular drawing devices for producing digital map. For this purpose, we have applied a lot of the image processing techniques and fuzzy theory, classified outline and lane of road and building, and had each layer according to each feature. Especially, in the case of the building, the outer vector lines extracted by pixel unit at the building were very complex, but we have developed the program to be expressed by I-dimensional linear type between building corners. In the result of this study, we could not extract and recognize all of the object on the image all together, but we have got the error within 50cm using semi-automatic technique. Therefore, this method will be used effectively in producing 1/5,000 digital map.

  • PDF

Real-Time Automatic Human Face Detection and Recognition System Using Skin Colors of Face, Face Feature Vectors and Facial Angle Informations (얼굴피부색, 얼굴특징벡터 및 안면각 정보를 이용한 실시간 자동얼굴검출 및 인식시스템)

  • Kim, Yeong-Il;Lee, Eung-Ju
    • The KIPS Transactions:PartB
    • /
    • v.9B no.4
    • /
    • pp.491-500
    • /
    • 2002
  • In this paper, we propose a real-time face detection and recognition system by using skin color informations, geometrical feature vectors of face, and facial angle informations from color face image. The proposed algorithm improved face region extraction efficiency by using skin color informations on the HSI color coordinate and face edge information. And also, it improved face recognition efficiency by using geometrical feature vectors of face and facial angles from the extracted face region image. In the experiment, the proposed algorithm shows more improved recognition efficiency as well as face region extraction efficiency than conventional methods.

Relation Extraction based on Composite Kernel using Pattern Similarity of Predicate-Argument Structure (술어-논항 구조의 패턴 유사도를 활용한 혼합 커널 기반 관계 추출)

  • Jeong, Chang-Hoo;Chun, Hong-Woo;Choi, Yun-Soo;Song, Sa-Kwang;Choi, Sung-Pil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.276-279
    • /
    • 2011
  • 문서 내에 존재하는 개체 간의 관계를 자동으로 추출할 때 다양한 형태의 문서 분석 결과를 활용할 수 있다. 본 논문에서는 기존에 개발되어 비교적 높은 성능을 보여준 트리 커널의 구절 구조 유사성 정보와 두 개체 사이의 유의미한 연관관계를 표현하는 술어-논항 구조 패턴의 유사성 정보를 활용하는 혼합 커널을 제안한다. 구문적 구조를 이용하는 기존의 트리 커널 기법에 술어와 논항 간의 의미적 구조를 활용하는 술어-논항 구조 패턴 유사도 커널을 결합하여 상호보완적인 혼합 커널을 구성하였고, 실험을 통하여 개발된 커널의 성능을 측정하였다. 실험 결과 구절 구조 정보를 이용하는 트리 커널만을 단독으로 사용했을 때보다 술어-논항 구조의 패턴 정보를 결합한 혼합 커널을 사용했을 때에 더 좋은 성능을 보이는 것을 확인할 수 있었다. 이는 관계 인스턴스에 대한 구절 구조 정보뿐만 아니라 개체 간의 유의미한 연관관계를 표현해주는 술어-논항 구조 패턴 또한 관계 추출 작업에 매우 유용한 정보임을 입증하고 있다.

Grammatical Relation Analysis using Support Vector Machine in BioText (바이오 문서에서 지지 벡터 기계를 이용한 문법관계 분석)

  • Park, Kyung-Mi;Hwang, Young-Sook;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.287-292
    • /
    • 2003
  • 동사와 기본구 사이의 문법관계 분석은 품사부착과 기본구 인식이 수행된 상태에서, 동사와 의존관계를 갖는 기본구를 찾고 각 구의 구문적, 의미적 역할을 나타내는 기능태그를 인식하는 작업이다. 본 논문에서는 바이오 문서에서 단백질과 단백질, 유전자와 유전자 사이의 상호작용관계를 자동으로 추출하기 위해서 제안한 문법관계 분석 방법을 적용하고 따라서 동사와 명사고, 전치사고, 종속 접속사의 관계만을 분석하며 기능태그도 정보추출에 유용한 주어, 목적어를 나타내는 태그들로 제한하였다. 기능태그 부착과 의존관계 분석을 통합해 수행하였으며, 지도학습 방법 중 분류문제에서 좋은 성능을 보이는 지지 벡터 기계를 분류기로 사용하였고, 메모리 기반 학습을 사용하여 자질을 추출하였으며, 자료부족문제를 완화하기 위해서 저빈도 단어는 품사 타입 또는 워드넷의 최상위 클래스의 개념을 이용해서 대체하였다. 시험 결과지지 벡터 기계를 이용한 문법관계 분석은 실제 적용시 빠른 수행시간과 적은 메모리 사용으로 상호작용관계 추출에서 효율적으로 사용될 수 있음을 보였다.

  • PDF

A Study of Automatic Ontology Building by Web Information Extraction and Natural Language Processing (웹 문서 정보추출과 자연어처리를 통한 온톨로지 자동구축에 관한 연구)

  • Kim, Myung-Gwan;Lee, Young-Woo
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.9 no.3
    • /
    • pp.61-67
    • /
    • 2009
  • The proliferation of the Internet grows, according to electronic documents, along with increasing importance of technology in information retrieval. This research is possible to build a more efficient and accurate knowledge-base with unstructured text documents from the Web using to extract knowledge of the core meaning of LGG (Local Grammar Graph). We have built a ontology based on OWL(Web Ontology Language) using the areas of particular stocks up/down patterns created by the extraction and grammar patterns. It is possible for the user can search for meaning and quality of information about the user wants.

  • PDF

Full Motion Video Abstraction and Search System (동영상 요약 및 검색 시스템)

  • 정진국;박주현;낭종호;김경수;하명환;정병희
    • Journal of Broadcast Engineering
    • /
    • v.7 no.2
    • /
    • pp.114-125
    • /
    • 2002
  • Although there have been a lot of researches on a video abstraction algorithm, the video abstraction tool is necessary to correctly pick up some important shots in a video because the important shots might vary on the person's subjectivity. This paper proposes a video abstraction and search system for making a video abstraction automatically or manually. Proposed system has two main components, server and client. The server generates the Metadata and makes a video abstraction file. The description for video abstraction file is based on MPEG-7. Since proposed system has a function to manually correct the results of each step, the author could produce a good video abstraction easily and efficiently. The proposed system could be used to build a digital video library.