• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.029 seconds

The Generation Methods of Composition Noun For Efficient Index Term Extraction (고빈도어를 이용한 복합명사 색인어 추출 방안)

  • Kim, Mi-Jin;Park, Mi-Seong;Jang, Hyeok-Chang;Choi, Jae-Hyeok;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.121-129
    • /
    • 1998
  • 정보검색이나 자동색인 시스템에서는 정확한 색인어의 추출이 시스템의 성능을 좌우하게 된다. 따라서 정확한 색인어의 추출이 매우 중요하다. 본 논문에서는 정보 검색시에 보다 정확한 문서를 찾아줄 수 있도록, 출현 고빈도어를 이용하여 효율적인 색인어 추출을 위한 합성 명사 생성방안을 제시한다. 이를 위하여 문서 내에서 출현 빈도가 높은 명사, 즉 상위 $30%{\sim}40%$의 고빈도 명사에 합성 및 분해 규칙을 적용하여 합성명사 색인어를 추출한다. 또한 본 논문에서 제시한 상위 $30%{\sim}40%$ 고빈도 명사합성에 대한 타당성을 검증하기 위하여 적절한 명사합성 빈도를 구한다. 제안한 방법을 적용한 결과 300어절 이하의 짧은 문서는 출현빈도 상위 30%까지의 명사를 합성했을 경우 저빈도 누락이 작았고 300어절 이상의 문서는 출현빈도 40%까지 합성하면 저빈도 누락이 상당히 줄어듦을 알 수 있었다. 그리하여 전체 색인어의 개수를 줄였고 색인어의 정확률을 높였다.

  • PDF

An Efficient Web Image Caption Extraction Method based on Textual and Visual Information (텍스트 정보와 시각 특징 정보를 이용한 효과적인 웹 이미지 캡션 추출 방법)

  • Hwang Ji-Ik;Park Joo-Hyoun;Nang Jong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.346-348
    • /
    • 2006
  • 기존의 웹 이미지 검색 시스템들은 웹 페이지에 포함된 텍스트들의 출현빈도, 태그유형 등을 고려해 각 키워드들의 중요도를 평가하고 이를 이용해 이미지의 캡션을 결정한다. 하지만 텍스트 정보만으로 캡션을 결정할 경우, 키워드와 이미지 사이의 관련성을 평가할 수 없어 부적절한 캡션의 배제가 어렵고, 사람의 인지와 맞지 않는 캡션이 추출되는 문제점이 있다. 본 논문에서는 기존의 웹 이미지 마이닝 방법을 통해 웹 페이지로부터 캡션 후보 키워드를 추출하고, 자동 이미지 주석 방법을 통해 이미지의 개념 부류 키워드를 결정한 후, 두 종류의 키워드를 결할하여 캡션을 선택한다. 가능한 결합 방법으로는 키워드 병합 방법, 공통 키워드 추출 방법, 개념 부류 필터링 방범 캡션 후보 필터링 방법 등이 있다. 실험에 의하면 키워드 병합 방법은 높은 재현율을 가져 이미지에 대한 다양한 주석이 가능하고 공통 키워드 추출 방법과 개넘 부류 키워드 필터링 방법은 정확률이 높아 이미지에 대한 정확한 기술이 가능하다. 특히, 캡션 후보 키워드 필터링 방법은 기존의 방법에 비해 우수한 재현율과 정확률을 가지므로 기존의 방법에 비해 적은 개수의 캡션으로도 이미지를 정확하게 기술할 수 있으며 일반적인 웹 이미지 검색 시스템에 적용할 경우 효과적인 방법이다.

  • PDF

Region Detection Using the Feature Point Extraction from Medical Image (의료영상에서 특징점 추출을 이용한 영역추출)

  • 김엄준;성미영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.429-431
    • /
    • 1998
  • 본 논문에서는 의료 영상 중에서 성대 운동의 불규칙적인 움직임을 판단하여 자동으로 진단 파라미터를 구하는 비디오스트로보키모그래피(Videostrobokymography) 시스템에서 관심 영역을 추출하는 방법을 소개하고자 한다. CCD카메라에 의해 촬영된 영상은 비디오 테이프에 저장된 후 이미지 캡쳐 보드에서 그레이 이미지(gray-level)로 변환되어 저장된다. 입력된 영상은 움직이는 영상을 촬영한 것이므로 관심 영역의 위치가 각 프레임마다 다르다. 또한 실제로 입력된 성대영상들이 점진적인 농도 변화를 보이기 때문에 에지에 의해 영역을 추출하는 일반적인 영역 추출방법은 사용하기 어렵다. 본 논문에서는 두 번의 단계를 통하여 관심 영역을 추출하고 있다. 첫 번째는 입력된 영상에서 노이즈를 제거한 후 각 프레임에서 영상의 최소 에너지를 구한다. 두 번째로 농도 변화 값을 특징 값으로 이용하는 분할-합병 알고리즘(Split-merge Algorithm)을 적용하여 관심 영역을 추출하였다. 제안한 알고리즘을 19명의 성대 영상에 적용하여 분석한 결과 성대의 관심 영역을 추출할 수 있었다. 그리고, 영상의 에너지 값을 이용하는 스네이크 알고리즘(Snake Algorithm)에 적용하여 비교해본 결과 본 연구에서 제안하는 스네이크 알고리즘보다 좋은 성능을 보임을 확인할 수 있었다. 본 연구에서 제안하는 관심 영역 추출 방법은 동적인 변화를 보이는 영상에서 관심 영역을 추출할 수 있을 뿐 아니라 계산 량이 적어 200x280크기의 이미지를 초당 약 40프레임에 대한 관심 영역을 추출할 수 있는 장점이 있다.

  • PDF

CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding (다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델)

  • Nam, Sangha;Han, Kijong;Kim, Eun-Kyung;Gwon, Seong-Gu;Jeong, Yu-Seong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

Semiautomatic Pattern Mining for Training a Relation Extraction Model (관계추출 모델 학습을 위한 반자동 패턴 마이닝)

  • Choi, GyuHyeon;nam, Sangha;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.257-262
    • /
    • 2016
  • 본 논문은 비구조적인 자연어 문장으로부터 두 개체 사이의 관계를 표현하는 구조적인 트리플을 밝히는 관계추출에 관한 연구를 기술한다. 사람이 직접 언어적 분석을 통해 트리플이 표현되는 형식을 입력하여 관계를 추출하는 규칙 기반 접근법에 비해 기계가 데이터로부터 표현 형식을 학습하는 기계학습 기반 접근법은 더 다양한 표현 형식을 확보할 수 있다. 기계학습을 이용하려면 모델을 훈련하기 위한 학습 데이터가 필요한데 학습 데이터가 수집되는 방식에 따라 지도 학습, 원격지도 학습 등으로 구분할 수 있다. 지도 학습은 사람이 학습 데이터를 만들어야하므로 사람의 노력이 많이 필요한 단점이 있지만 양질의 데이터를 사용하는 만큼 고성능의 관계추출 모델을 만들기 용이하다. 원격지도 학습은 사람의 노력을 필요로 하지 않고 학습 데이터를 만들 수 있지만 데이터의 질이 떨어지는 만큼 높은 관계추출 모델의 성능을 기대하기 어렵다. 본 연구는 기계학습을 통해 관계추출 모델을 훈련하는데 있어 지도 학습과 원격지도 학습이 가지는 단점을 서로 보완하여 타협점을 제시하는 학습 방법을 제안한다.

  • PDF

Automatic Segmentation of Epiphyseal Using Statistical Properties of Epiphyseal Location (골단판 위치의 통계적 특성을 이용한 골단판 자동추출)

  • Byun, Jae-Uk;Lee, Jong-Min;Kim, Whoi-Yul
    • Annual Conference of KIPS
    • /
    • 2006.11a
    • /
    • pp.117-120
    • /
    • 2006
  • 뼈 나이 평가는 소아 뼈의 골화정도, 내분비선 장애 등을 쉽게 알아 볼 수 있어 소아 방사선 의학에서 자주 사용되는 방법이다. 뼈 나이 평가를 위해서는 골단판과 손마디 뼈의 길이 넓이 등 뼈 정보가 필요하기 때문에 골단판 영역의 추출이 선행되어야 한다. 하지만 골단판의 성장이 많이 진행되어 손마디 뼈 부분과 붙어 있는 경우 골단판 추출이 어려운 점이 있다. 본 논문에서는 골단판 성장 여부와 상관없이 다양한 나이의 디지털 X-ray 영상에서 손가락의 골단판을 추출하는 알고리즘을 제안한다. 손가락 경계선의 레이블링 처리를 이용하여 정확한 손가락 영역을 추출하고 골단판 위치의 통계적 특성을 사용하여 골단판의 후보 지역을 생성한다. 그리고 골단판 영역에서는 손가락 영상의 수직 투영 미분값이 크기 때문에 후보 지역 내에서 수직 투영 미분값의 변화량으로 골단판의 위치를 정확하게 추출한다. 다양한 나이에 대해 실험해 본 결과 제안한 방법은 골단판의 성장 여부와 상관없이 골다판과 손가락 뼈가 붙은 곳에서도 골단판의 통계적 특성을 사용해 정확한 골단판 영역을 추출할 수 있었다.

  • PDF

An XML Tag Indexing Method Using on Lexical Similarity (XML 태그를 분류에 따른 가중치 결정)

  • Jeong, Hye-Jin;Kim, Yong-Sung
    • The KIPS Transactions:PartB
    • /
    • v.16B no.1
    • /
    • pp.71-78
    • /
    • 2009
  • For more effective index extraction and index weight determination, studies of extracting indices are carried out by using document content as well as structure. However, most of studies are concentrating in calculating the importance of context rather than that of XML tag. These conventional studies determine its importance from the aspect of common sense rather than verifying that through an objective experiment. This paper, for the automatic indexing by using the tag information of XML document that has taken its place as the standard for web document management, classifies major tags of constructing a paper according to its importance and calculates the term weight extracted from the tag of low weight. By using the weight obtained, this paper proposes a method of calculating the final weight while updating the term weight extracted from the tag of high weight. In order to determine more objective weight, this paper tests the tag that user considers as important and reflects it in calculating the weight by classifying its importance according to the result. Then by comparing with the search performance while using the index weight calculated by applying a method of determining existing tag importance, it verifies effectiveness of the index weight calculated by applying the method proposed in this paper.

Neural Theorem Prover with Word Embedding for Efficient Automatic Annotation (효율적인 자동 주석을 위한 단어 임베딩 인공 신경 정리 증명계 구축)

  • Yang, Wonsuk;Park, Hancheol;Park, Jong C.
    • Journal of KIISE
    • /
    • v.44 no.4
    • /
    • pp.399-410
    • /
    • 2017
  • We present a system that automatically annotates unverified Web sentences with information from credible sources. The system turns to neural theorem proving for an annotating task for cancer related Wikipedia data (1,486 propositions) with Korean National Cancer Center data (19,304 propositions). By switching the recursive module in a neural theorem prover to a word embedding module, we overcome the fundamental problem of tremendous learning time. Within the identical environment, the original neural theorem prover was estimated to spend 233.9 days of learning time. In contrast, the revised neural theorem prover took only 102.1 minutes of learning time. We demonstrated that a neural theorem prover, which encodes a proposition in a tensor, includes a classic theorem prover for exact match and enables end-to-end differentiable logic for analogous words.

Trend Analysis using Spatial-Temporal Visualization of Event Information based on Social Media (소셜 미디어에 기반한 이벤트 정보의 시공간적 시각화를 통한 추이 분석)

  • Oh, Hyo-Jung;Yun, Bo-Hyun;Yoo, Cheol-Jung;Kim, Yong
    • Journal of Internet Computing and Services
    • /
    • v.15 no.6
    • /
    • pp.65-75
    • /
    • 2014
  • The main focus of this paper is to analyze trend of event informations in a variety of mass media by graphical visualization in axis of the time and location. Especially, continuity analysis based on user-generated social media can reflect the social impact of a certain event according to change time and location and their directional changes. To reveal the characteristics of continuous events, we survey the data set collected from news articles and tweets during two years. Based on case studies on 'disease' and 'leisure', we verify the effectiveness and usefulness of our proposed method. Even though some events occurred during same period, we showed directional changes which have high-impact in social media referred user interest's, compared with fact-based continuous visualization results.

Music information and musical propensity analysis, and music recommendation system using collaborative filtering (음악정보와 음악적 성향 분석 및 협업 필터링을 이용한 음악추천시스템)

  • Gong, Minseo;Hong, Jinju;Choi, Jaehyun
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.533-536
    • /
    • 2015
  • Mobile music market is growing. However, services what are applied recently are inaccurate to recommend music that a user is worth to prefer. So, this paper suggests music recommend system. This system recommend music that users prefer analyzing music information and user's musical propensity and using collaborative filtering. This system classify genre and extract factors what can be get using STFT's ZCR, Spectral roll-off, Spectral flux. So similar musics are clustered by these factors. And then, after divide mood of music's lyric, it finally recommend music automatically using collaborative filtering.

  • PDF