• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.034 seconds

Korean-English statistical speech translation Using n-best re-ranking (n-best 리랭킹을 이용한 한-영 통계적 음성 번역)

  • Lee, Dong-Hyeon;Lee, Jong-Hoon;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.171-176
    • /
    • 2006
  • 본 논문에서는 n-best 리랭킹을 이용한 한-영 통계적 음성 번역 시스템에 대해 논하고 있다. 보통의 음성 번역 시스템은 음성 인식 시스템, 자동 번역 시스템, 음성 합성 시스템이 순차적으로 결합되어 있다. 하지만 본 시스템은 음성 인식 오류에 보다 강인한 시스템을 만들기 위해 음성 인식 시스템으로부터 n-best 인식 문장을 추출하여 번역 결과와 함께 리랭킹의 과정을 거친다. 자동 번역 시스템으로 구절기반 통계적 자동 번역 모델을 사용하여, 음성 인식기의 발음 모델에서 기본 단어 단위와 맞추어 번역 모델과 언어 모델을 훈련시킴으로써 음성 번역 시스템에서 형태소 분석기를 제거할 수 있다. 또한 음성 인식 시스템에서 상황 별로 언어 모델을 분리하여 처리함으로써 자동 번역 시스템에 비해 부족한 음성 인식 시스템의 처리 범위를 보완할 수 있었다.

  • PDF

Development of Automatic Robot for Writing Baseball Articles Based on BigData Analysis (빅데이터 분석 기반 자동 야구기사작성 로봇 개발)

  • Chae, Byeong-Ju;Park, Kyung-Chul;Kwon, Tae-Jeong;Kim, Sang-Hwan;Kim, Young-Ju;Lee, Dong-Gyu;Kim, Byung-Gyu
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1622-1624
    • /
    • 2015
  • 세계적으로 자동기사 작성 시스템을 적용한 사례가 증가하는 가운데 미국의 LA 타임스가 2013년에 지진 속보 기사를 완성하면서 주목 받기도 했으며 국내에서도 비슷한 사례들의 개발이 지속적으로 진행되고 있다. 본 논문에서는 로봇저널리즘 시대에 맞춰 빅데이터 기반의 자동기사작성 로봇 개발방법을 제안하고, 데이터를 수집해 기사를 추출해내는 빅데이터 기반의 자동기사작성 로봇을 객관적인 데이터를 수집할 수 있는 스포츠분야에 적용하여 개발하였다. 본 기술로 인해 객관적인 내용을 표현할 수 있는 기사를 실시간으로 작성 및 온라인으로 배포 할 수 있으며, 확장을 통해 온라인 시청자들에게 다양한 실시간 정보제공이 가능할 수 있을 것으로 예상된다.

Method of the Semi-Automation Camera Calibration for Noncontact Measure of Badly Illumination (불균등 조명에서 비접촉 계측을 위한 반자동 카메라 교정 방법)

  • Kim Jeong-Hyun;Lee Ju-Yong;Kim Dae-Gyung;Kim Min-Seong;Lee Se-Ho;Kang Dong-Joong
    • Annual Conference of KIPS
    • /
    • 2006.05a
    • /
    • pp.673-676
    • /
    • 2006
  • 본 논문은 산업현장의 불균등한 조명 조건에서 정확한 카메라 교정을 수행할 수 있는 방법을 제안한다. 비접촉 계측을 위한 카메라 교정법은 패턴에서 교정점들을 정확하게 추출할 수 있어야 하며, 평면 패턴을 사용하는 교정 방법은 최소 7개의 교정점을 알아야 한다. 그러나 비접촉 치수 계측기가 설치된 산업현장에서 카메라 교정에 알맞은 조명을 기대하기 힘들다. 본 논문에서는 최적조명제어가 어려운 산업현장에서 치수계측을 위한 카메라 교정을 효과적으로 수행할 수 있는 반자동 카메라 교정방법을 제안한다. 교정패턴상의 최소 4점을 사용자가 지정함에 의해, 조명제어의 어려움으로 인해 교정점 추출이 실패한 교정패턴의 불완전 교정점을 사용하여 이상적인 조명상태에서의 교정점 정보를 예측하고, 이 정보로부터 다시 정확한 교정인자들을 반복적으로 추출하는 방법을 적용한다. 제시된 방법은 렌즈의 투사왜곡에 의한 교정패턴에서도 성공적으로 적용될 수 있음을 실험을 통해 확인하였다.

  • PDF

Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool (중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선)

  • Kwon, Hong-Seok;Seo, Hyeung-Won;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

Setences Extraction System using Automatic Division of Paragraph (단락 자동 구분을 통한 중요 문장 추출)

  • Kim, Kye-Sung;Lee, Hyun-Ju;Jung, Young-Giu;Seo, Youn-Kyoung;Son, Ki-Jun;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.233-237
    • /
    • 2000
  • 본 논문은 단락의 자동 구분을 통한 중요 문장 추출 시스템을 제안한다. 먼저 어휘의 재출현 여부와 어휘의 일치도, 어휘의 역할 변화를 파악하여 재출현 어휘에 대한 양상을 분석하고 이를 통하여 문장 간의 긴밀도를 정량적으로 계산한다. 다음으로 측정된 문장 간 긴밀도룰 이용하여 사용자의 추출 범위에 따라 단락을 구분하고, 각 단락의 대표 문장을 선정하여 최종문을 생성한다. 제안한 방법은 문서 제목, 문장의 위치, 수사 구조 등의 정보를 이용하지 않으며, 단순히 어휘의 출현 빈도만을 이용하던 기존의 통계적인 방법보다 질 높은 요약문을 생성할 수 있다. 또한 제안한 방법론은 본 논문이 대상으로 삼고 있는 신문기사의 영역뿐만 아니라 다른 영역으로의 적용이 가능하다.

  • PDF

Skeleton Extraction of 3D Coronary Artery for Topological Shape Analysis (3차원 관상동맥의 위상적인 형상분석을 위한 골격 추출)

  • Lee, Jae-Jin;Kim, Jeong-Sik;Choi, Soo-Mi
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.700-702
    • /
    • 2005
  • 3차원 관상동맥처럼 위상 구조가 중요한 객체의 형상을 분석하기 위해서는 혈관의 분기점, 극단점, 혈관의 계층적 구조 관계 등의 정보를 함축적으로 표현할 수 있는 골격 추출이 매우 중요하다 본 논문에서는 3차원 CT 혈관조영술(3D CT Angiography)로 촬영된 영상으로부터 관상동맥의 3차원 골격을 추출하는 방법을 개발하였다. 먼저, CT 혈관조영술부터 획득한 슬라이스 이미지로부터 3차원 조작 및 수술 시뮬레이션 등을 위하여 혈관의 3차원 표면에 대한 메쉬 모델을 생성한다. 생성된 메쉬 모델이 임의로 변형된 후에도 자동으로 골격을 쉽게 추출할 수 있도록 메쉬 모델을 복셀화하는 단계를 거친다. 이렇게 얻어진 복셀모델로부터 유클리디언 거리 맵을 구성하여 discrete medial surface (DMS)을 생성하고 최종적으로 골격을 추출하게 된다. 이렇게 추출된 3차원 골격은 관상동맥 수술 시뮬레이션 등에서 다양한 형상 분석에 유용하게 사용될 수 있다.

  • PDF

Design of a Web-Scale Spatial Knowledge Extractor Using Hadoop MapReduce (하둡 맵리듀스를 이용한 웹 스케일 수준의 공간 지식 추출기 설계)

  • Lee, Seokjun;Kim, Incheol
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1326-1329
    • /
    • 2015
  • 최근 들어 공간 지식을 활용한 다양한 서비스들이 개발됨에 따라, 공간 객체들 간의 정성적 공간 관계를 표현한 정성 공간 지식의 수요가 크게 늘어나고 있다. 공간 객체 각각의 세부 정보를 담은 대용량의 공간 데이터들은 개방화가 점차 확대되고 있으나, 공간 객체들 간의 정성적 관계를 표현한 정성 공간 지식은 상대적으로 확보하기 어려운 실정이다. 본 논문에서는 하둡 맵리듀스 병렬 분산 컴퓨터 환경을 이용해, 대용량의 공간 데이터로부터 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 정성 공간 지식을 자동으로 추출하는 공간 지식 추출기를 제안한다. 본 논문에서 제안하는 대용량의 공간 지식 추출기는 맵리듀스 프레임워크를 기반으로 R-트리 색인과 범위 질의들을 효과적으로 이용함으로써, 웹 스케일 수준의 정성 공간 지식을 매우 효율적으로 추출해낸다. Open Street Map (OSM) 공개 데이터를 이용한 성능 분석 실험을 통해, 본 논문에서 제안하는 대용량 공간 지식 추출기의 높은 성능을 확인할 수 있었다.

Web Contents Mining System for Real-Time Monitoring of Opinion Information based on Web 2.0 (웹2.0에서 의견정보의 실시간 모니터링을 위한 웹 콘텐츠 마이닝 시스템)

  • Kim, Young-Choon;Joo, Hae-Jong;Choi, Hae-Gill;Cho, Moon-Taek;Kim, Young-Baek;Rhee, Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.1
    • /
    • pp.68-79
    • /
    • 2011
  • This paper focuses on the opinion information extraction and analysis system through Web mining that is based on statistics collected from Web contents. That is, users' opinion information which is scattered across several websites can be automatically analyzed and extracted. The system provides the opinion information search service that enables users to search for real-time positive and negative opinions and check their statistics. Also, users can do real-time search and monitoring about other opinion information by putting keywords in the system. Proposing technique proved that the actual performance is excellent by comparison experiment with other techniques. Performance evaluation of function extracting positive/negative opinion information, the performance evaluation applying dynamic window technique and tokenizer technique for multilingual information retrieval, and the performance evaluation of technique extracting exact multilingual phonetic translation are carried out. The experiment with typical movie review sentence and Wikipedia experiment data as object as that applying example is carried out and the result is analyzed.

An Automatic Scene Background Classification Scheme for Sitcom Videos Using MPEG-7 Visual (시트콤 동영상에서 MPEG-7 시각 기술자를 이용한 Scene 배경의 자동 분류 방법)

  • 전재욱;손대온;낭종호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.505-507
    • /
    • 2004
  • 시트콤 동염상은 고정된 배경을 갖는 중 아웃에 연이어 오는 줌 인으로 구성되어 있고, 또한 활영되는 배경의 수는 한정되어 있는 특성이 때문에, 이러한 배경의 시각적 특성을 사용하여 배경들을 학습시키고 자동으로 분리시킬 수 있다. 본 논문에서는 신경망의 일종인 LVQ[1]를 사용하여 이러한 증류의 비디오 동영상에 대한 자동 배경 분류 방법을 제안한다. 우선, MPEG-7 시각 기술자를 이용하여 신(scene) 배경의 시각적인 특성을 추출하고 이러한 시각적 특성을 미리 제작자에 의해서 주어진 배경 점보로서 LVQ를 학습시킨다. 학습이 진행되면서 특정 배경의 시각적 특성은 LVQ의 가중치로서 표현되며, 다른 배경을 자동으로 분류하는데 사용된다 제안된 LVQ기반의 분류 방법을 사용한 두 종류의 시트콤 동영상에 대한 실험 결과는 분류에 대한 어떠한 하드코딩 없이 80-90%의 정확도로 시트콤 동영상의 배경을 자동으로 분류한다.

  • PDF

Automatic Extraction of Training Data Based on Semi-supervised Learning for Time-series Land-cover Mapping (시계열 토지피복도 제작을 위한 준감독학습 기반의 훈련자료 자동 추출)

  • Kwak, Geun-Ho;Park, No-Wook
    • Korean Journal of Remote Sensing
    • /
    • v.38 no.5_1
    • /
    • pp.461-469
    • /
    • 2022
  • This paper presents a novel training data extraction approach using semi-supervised learning (SSL)-based classification without the analyst intervention for time-series land-cover mapping. The SSL-based approach first performs initial classification using initial training data obtained from past images including land-cover characteristics similar to the image to be classified. Reliable training data from the initial classification result are then extracted from SSL-based iterative classification using classification uncertainty information and class labels of neighboring pixels as constraints. The potential of the SSL-based training data extraction approach was evaluated from a classification experiment using unmanned aerial vehicle images in croplands. The use of new training data automatically extracted by the proposed SSL approach could significantly alleviate the misclassification in the initial classification result. In particular, isolated pixels were substantially reduced by considering spatial contextual information from adjacent pixels. Consequently, the classification accuracy of the proposed approach was similar to that of classification using manually extracted training data. These results indicate that the SSL-based iterative classification presented in this study could be effectively applied to automatically extract reliable training data for time-series land-cover mapping.