• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.024 seconds

An Automatic Classification System of Official Documents in Middle Schools Using Term Weighting of Titles (제목의 단어 가중치를 이용한 중등학교 공문서 자동분류시스템)

  • Kang, Hyun-Hee;Jin, Min
    • Journal of The Korean Association of Information Education
    • /
    • v.7 no.2
    • /
    • pp.219-226
    • /
    • 2003
  • It takes a lot of time to classify official documents in schools and educational institutions. In order to reduce the overhead, we propose an automatic document classification method using word information of the titles of documents in this paper. At first, meaningful words are extracted from titles of existing documents and Inverse Document Frequency(IDF) weights of words are calculated against each category. Then we build a word weight dictionary. Documents are automatically classified into the appropriate category of which the sum of weights of words of the title is the highest by using the word weight dictionary. We also evaluate the performance of the proposed method using a real dataset of a middle school.

  • PDF

A Study on the Characteristics of a series of Autoencoder for Recognizing Numbers used in CAPTCHA (CAPTCHA에 사용되는 숫자데이터를 자동으로 판독하기 위한 Autoencoder 모델들의 특성 연구)

  • Jeon, Jae-seung;Moon, Jong-sub
    • Journal of Internet Computing and Services
    • /
    • v.18 no.6
    • /
    • pp.25-34
    • /
    • 2017
  • Autoencoder is a type of deep learning method where input layer and output layer are the same, and effectively extracts and restores characteristics of input vector using constraints of hidden layer. In this paper, we propose methods of Autoencoders to remove a natural background image which is a noise to the CAPTCHA and recover only a numerical images by applying various autoencoder models to a region where one number of CAPTCHA images and a natural background are mixed. The suitability of the reconstructed image is verified by using the softmax function with the output of the autoencoder as an input. And also, we compared the proposed methods with the other method and showed that our methods are superior than others.

Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect (한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로)

  • Lee, Jae-Sung;Kim, Mi-Suk;Lee, Young-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

Automatic Recognition of Corpus Callosum of Midsagittal Brain MR Images (중앙시상 두뇌자기공명영상의 뇌량자동인식)

  • Lee, Cheol-Hui;Heo, Sin
    • Journal of Biomedical Engineering Research
    • /
    • v.20 no.1
    • /
    • pp.59-68
    • /
    • 1999
  • In this paper, we propose an algorithm to locate the corpus callosum automatically from midsagittal brain MR images using the statistical characteristics and shape information of the corpus callosum. In the proposed algorithm, we first extract regions satisfying the statistical characteristics of the corpus callosum and then find a region matching the shape information. In order to match the shape information, a new directed window region-growing algorithm is proposed instead of using conventional contour matching algorithms. Using the proposed algorithm, we adaptively relax the statistical requirement until we find a region matching the shape information. Experiments show promising results.

  • PDF

Video Editing using Hand Gesture Tracking and Recognition (손동작 추적 및 인식을 이용한 비디오 편집)

  • Bae, Cheol-Soo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.11 no.1
    • /
    • pp.102-107
    • /
    • 2007
  • In this paper presents a gesture based driven approach for video editing. Given a lecture video, we adopt novel approaches to automatically detect and synchronize its content with electronic slides. The gestures in each synchronized topic (or shot) are then tracked and recognized continuously. By registering shots and slides md recovering their transformation, the regions where the gestures take place can be known. Based on the recognized gestures and their registered positions, the information in slides can be seamlessly extracted not only to assist video editing, but also to enhance the quality of original lecture video. In experiment with two videos, the proposed system showd each gesture recognition rate 95.5%,96.4%.

Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting (긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석)

  • Oh, Kyo-Joong;Kim, Jinwon;Kim, Ilhoon;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF

Development of Mean Stand Height Module Using Image-Based Point Cloud and FUSION S/W (영상 기반 3차원 점군과 FUSION S/W 기반의 임분고 분석 모듈 개발)

  • KIM, Kyoung-Min
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.19 no.4
    • /
    • pp.169-185
    • /
    • 2016
  • Recently mean stand height has been added as new attribute to forest type maps, but it is often too costly and time consuming to manually measure 9,100,000 points from countrywide stereo aerial photos. In addition, tree heights are frequently measured around tombs and forest edges, which are poor representations of the interior tree stand. This work proposes an estimation of mean stand height using an image-based point cloud, which was extracted from stereo aerial photo with FUSION S/W. Then, a digital terrain model was created by filtering the DSM point cloud and subtracting the DTM from DSM, resulting in nDSM, which represents object heights (buildings, trees, etc.). The RMSE was calculated to compare differences in tree heights between those observed and extracted from the nDSM. The resulting RMSE of average total plot height was 0.96 m. Individual tree heights of the whole study site area were extracted using the USDA Forest Service's FUSION S/W. Finally, mean stand height was produced by averaging individual tree heights in a stand polygon of the forest type map. In order to automate the mean stand height extraction using photogrammetric methods, a module was developed as an ArcGIS add-in toolbox.

Application Possibility of Control Points Extracted from Ortho Images and DTED Level 2 for High Resolution Satellite Sensor Modeling (정사영상과 DTED Level 2 자료에서 자동 추출한 지상기준점의 IKONOS 위성영상 모델링 적용 가능성 연구)

  • Lee, Tae-Yoon;Kim, Tae-Jung;Park, Wan-Yong
    • Journal of Korean Society for Geospatial Information Science
    • /
    • v.15 no.4
    • /
    • pp.103-109
    • /
    • 2007
  • Ortho images and Digital Elevation Model (DEM) have been applied in various fields. It is necessary to acquire Ground Control Points (GCPs) for processing high resolution satellite images. However surveying GCPs require many time and expense. This study was performed to investigate whether GCPs automatically extracted from ortho images and DTED Level 2 can be applied to sensor modeling for high resolution satellite images. We analyzed the performance of the sensor model established by GCPs extracted automatically. We acquired GCPs by matching satellite image against ortho images. We included the height acquired from DTED Level 2 data in these GCPs. The spatial resolution of the DTED Level 2 data is about 30m. Absolution accuracy of this data is below 18m above MSL. The spatial resolution of ortho image is 1m. We established sensor model from IKONOS images using GCPs extracted automatically and generated DEMs from the images. The accuracy of sensor modeling is about $4{\sim}5$ pixel. We also established sensor models using GCPs acquired based on GPS surveying and generated DEMs. Two DEMs were similar. The RMSE of height from the DEM by automatic GCPs and DTED Level 2 is about 9 m. So we think that GCPs by DTED Level 2 and ortho image can use for IKONOS sensor modeling.

  • PDF

Noise Removal and Pattern Matching for Efficient Meta-Search of Web Documents (Web 문서의 효율적인 실시간 검색을 위한 잡음 제거와 패턴 정합 기법)

  • 강대기;이제선;함호상
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.132-134
    • /
    • 1998
  • 웹 상의 메타 검색 엔진, Push 프로그램 그리고 에이전트와 같은 웹 기반 응용 프로그램들은 웹 문서의 취득과 자동 필터링에 대한 능력을 필요로 한다. 이를 위한 인터페이스의 지식들은 대부분 코드 내에서 ad-hoc으로 구현되어 왔다. 본 논문에서는 취득된 웹 문서를 전처리하고 원하는 정보를 추출하기 위한 방법을 제시하고, 웹 상위 신문 기사에 대한 검색으로 실험해 보았다. 검색 시스템은 웹 문서의 전처리 과정을 통해 필요한 정보에만 집중할 수 있고, 아주 적은 양의 일반화된 지식을 토대로 원하는 정보를 용이하게 찾을 수 있었으며, 또한 웹 문서의 형식이 바뀌더라도 크게 영향을 받지 않으며, 새로운 웹사이트의 추가도 용이하였다. 본 논문의 방법으로 구현된 신문 기사 검색 시스템은, URL과 아주 적은 양의 지식만으로도, 10 개의 신문 웹사이트에서 문서를 가져와 효과적으로 해석할 수 있었다. 본 논문의 방법은 메타 검색 엔진이나, 잡지나 신문 기사 정보의 푸쉬(Push) 솔루션, 또는 상품 정보 검색 시스템 등의 설계에 활용될 수 있다.

  • PDF

KMM: A Detailed Morphological Analysis for Korean (구조화된 상세 정보를 제공하는 한국어 형태소 분석기: KMM)

  • Kim, Soora
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.202-206
    • /
    • 2010
  • 이 논문에서는 한국어 형태소 분석기 KMM(Korean Malaga Morphology)을 소개하고자 한다. KMM의 개발 동기는 이후 자연언어 처리 단계의 기반으로 사용될 수 있을 뿐 아니라 이론 형태론 연구의 도구로도 사용될 수 있도록 상세한 형태 동사 의미 정보를 제공하는 것이었다. 이론적 틀은 좌연접 문법(Left-Associative Grammar)에 기초한 LA-MORPH이며, 좌연접 기반 문법 개발 도구인 MALAGA로 구현되었다. LA-MORPH에 기반한 KMM은 분석 실행중이 아닐 때에는 사전의 규모를 최소한으로 유지하다가 분석에 필요할 때에만 분석용 사전을 자동으로 생성한다. 형태소 분석은 분석용 사전에 근거하여, 매칭과 결합이라는 단순한 알고리즘만을 사용한다. KMM의 분석은 동사 어절의 경우, 시제, 서법, 문형, 대우법, 명사 어절의 경우 격정보, 수사 결합어절의 경우 추출된 수랑 정보 등과 같은 상세한 정보를 제시한다. 세종 말뭉치와 KIBS 말뭉치를 KMM 을 이용해서 분석한 결과 각각의 94.96%와 94.59%의 분석률과 88.4%와 90.7%의 정확도를 보였다.

  • PDF