• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.025 seconds

Chunking Annotation Corpus Construction for Keyword Extraction in News Domain (뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축)

  • Kim, Tae-Young;Kim, Jeong Ah;Kim, Bo Hui;Oh, Hyo Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.595-597
    • /
    • 2020
  • 빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.

  • PDF

Transformation-based Learning for Korean Comparative Sentence Classification (한국어 비교 문장 유형 분류를 위한 변환 기반 학습 기법)

  • Yang, Seon;Ko, Young-Joong
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.2
    • /
    • pp.155-160
    • /
    • 2010
  • This paper proposes a method for Korean comparative sentence classification which is a part of comparison mining. Comparison mining, one area of text mining, analyzes comparative relations from the enormous amount of text documents. Three-step process is needed for comparison mining - 1) identifying comparative sentences in the text documents, 2) classifying those sentences into several classes, 3) analyzing comparative relations per each comparative class. This paper aims at the second task. In this paper, we use transformation-based learning (TBL) technique which is a well-known learning method in the natural language processing. In our experiment, we classify comparative sentences into seven classes using TBL and achieve an accuracy of 80.01%.

A Technique for Image Processing of Concrete Surface Cracks (콘크리트 표면 균열의 영상 처리 기법)

  • Kim Kwang-Baek;Cho Jae-Hyun;Ahn Sang-Ho
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.9 no.7
    • /
    • pp.1575-1581
    • /
    • 2005
  • Recently, further study is being done on the affect of crack on concrete structure and many people have made every endeavor not to leave it unsettled but to minimize it by repair works. In this paper we propose the image processing method that do not remain manual but automatically process the length, the direction and e width of cracks on concrete surface. First, we calibrate light's affect from image by using closing operation, one of morphology methods that can extract the feature of oracle and we extract the edge of crack image by sobel mask. After it, crack image is binarized by iteration binarization. And we extract the edge of cracks using noise elimination method that use an average of adjacent pixels by 3${\times}$3 mask and Glassfire Labeling algorithm. on, in this paper we propose an image processing method which can automatically measure the length, the direction and the width of cracks using the extracted edges of cracks. The results of experiment showed that the proposed method works better on the extraction of concrete cracks. Also our method showed the possibility that inspector's decision is unnecessary.

Automatic Defect Detection using Fuzzy Binarization and Brightness Contrast Stretching from Ceramic Images for Non-Destructive Testing (비파괴 검사를 위한 개선된 퍼지 이진화와 명암 대비 스트레칭을 이용한 세라믹 영상에서의 결함 영역 자동 검출)

  • Kim, Kwang Baek;Song, Doo Heon
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.11
    • /
    • pp.2121-2127
    • /
    • 2017
  • In this paper, we propose a computer vision based automatic defect detection method from ceramic image for non-destructive testing. From region of interest of the image, we apply brightness enhancing stretching algorithm first. One of the strength of our method is that it is designed to detect defects of images obtained from various thicknesses, that is, 8, 10, 11, 16, and 22 mm. In other cases we apply histogram based binarization algorithm. However, for 8 mm case, it may have false positive cases due to weak brightness contrast between defect and noise. Thus, we apply modified fuzzy binarization algorithm for 8 mm case. From the experiment, we verify that the proposed method shows stronger result than our previous study that used Blob labelling for all five thickness cases as expected.

Automatic Building Extraction Using SpaceNet Building Dataset and Context-based ResU-Net (SpaceNet 건물 데이터셋과 Context-based ResU-Net을 이용한 건물 자동 추출)

  • Yoo, Suhong;Kim, Cheol Hwan;Kwon, Youngmok;Choi, Wonjun;Sohn, Hong-Gyoo
    • Korean Journal of Remote Sensing
    • /
    • v.38 no.5_2
    • /
    • pp.685-694
    • /
    • 2022
  • Building information is essential for various urban spatial analyses. For this reason, continuous building monitoring is required, but it is a subject with many practical difficulties. To this end, research is being conducted to extract buildings from satellite images that can be continuously observed over a wide area. Recently, deep learning-based semantic segmentation techniques have been used. In this study, a part of the structure of the context-based ResU-Net was modified, and training was conducted to automatically extract a building from a 30 cm Worldview-3 RGB image using SpaceNet's building v2 free open data. As a result of the classification accuracy evaluation, the f1-score, which was higher than the classification accuracy of the 2nd SpaceNet competition winners. Therefore, if Worldview-3 satellite imagery can be continuously provided, it will be possible to use the building extraction results of this study to generate an automatic model of building around the world.

Automated Extraction of Orthorectified Building Layer from High-Resolution Satellite Images (고해상도 위성영상으로부터 건물 정위 레이어 자동추출)

  • Seunghee Kim;Taejung Kim
    • Korean Journal of Remote Sensing
    • /
    • v.39 no.3
    • /
    • pp.339-353
    • /
    • 2023
  • As the availability of high-resolution satellite imagery increases, improvement of positioning accuracy of satellite images is required. The importance of orthorectified images is also increasing, which removes relief displacement and establishes true localization of man-made structures. In this paper, we performed automated extraction of building rooftops and total building areas within original satellite images using the existing building height database. We relocated the rooftop sin their true position and generated an orthorectified building layer. The extracted total building areas were used to blank out building areas and generate true orthographic non-building layer. A final orthorectified image was provided by overlapping the building layer and non-building layer.We tested the proposed method with KOMPSAT-3 and KOMPSAT-3A satellite images and verified the results by overlapping with a digital topographical map. Test results showed that orthorectified building layers were generated with a position error of 0.4m.Through the proposed method, the feasibility of automated true orthoimage generation within dense urban areas was confirmed.

Distributed Document Classification System using Susceptibility Terms and Patterns (감성용어 및 패턴을 이용한 감성기반 분산 문서분류시스템)

  • Kim, Myung-Kyu;In, Joo-Ho;Chae, Soo-Hoan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06d
    • /
    • pp.356-360
    • /
    • 2007
  • 인터넷이 폭 넓게 보급되어 개인의 의견을 개진할 기회가 확대됨에 따라 정치, 경제 등의 사안이나 제품 기업의 이미지, 공인에 대한 긍정.부정의 글을 개진할 수 있게 되었다. 이러한 현상에 따라 기업, 제품, 혹은 공공의 분야에서 일반 개인들이 어떻게 생각하는가에 대한 분석 및 자료수집의 필요성이 높아지고 있다. 감성용어 문서분류시스템은 문서의 내용 중 감성기반의 용어들에 기반하여 이에 대한 패턴을 정의하고 이에 대응하는 범주에 문서를 자동으로 할당하는 작업으로써 효율적인 정보 관리 및 검색을 가능하게 한다. 하지만 자동문서 분류를 하기 위해서는 방대한 양의 데이터를 수집 보관하기 위한 분산 환경이 반드시 필요하다. 본 논문에서는 감성기반 문서분류 시스템을 위한 감성용어 추출 및 긍정, 부정의 패턴을 검색해 자동 문서분류를 위해 RTI(Run Time Infrastructure)를 통한 분산 시스템 환경으로 구성하였다.

  • PDF

Automatic Word-Segmentation for Hangul Sentences (한글 문장의 자동 띄어쓰기)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.137-142
    • /
    • 1998
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 찾아 주는 띄어쓰기 알고리즘으로 어절 블록에 대한 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 어절 블록에 나타난 각 어절들을 인식하는 방법으로는 형태소 분석기를 이용한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

Automatic Measuring of GCP's Image Coordinates from SPOT Satellite Imagery (SPOT 위성영상에서의 지상기준점의 영상좌표 자동관측)

  • 강명호;방수남;이용웅
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2003.04a
    • /
    • pp.354-362
    • /
    • 2003
  • 위성영상으로부터 위치자료가 포함된 지리 및 지형정보를 얻기 위해서는 영상획득순간의 센서 위치 및 자세와 지상좌표간의 관계를 해석하여야 한다. 위성영상에 대한 수학적 모형화를 위해서 먼저 입체영상에서 지상기준점(Ground Control Point: GCP)을 선정하고, 선정된 지상기준점에 대한 지상좌표 및 대상영상에 대한 영상좌표 관측작업을 수행한다. 본 연구에서는 지상기준점 데이터베이스에 포함된 정보들을 이용하여 관측대상 입체영상 3차원 모형화에 필요한 지상기준점의 영상좌표를 자동으로 추출할 수 있는 기법을 개발하였다. 관측정밀도는 수작업으로 관측한 값과 자동계산된 영상좌표의 결과를 비교 분석하여 평가하였으며, SPOT위성영상의 3차원 모형화에 적용하여 정확도를 평가하므로써 유사한 해상도의영상을 활용하는 3차원 모형화 과정에서 지상기준점의 영상좌표 관측을 자동화 할 수 있음을 입증하였다.

  • PDF

Automatic Text Categorization Using Text Summarization Techniques (문서 요약 기법을 이용한 자동 문서 범주화)

  • Park, Jin-Woo;Ko, Young-Joong;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.138-145
    • /
    • 2001
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이터를 구축하고 실험하였으며 좋은 성능을 얻을 수 있었다.

  • PDF