• Title/Summary/Keyword: 자동정보 추출

Search Result 1,996, Processing Time 0.028 seconds

Korean Automated Scoring System for Supply-Type Items using Semi-Supervised Learning (준지도학습 방법을 이용한 한국어 서답형 문항 자동채점 시스템)

  • Cheon, Min-Ah;Seo, Hyeong-Won;Kim, Jae-Hoon;Noh, Eun-Hee;Sung, Kyung-Hee;Lim, EunYoung
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.112-116
    • /
    • 2014
  • 서답형 문항은 학생들의 종합적인 사고능력을 판단하는데 매우 유용하지만 채점할 때, 시간과 비용이 매우 많이 소요되고 채점자의 공정성을 확보해야 하는 어려움이 있다. 이러한 문제를 개선하기 위해 본 논문에서는 서답형 문항에 대한 자동채점 시스템을 제안한다. 본 논문에서 제안하는 시스템은 크게 언어 처리 단계와 채점 단계로 나뉜다. 첫 번째로 언어 처리 단계에서는 형태소 분석과 같은 한국어 정보처리 시스템을 이용하여 학생들의 답안을 분석한다. 두 번째로 채점 단계를 진행하는데 이 단계는 아래와 같은 순서로 진행된다. 1) 첫 번째 단계에서 분석 결과가 완전히 일치하는 답안들을 하나의 유형으로 간주하여 각 유형에 속한 답안의 빈도수가 높은 순서대로 정렬하여 인간 채점자가 고빈도 학생 답안을 수동으로 채점한다. 2) 현재까지 채점된 결과와 모범답안을 학습말뭉치로 간주하여 자질 추출 및 자질 가중치 학습을 수행한다. 3) 2)의 학습 결과를 토대로 미채점 답안들을 군집화하여 분류한다. 4) 분류된 결과 중에서 신뢰성이 높은 채점 답안에 대해서 인간 채점자가 확인하고 학습말뭉치에 추가한다. 5) 이와 같은 방법으로 미채점 답안이 존재하지 않을 때까지 반복한다. 제안된 시스템을 평가하기 위해서 2013년 학업성취도 평가의 사회(중3) 및 국어(고2) 과목의 서답형 문항을 사용하였다. 각 과목에서 1000개의 학생 답안을 추출하여 채점시간과 정확률을 평가하였다. 채점시간을 전체적으로 약 80% 이상 줄일 수 있었고 채점 정확률은 사회 및 국어 과목에 대해 각각 98.7%와 97.2%로 나타났다. 앞으로 자동 채점 시스템의 성능을 개선하고 인간 채점자의 집중도를 높일 수 있도록 인터페이스를 개선한다면 국가수준의 대단위 평가에 충분히 활용할 수 있을 것으로 생각한다.

  • PDF

The Component Extraction Using Knowledge-Base from Name-Card (명함에서 지식베이스를 이용한 구성요소의 추출)

  • 이성범;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.8
    • /
    • pp.1201-1212
    • /
    • 1993
  • This paper presents the automatically extracting method of data item from name-cards using knowledge-base. In our approach, we utilize a structural information and a relational information between data items and elements with knowledge in the name-cards. To describe a hierarchical knowledge, we uses a flame structure and we propose an algorithim of domain classification to extract item and group candidate domains from the name-cards. From the experimental results, we obtain the extraction rate, 95%, for 100 samples.

  • PDF

스톰을 기반으로 한 실시간 SNS 데이터 분석 시스템

  • Lee, Hyeon-Gyeong;Go, Gi-Cheol;Son, Yeong-Seong;Kim, Jong-Bae
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.435-436
    • /
    • 2015
  • In order to analyze and maximize efficiency of advertise, business put more importance on SNS. Especially, keyword extraction analyses based on Hadoop receive attention. The existing keyword extraction analyses have mostly MapReduce processes. Due to that, it causes problems data base would not update in real time like SNS system. In this study, we indicate limitations of the existing model and suggest new model using Storm technique to analyze data in real time.

  • PDF

A Realtime Tracking of Eye Region Using Deformable Template and Neural Network (가변템플릿과 신경회로망을 이용한 실시간 눈 영역의 추적)

  • Kim, Do-Hyung;Lee, Seon-Hwa;Lee, Hack-Man;Cha, Eui-Young
    • Annual Conference of KIPS
    • /
    • 2000.10a
    • /
    • pp.247-250
    • /
    • 2000
  • 본 논문에서는 다양한 배경을 가지는 연속적인 얼굴 영상에서 실시간으로 눈의 위치를 자동적으로 추출하는 방법에 대하여 제시한다. 얼굴 요소 중에서 눈은 얼굴 인식 분야에 있어서 중요한 특징을 나타내는 주 요소로써 주로 히스토그램 분석과 색상 정보를 이용하여 눈 영역의 윤곽을 추출하는 방법이 제기되고 있다. 본 논문에서는 명암의 변화에도 비교적 적응력이 강한 이진화 기법을 사용하여 원영상을 이진화하고, 가변 템플릿(Deformable Template)방법을 사용하여 후보 영역을 추출한다. 이러한 후보영역들은 ART2 신경회로망을 이용하여 병합되며, 병합된 후보 영역들은 얼굴 요소의 기하학적 사전지식을 기반으로 검증되어, 시간에 따라 모양변화가 급변하는 눈 영역에 대한 실시간 추출을 가능하게 한다. 이상의 연구 결과는 교통사고 방지를 위한 눈의 졸림감지 등의 응용 시스템에 이용될 수 있다.

  • PDF

Document Summarization Using Latent Topics (잠재 토픽을 이용한 문서 요약문 추출)

  • Jeong, Young-Seob;Choi, Ho-Jin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.240-243
    • /
    • 2011
  • 웹 문서를 비롯한 여러 가지 문서의 양이 급증함에 따라, 문서로부터 주요정보를 얻거나 자동으로 요약하는 연구들이 진행되어왔다. 특히, 문서를 요약하는 연구들은 문서에 존재하는 문장을 추출하는 방법과 요약문을 새롭게 생성하는 방법, 이렇게 크게 두 가지 방법으로 진행되었다. 이 연구에서는, 잠재 토픽 모델을 통하여 얻어낸 각 문장의 토픽 순열을 이용하여 문서를 대표하는 문장, 즉 요약문으로서 적합한 문장들을 추출하는 새로운 기법을 소개한다. 특히, 잠재 토픽 모델이 일반적으로 가지고 있는 속성인 토픽 순열의 교환성(exchangeability)을 배제하고 토픽의 순열을 이용하여 요약문을 추출해내므로 이 기법을 통하여 문서 혹은 문장의 구조를 반영한 요약문을 만들 수 있다.

Design of Automatic Knowledge Registration and Recommendation Agent on P2P KMS (Hybrid P2P 기반 지식관리시스템에서의 지식 자동등록 및 추천 에이전트 설계)

  • Kim, Dong-Woon;Kim, Han-Woo;Park, Jung-Kee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.664-666
    • /
    • 2005
  • 이 논문에서는 기존의 지식관리시스템과 P2P방식을 접목한 P2P 지식관리시스템을 제안하고 제안된 시스템의 구조와 효율적으로 지식을 검색하기 위한 지능형 에이전트 대하여 기술하였다. 에이전트의 종류는 지식추출과 추천 에이전트가 있으며, 지식추출 에이전트는 대량의 데이터에서 지식을 추출하고, 개인 맞춤형 지식 추천 에이전트는 추출된 지식에서 사용자가 관심 있는 분야의 지식을 추천해 주는 것이다. 제안된 시스템의 구조와 에이전트 기법은 회사나 단체에 속한 사용자들이 방대한 데이터, 정보 또는 사용자들의 전문성과 경험으로 축적된 지식을 빠르고 쉽게 검색하게 해주어 양질의 지식을 사용자들이 추천 받아 사용하도록 함으로써 전체 구성원의 지식도를 높이며, 이러한 지식들을 재활용하여 더욱 많은 지식과 부가 가치를 창출하도록 지원하여 준다.

  • PDF

Automatic Extraction of Technical Terminologies from Scientific Text based on Hidden Markov Model (은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델)

  • Oh, Jong-Hoon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.137-141
    • /
    • 1999
  • 기술의 발달로 인해 수많은 용어들이 생성되고 있다. 이들은 대부분 전문용어이며 이는 비영어권 국가인 우리나라에 도입될 때, 외래어나 원어형태로 도입된다. 그런데 외래어나 원어형태의 전문용어는 형태소 분석기, 색인기 등의 시스템에서 오류의 원인이 되어, 이를 전처리기로 사용하는 자연언어처리 시스템의 성능을 저하 시킨다. 따라서 본 논문에서는 외래어나 원어로 된 전문용어를 처리하기 위한 전단계로서 문서에서 자동적으로 외래어를 인식하고 추출하는 방법을 제시한다. 본 논문에서 제시하는 방법은 외래어 추출 문제를 태깅문제로 변환하여, 태깅 문제를 해결하는 기법 중의 하나인 은닉마르코프 모델 (Hidden Markov Model)을 이용하여 외래어 추출을 하였다. 그 결과 94.90%의 재현률과 95.41%의 정확도를 나타내었다.

  • PDF

Improvement of DEM Accuracy Using by the Topography Classification in Urban Area (도심지역의 지형분류를 통한 DEM의 정확도 향상)

  • Lee, Hyun-Jik;Lee, Sung-Ho;Kim, Jung-Il;Kim, Hyun-Tae
    • 한국지형공간정보학회:학술대회논문집
    • /
    • 2002.11a
    • /
    • pp.81-92
    • /
    • 2002
  • 일반적으로 수치사진측량시스템을 통해 도심지역에서 자동으로 DEM을 추출하는 경우 해석도화원도에서 추출하는 DEM에 비하여 정확도가 크게 저하되어 도심지역에 대한 정사투영영상 생성이나 정사투영영상을 이용한 수치지도 제작시 품질저하의 요인이 되고 있다. 따라서 본 연구는 수치사진측량기법을 이용한 도심지역 지형공간정보 생성시 정확도에 영향을 크게 미치는 도심지역 DEM의 정확도를 향상시키는데 목적이 있다. 본 논문의 수행결과, 수치사진측량기법을 이용하여 도심지역에 대한 DEM 추출시 대상지역에 대한 지형분류를 통한 DEM추출방법을 적용하여 도심지역에 대한 DEM의 정확도를 향상시킬 수 있었다.

  • PDF

Improving Relation Extraction Performance using Relevance Verification (적합성 검증을 통한 관계 추출 성능 향상)

  • Won, Yousung;Kim, Jiseong;Nam, Sangha;Hahm, YoungGyun;Choi, Key-sun
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.90-95
    • /
    • 2015
  • 기계적 학습을 위해서는 일반적으로 많은 양의 수동 주석데이터(Manually Labeled Data)가 요구된다. 원격지도(Distant Supervision)는 현실적으로 부족한 주석데이터(Labeled Data)를 대신해 자동적으로 주석데이터를 수집하여 학습하는 접근 방식으로 관계 추출(Relation Extracion) 문제에 널리 활용되고 있다. 이때 필연적으로 많은 노이즈(Noise)가 발생되는데, 적합성 검증(Relevance Verification)을 통해 수집된 학습데이터를 정제함으로써 노이즈로 인한 변동성을 줄이고 결과적으로 향상된 성능을 보여주는 관계 추출 방법을 제시한다.

  • PDF

Information Extraction Based on Property Patterns to Construct a Knowledgebase for Encyclopedia Person Domain (인물 백과사전 지식베이스 구축을 위한 속성패턴기반 정보추출)

  • 왕지현;김현진;장명길
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.793-795
    • /
    • 2004
  • 본 논문은 인물 도메인의 백과사전 지식베이스를 구축하기 위하여 백과사전 본문의 자연어 문장으로부터 인물 표제어의 특징을 잘 나타내는 속성 값을 인식하여 추출하는 방법에 관하여 기술한다. 속성은 인물 공통 및 세부 분야별로 총 52개의 속성을 정의하였고 이를 태그셋으로 정의하여 1천 문서의 백과사전 인물 속성태깅코퍼스를 구축하였다. 속성태깅코퍼스로부터 반자동으로 약 1천 8백여 개의 속성패턴을 추출하였고 백과사전 인물 표제어 24,848개에 대해 속성패턴을 적용하여 지식베이스를 구축하였다. 추출성능은 f-score 0.68의 결과를 나타내었다.

  • PDF