• Title/Summary/Keyword: 반자동 구축

Search Result 108, Processing Time 0.022 seconds

Semi-Automatic Learning Model for Health Data Ontology (건강데이터 온톨로지를 위한 반자동 학습 모델)

  • Kim, Kwnag-Seong;Hwang, Doo-Sung
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2009.05a
    • /
    • pp.388-392
    • /
    • 2009
  • 웹 관련 기술의 발전과 더불어 정보시스템의 개발에서 기계가 자동 처리할 수 있는 데이터의 기술 방법으로 온톨로지의 사용이 보편화되고 있다. 온톨로지는 특정 영역의 개념과 그들간의 관계를 단순 명료하게 기술한다. 지식 발견을 위한 도메인 온톨로지 구축은 도메인의 이해, 데이터의 이해, 테스크의 이해, 온톨로지 학습, 온톨로지 평가, 정제 등 다단계를 통해 완성되나 전문성이 요구된다. 본 논문에서는 학습 기반 도메인 온톨로지 구축방법을 제안하고 건강데이터를 위한 온톨로지 구축에서 응용하였다. 제안된 학습 기반 온톨로지 구축 방법은 건강데이터의 세부 영역별 개념과 관계를 밝히는데 유용하였다.

  • PDF

Semi-automatic Construction of Training Data using Active Learning (능동 학습을 이용한 학습 데이터 반자동 구축)

  • Lee, Chang-Ki;Hur, Jeong;Wang, Ji-Hyun;Lee, Chung-Hee;Oh, Hyo-Jung;Jang, Myung-Gil;Lee, Young-Jik
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.1252-1255
    • /
    • 2006
  • 본 논문은 정보검색, 정보추출, 번역, 자연어처리 등의 작업을 위한 통계적 방법론에서 필요한 학습 데이터 구축을 효율적으로 하기 위한 학습 데이터 반자동 구축 장치 및 그 방법에 대하여 기술한다. 본 논문에서는 학습 데이터 구축양을 줄이기 위해서 능동 학습을 이용한다. 또한 최근 각광 받고 있는 Conditional Random Fields(CRF)를 능동학습에 이용하기 위해서 CRF를 이용한 Confidence measure를 정의한다.

  • PDF

A Case Study on The Establishment of Efficient Management of Academic Information and Services. (학술정보의 효율적 전주기 관리 및 서비스 체제 구축에 관한 사례 연구)

  • Cho, Sung-Nam;Seo, Tae-Sul;Kim, Wan-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.412-415
    • /
    • 2016
  • 본 연구에서는 학술정보의 효율적 관리 및 서비스 체제를 수립하고 활용성을 강화하기 위해 논문 자동 수집 및 구축, 논문 투고 및 심사, 전자출판, XML 자동 구축에 이르기까지 전주기 기능 구현에 방안을 제시하고 이를 구현한 사례를 소개하고자 한다. 기존 Peer-Review 시스템은 데이터 수집 및 변환파트와 투고 및 심사, 전자출판 파트, XML 구축 파트 등으로 분리되거나 별도로 운영되어 왔다. 본 연구에서는 이러한 기능을 통합적으로 구현하기 위해 KISTI의 Peer-Review 시스템인 ACOMS와 XML 기반 학술정보서비스 시스템(KpubS) 기능 및 프로세스를 통합한 구현 방안을 제시하고 이를 시스템으로 구현하였다. 그러나 아직까지 원문 PDF를 XML로 완전 자동 변환할 수 있는 기술은 없는 상태로써 반자동 변환 기능을 탑재하였다. 본 연구 내용은 다양한 수집 채널을 통해 입수된 학술정보 및 XML 자료에 대한 입력체계를 제공하고, XML 본문으로부터 메타데이터를 자동 식별 및 추출하여 학술정보 DB를 구축 저장하며, 구축된 DB 및 XML 기반의 전자출판 기능 제공과 함께 웹서비스 단계까지의 전주기 공정에 대한 프로세스 모델 및 시스템에 관한 것이다. 이에 데이터베이스 구축을 위한 시간 및 비용을 절감할 수 있을뿐만 아니라, 시맨틱 태깅 및 수식, 표, 그림 정보 제공 등 이용자에게 다양한 형태의 서비스를 제공할 수 있게 되었다.

Open Korean WordNet (KWN): Dictionary-based Semi-Automatic Development (한국어 오픈 워드넷 (KWN) : 사전 기반의 반자동 구축)

  • Lee, In Keun;Hwang, Dosam;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.193-196
    • /
    • 2014
  • 본 논문에서는 사전자원에 기반한 한국어 워드넷(Open Korean WordNet: KWN)의 반자동 구축 방법을 제안한다. 제안한 방법에서는 각 전문분야별로 분류된 영어-한국어 대역사전, 일본어-한국어 대역사전을 이용하여 영어 워드넷(Princeton WordNet 3.0)과 일본어 워드넷(Japanese WordNet 1.1)의 어휘를 번역하였다. 그리고 번역 결과의 애매성을 해소하기 위하여, (1)영어와 일본어에 대한 한국어 대역어의 중복 여부, (2)사전의 분야 정보와 워드넷의 계층구조를 고려하였다. 제안한 방법으로 117,659 개의 워드넷 synset 중 63,221 개(약 54 %)의 synset에 대한 자동번역을 수행하여 한국어 워드넷을 구축하였다. 그리고 워드넷 synset의 정의문은 한국어 사전의 정의문을 참조하여 한글화 할 수 있도록 하고, 이 과정을 지원하기 위한 정의문 추천 알고리즘을 제안한다. 제안한 방법에 기반하여 전문가들이 상호 협력하여 한국어 워드넷을 구축할 수 있는 시스템을 개발한다.

  • PDF

Development of semi-automatic annotation tool for building land cover image data set (토지 관련 이미지 분석 데이터 셋 구축을 위한 반자동 annotation 도구 개발)

  • Jang, Dalwon;Lee, Jaewon;Lee, JongSeol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.11a
    • /
    • pp.69-70
    • /
    • 2019
  • 본 논문에서는 토지 정보를 분류하는 연구를 수행하기 위한 이미지 데이터 셋을 개발하는데 필요한 반자동 annotation 도구를 제안한다. 논문에서 제안하는 도구는 합성개구레이더 영상을 입력으로 하고, 물/경작지/숲/건물을 구분하는 시스템을 개발하기 위해서 만들어진 것이나, 다른 목적을 가지는 토지 관련 이미지 분석 시스템의 개발에 사용될 수 있다. 제안하는 도구는 합성개구레이더 영상이 GPS 정보와 같이 입력되었을 때, GPS 정보에 기반하여 토지지목정보를 불러오고, 이를 재정리하여 1차 레이블링 결과를 자동적으로 생성한다. 국가에서 관리하는 토지지목정보는 개발하고자 하는 시스템의 분류 기준에 많은 부분 도움이 되긴 하지만, 일부분 차이점이 있기 때문에 이를 다시 수동으로 수정하는 도구을 동작하여 annotation이 완료된 이미지 데이터를 구축한다.

  • PDF

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

Building Sentiment-Annotated Datasets for Training a FbSA model based on the SSP methodology (반자동 언어데이터 증강 방식에 기반한 FbSA 모델 학습을 위한 감성주석 데이터셋 FeSAD 구축)

  • Yoon, Jeong-Woo;Hwang, Chang-Hoe;Choi, Su-Won;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.66-71
    • /
    • 2021
  • 본 연구는 한국어 자질 기반 감성분석(Feature-based Sentiment Analysis: FbSA)을 위한 대규모의 학습데이터 구축에 있어 반자동 언어데이터 증강 기법(SSP: Semi-automatic Symbolic Propagation)에 입각한 자질-감성 주석 데이터셋 FeSAD(Feature-Sentiment-Annotated Dataset)의 개발 과정과 성능 평가를 소개하는 것을 목표로 한다. FeSAD는 언어자원을 활용한 SSP 1단계 주석 이후, 작업자의 주석이 2단계에서 이루어지는 2-STEP 주석 과정을 통해 구축된다. SSP 주석을 위한 언어자원에는 부분 문법 그래프(Local Grammar Graph: LGG) 스키마와 한국어 기계가독형 전자사전 DECO(Dictionnaire Electronique du COréen)가 활용되며, 본 연구에서는 7개의 도메인(코스메틱, IT제품, 패션/의류, 푸드/배달음식, 가구/인테리어, 핀테크앱, KPOP)에 대해, 오피니언 트리플이 주석된 FeSAD 데이터셋을 구축하는 프로세싱을 소개하였다. 코스메틱(COS)과 푸드/배달음식(FOO) 두 도메인에 대해, 언어자원을 활용한 1단계 SSP 주석 성능을 평가한 결과, 각각 F1-score 0.93과 0.90의 성능을 보였으며, 이를 통해 FbSA용 학습데이터 주석을 위한 작업자의 작업이 기존 작업의 10% 이하의 비중으로 감소함으로써, 학습데이터 구축을 위한 프로세싱의 소요시간과 품질이 획기적으로 개선될 수 있음을 확인하였다.

  • PDF

A study of Corpus Annotation for Aspect Based Sentiment Analysis of Korean financial texts (한국어 경제 도메인 텍스트 속성 기반 감성 분석을 위한 말뭉치 주석 요소 연구)

  • Seoyoon Park;Yeonji Jang;Yejee Kang;Hyerin Kang;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.232-237
    • /
    • 2022
  • 본 논문에서는 미세 조정(fine-tuning) 및 비지도 학습 기법을 사용하여 경제 분야 텍스트인 금융 리포트에 대해 속성 기반 감성 분석(aspect-based sentiment analysis) 데이터셋을 반자동적으로 구축할 수 있는 방법론에 대한 연구를 수행하였다. 구축 시에는 속성기반 감성분석 주석 요소 중 극성, 속성 카테고리 정보를 부착하였으며, 미세조정과 비지도 학습 기법인 BERTopic을 통해 주석 요소를 자동적으로 부착하는 한편 이를 수동으로 검수하여 데이터셋의 완성도를 높이고자 하였다. 데이터셋에 대한 실험 결과, 극성 반자동 주석의 경우 기존에 구축된 데이터셋과 비슷한 수준의 성능을 보였다. 한편 정성적 분석을 통해 자동 구축을 동일하게 수행하였더라도 기술의 원리와 발달 정도에 따라 결과가 상이하게 달라짐을 관찰함으로써 경제 도메인의 ABSA 데이터셋 구축에 여전히 발전 여지가 있음을 확인할 수 있었다.

  • PDF

Study on Method Constructing Dialog Act Tagged Corpus for Dialog System in Car (차량용 대화 시스템을 위한 Dialog Act 태깅 코퍼스 구축 방법 연구)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.181-184
    • /
    • 2012
  • 본 논문에서는 한국전자통신연구원 언어처리연구팀에서 개발하고 있는 차량용 대화 시스템을 위한 Dialog Act 태깅 코퍼스 구축 방법에 대해 기술하는 것을 목표로 한다. 차량용 태깅 코퍼스 구축 방법은 크게 차량용 대화 코퍼스 수집과 수집된 대화 코퍼스에 Dialog Act를 반자동으로 태깅하는 방법으로 나눌 수 있다. 차량용 대화 코퍼스 수집은 1) 대화플랜 맵 구축, 2) 표준대화 구축, 3) 자유대화 구축, 4) 사용자 발화에 패러프래징 발화 구축의 순으로 구축되었다. Dialog Act 태깅은 수집된 대화코퍼스로부터 슬롯 후보를 추출하여 슬롯 체계를 구축한 후 반자동 슬롯 태깅을 실시하고, 슬롯 태깅 결과와 Dialog Act Type을 조합하여 Dialog Act 태깅 코퍼스를 구축하였다. 이렇게 구축된 Dialog Act 태깅 코퍼스는 차량 공조시스템(에어컨, 히터 등) 및 차량 응급 조치 정보 서비스와 같은 차량용 대화 시스템에 적용 중에 있다.

  • PDF