• Title/Summary/Keyword: 한글도메인명

검색결과 16건 처리시간 0.026초

유비쿼터스 정보네트워크에서의 편리한 정보액세스를 위한 한글 자음모음 도메인명의 응용 (Application of Korean Alphabet Domain-Names for Convenient Information Access in a Ubiquitous Information Network)

  • 김영복
    • 정보처리학회논문지C
    • /
    • 제12C권7호
    • /
    • pp.1067-1074
    • /
    • 2005
  • 모바일 사용자 인터페이스가, 특히 유비쿼터스 컴퓨팅 환경에서, 정보를 빨리 그리고 편리하게 액세스하는데 중요해지고 있다. 모바일 컴퓨팅 환경에서의 많은 신규서비스들 중에서, 한글1자 도메인명을 포함하여, 한글알파벳(자음과 모음) 도메인명을 이용한 유비쿼터스 정보네트워킹서비스가 연구되었다. 긴 영어나 한글의 URL 스트링 대신에, 정보 액세스를 위한 편리한 사용자 인터페이스로서, 유선 인터넷에서 뿐만아니라 모바일 인터넷에서, 한글1자/자음/모음 도메인명이 정보를 액세스하고 정보를 알리는데 긴 URL스트링보다 더 편리하다. PC뿐만아니라 휴대폰에서 한글1자/자음/모음 도메인명의 편리함을 연구하였고, 음성변환(TTS) 기능을 가지고 있으며 한글1자/자음/모음 도메인명으로 액세스할 수 있는 유비쿼터스 정보포털의 구현과 응용을 소개한다

능동 학습 기법을 활용한 한국어 금융 도메인 개체명 인식 데이터 구축 (Constructing Korean Named Recognition Dataset for Financial Domain Using Active Learning)

  • 정동호;허민강;김형철;박상원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.82-86
    • /
    • 2020
  • 딥러닝 모델의 성능은 데이터의 품질과 양에 의해 향상된다. 그러나 데이터 구축은 많은 비용과 시간을 요구한다. 특히 전문 도메인의 데이터를 구축할 경우 도메인 지식을 갖춘 작업자를 활용할 비용과 시간이 더욱 제약적이다. 능동 학습 기법은 최소한의 데이터 구축으로 모델의 성능을 효율적으로 상승시키기 위한 방법이다. 다양한 데이터셋이 능동 학습 기법으로 구축된 바 있으나, 아직 전문 도메인의 한국어 데이터를 구축하는 연구는 활발히 수행되지 못한 것이 현실이다. 본 논문에서는 능동학습기법을 통해 금융 도메인의 개체명 인식 코퍼스를 구축하였고, 이를 통해 다음의 기여가 있다: (1) 금융 도메인 개체명 인식 코퍼스 구축에 능동 학습 기법이 효과적임을 확인하였고, (2) 이를 통해 금융 도메인 개체명 인식기를 개발하였다. 본 논문이 제안하는 방법을 통해 8,043문장 데이터를 구축하였고, 개체명 인식기의 성능은 80.84%로 달성되었다. 또한 본 논문이 제안하는 방법을 통해 약 12~25%의 예산 절감 효과가 있음을 실험으로 보였다.

  • PDF

한국어순을 따르는 인터넷 한글 도메인 네임 시스템 (A Korean Domain Name System for Korean)

  • 이재용;이균하
    • 한국정보처리학회논문지
    • /
    • 제5권7호
    • /
    • pp.1855-1862
    • /
    • 1998
  • 인터넷 사용자는 호스트 접속을 위하여 DNS로부터 IP주소를 획득한다. 그러나 국내의 사용자는 익숙하지 않은 영문어순의 도메인을 사용하여야 한다. 기존 시스템의 어순은 한국어와는 반대이므로 인터넷 보편화에 장애가 되고 있다. 따라서 국내 사용자에게 적합한 한글 도메인 네임 시스템의 필요성이 높아지고 있다. 본 논문의 한글 도메인 시스템에서는 기존의 도메인 네임 시스템과 함께 운영하기 위하여, 영문으로의 변환 규칙과 한글 도메인 네임의 작성 규칙을 세웠다. 또 한글어순의 처리를 위하여 STROP을 설계하였다. STROP은 SLDF가 국문 SLD을 영문 SLD로 변환하며, 이를 NFDNG가 영문 어순으로 만들게 된다. 본 논문에서 제안한 한글 도메인 네임 시스템을 사용한다면 도메인 명의 함축된 의미를 사용자가 쉽게 파악할 수 있게 되고, 영문 전자로 인하여 발생하는 도메인 등록의 불만을 해소할 수 있으리라 기대된다. 그 결과 인터넷 보편화에 기여할 수 있을 것이다.

  • PDF

우편번호 체계에서 사용중인 한글의 빈도수 조사 (A Frequency Measure of Hangul in Korean Zip Code)

  • 김민기;권영빈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.295-301
    • /
    • 1993
  • 제약이 없이 자유롭게 쓴 오프라인 필기체 한글을 인식하는 문제는 응용분야에 따른 도메인의 정보를 이용함으로써 보다 쉽게 접근할 수 있다. 본 연구는 오프라인 필기체 한글 인식을 위한 한 도메인으로 우편봉투를 대상으로 하였을 때, 우편번호가 할당된 지명과 건물명을 대상으로 글자의 종류와 빈도수를 통계 분석하였다. 분석 결과 가능한 한글 조합 11,172자중 403자만이 쓰이고 있음을 알았다. 이러한 정보는 자소 분할이 어려운 오프라인 필기체 한글 인식에 있어, 문자 단위 정합을 사용했을 때 인식속도 및 인식률 향상에 기여 할 것으로 생각된다.

  • PDF

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식 (Named Entity Recognition with Structural SVMs and Pegasos algorithm)

  • 이창기;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2010
  • 개체명 인식은 정보 추출의 한 단계로서 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 본 논문에서는 structural Support Vector Machines(structural SVMs) 및 수정된 Pegasos 알고리즘을 이용한 한국어 개체명 인식 시스템에 대하여 기술하고 기존의 Conditional Random Fields(CRFs)를 이용한 시스템과의 성능을 비교한다. 실험결과 structural SVMs과 수정된 Pegasos 알고리즘이 기존의 CRFs 보다 높은 성능을 보였고(신뢰도 99%에서 통계적으로 유의함), structural SVMs과 수정된 Pegasos 알고리즘의 성능은 큰 차이가 없음(통계적으로 유의하지 않음)을 알 수 있었다. 특히 본 논문에서 제안하는 수정된 Pegasos 알고리즘을 이용한 경우 CRFs를 이용한 시스템보다 높은 성능 (TV 도메인 F1=85.43, 스포츠 도메인 F1=86.79)을 유지하면서 학습 시간은 4%로 줄일 수 있었다.

  • PDF

정보보안 분야의 위협정보 개체명 인식 시스템 개발을 위한 데이터셋 구축 (Development of Tagging Dataset for Named Entity Recognition in Security)

  • 김경민;허윤아;김규경;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.669-671
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)은 주로 인명(PS), 지명(LC), 기관명(OG) 등의 개체를 인식하기 위한 방식으로 많이 사용되어왔다. 그 이유는 해당 개체들이 데이터에서 중요한 의미를 가진 키워드이기 때문이다. 그러나 다른 도메인이 달라진다면 그동안 사용된 개체보다 더욱 중요한 의미를 갖는 개체가 존재할 수 있다. 특히 정보보안 분야에서는 악의적으로 사용되는 위협정보가 문서 내에서 중요한 의미를 갖는다. 보안 문서는 해시값, 악성코드명, IP, 도메인/URL 등 위협정보에 중요한 단서가 될 수 있는 다양한 정보를 담고 있다. 본 논문에서는 정보보안 분야의 위협정보를 탐지할 수 있는 개체명 시스템 개발을 위해 4개의 클래스와 20가지 속성으로 정의한 구축 방식을 구축하고 그 구축 방식에 대해 제안한다.

  • PDF

ELECTRA 모델을 이용한 음절 기반 한국어 개체명 인식과 슬롯 필링 (Syllable-based Korean Named Entity Recognition and Slot Filling with ELECTRA)

  • 도수종;박천음;이청재;한규열;이미례
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-342
    • /
    • 2020
  • 음절 기반 모델은 음절 하나가 모델의 입력이 되며, 형태소 분석을 기반으로 하는 모델에서 발생하는 에러 전파(error propagation)와 미등록어 문제를 회피할 수 있다. 개체명 인식은 주어진 문장에서 고유한 의미를 갖는 단어를 찾아 개체 범주로 분류하는 자연어처리 태스크이며, 슬롯 필링(slot filling)은 문장 안에서 의미 정보를 추출하는 자연어이해 태스크이다. 본 논문에서는 자동차 도메인 슬롯 필링 데이터셋을 구축하며, 음절 단위로 한국어 개체명 인식과 슬롯 필링을 수행하고, 성능 향상을 위하여 한국어 대용량 코퍼스를 음절 단위로 사전학습한 ELECTRA 모델 기반 학습방법을 제안한다. 실험 결과, 국립국어원 문어체 개체명 데이터셋에서 F1 88.93%, ETRI 데이터셋에서는 F1 94.85%, 자동차 도메인 슬롯 필링에서는 F1 94.74%로 우수한 성능을 보였다. 이에 따라, 본 논문에서 제안한 방법이 의미있음을 알 수 있다.

  • PDF

AI 어시스턴트 플랫폼의 한국어와 중국어 음악청취 요청문 패턴구축 비교 연구 (A Comparative Study on Building Korean & Chinese Music Request Sentence Patterns for AI Assistant Platforms)

  • 윤소은;이가빈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.383-388
    • /
    • 2020
  • 본 연구에서는 AI 어시스턴트의 음악청취 도메인 내 요청문을 인식 및 처리하기 위해 한국어와 중국어를 중심으로 도메인 사전 및 패턴문법 언어자원을 구축하고 그 결과를 비교분석 하였다. 이를 통해 향후 다국어 언어자원 구축의 접근 방법을 모색할 수 있으며, 궁극적으로 패턴 기반 문법으로 기술한 언어자원을 요청문 인식에 직접 활용하고 또한 주석코퍼스 생성을 통해 기계학습 성능 향상에 도움을 줄 수 있을 것으로 기대된다. 본 연구에서는 우선 패턴문법의 구체적인 양상을 살펴보기에 앞서, 해당 도메인의 요청문 유형의 카테고리를 결정하는 과정을 거쳤다. 이를 기반으로 한국어와 중국어 요청문의 실현 양상과 패턴유형을 LGG 프레임으로 구조화한 후, 한국어와 중국어 패턴문법 간의 통사적, 형태적, 어휘적 차이점을 비교분석 하여 음악청취 도메인 요청문의 언어별 생성 구조 차이점을 관찰할 수 있었다. 구축한 패턴문법은 개체명을 변수(X)로 설정하는 경우, 한국어에서는 약 2,600,600개, 중국어에서는 약 11,195,600개의 표현을 인식할 수 있었다. 결과적으로 본 연구에서 제안한 언어자원의 언어별 차이에 대한 통찰을 통해 다국어 차원의 요청문 인식 자원과 기계학습 데이터로서의 효용을 확인하였다.

  • PDF

세종대왕의 발명: 한글과 실시간 한민족 정보 네트워크 (King Sejong's Invention: Korean Characters and Real-time Korean Information Network)

  • 김영복
    • 정보처리학회논문지A
    • /
    • 제10A권5호
    • /
    • pp.463-468
    • /
    • 2003
  • 인터넷, 특히 모바일 인터넷이 인류사회의 많은 분야, 특히 지식정보의 교환 속도에서 큰 영향을 끼치고 있다. 새로운 지식정보사회는 가치 있는 지식과 정보를 기반으로 한 많은 새로운 서비스 형태를 출현 시킬 것이다. 모바일 환경에서의 많은 새로운 서비스 중, 유선과 모바일 인터넷을 이용해서, 세종대왕이 창제한 한글을 이용한 실시간 전세계 한민족 네트워킹 서비스가 언제 어디에서나 가능하게 되었다. 모바일 환경에서 한글을 이용한 유저 인터페이스를 연구하였고, 또한 한글 도메인 명을 사용하여 실시간 한민족 정보 네트워킹을 실제 구현한 유용한 결과를 새로운 성능분석 메트릭과 함께 소개한다.

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO (A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT)

  • 김신우;황창회;윤정우;이성현;최수원;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 2020
  • 본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

  • PDF