• Title/Summary/Keyword: 데이터부족문제

Search Result 548, Processing Time 0.029 seconds

Dependency parsing applying reinforced dominance-dependency constraint rule: Combination of deep learning and linguistic knowledge (강화된 지배소-의존소 제약규칙을 적용한 의존구문분석 모델 : 심층학습과 언어지식의 결합)

  • JoongMin Shin;Sanghyun Cho;Seunglyul Park;Seongki Choi;Minho Kim;Miyeon Kim;Hyuk-Chul Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.289-294
    • /
    • 2022
  • 의존구문분석은 문장을 의존관계(의존소-지배소)로 분석하는 구문분석 방법론이다. 현재 사전학습모델을 사용한 전이 학습의 딥러닝이 좋은 성능을 보이며 많이 연구되지만, 데이터셋에 의존적이며 그로 인한 자료부족 문제와 과적합의 문제가 발생한다는 단점이 있다. 본 논문에서는 언어학적 지식에 기반한 강화된 지배소-의존소 제약규칙 에지 알고리즘을 심층학습과 결합한 모델을 제안한다. TTAS 표준 가이드라인 기반 모두의 말뭉치로 평가한 결과, 최대 UAS 96.28, LAS 93.19의 성능을 보였으며, 선행연구 대비 UAS 2.21%, LAS 1.84%의 향상된 결과를 보였다. 또한 적은 데이터셋으로 학습했음에도 8배 많은 데이터셋 학습모델 대비 UAS 0.95%의 향상과 11배 빠른 학습 시간을 보였다. 이를 통해 심층학습과 언어지식의 결합이 딥러닝의 문제점을 해결할 수 있음을 확인하였다.

  • PDF

Memory Efficient Tri-Matching Algorithm (메모리 효율적인 3군 매칭 알고리즘 구현)

  • Kim, Donggil;Jung, Sung Jae
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.393-394
    • /
    • 2020
  • 세 군 매칭을 수행하여 관찰 데이터를 구축하고 통계분석에 기반한 연구를 수행하는 경우가 종종 발생한다. 매칭작업은 각 군에 속한 개체의 성향점수를 서로 비교해 거리가 가까운 짝을 찾아야 하므로 카테시안 곱 만큼의 경우의 수를 따져야 하는 문제이고, 메모리 소요가 크다. 특히 세 군 매칭은 세 쌍의 거리가 가까운 triplet을 찾는 문제로, 세 개체 사이에 존재하는 세 개의 거리를 따져야 하기 때문에 메모리 소요가 두 군 매칭에 비해 훨씬 크다. 각 군에 속한 개체가 늘어나면 메모리소요가 기하 급수적으로 늘어나게 된다. R패키지에 포함된 TriMatch함수는 세 군 매칭 수행을 위해 가장 널리 사용되는 프로그램이다. 이 프로그램은 세 개체 사이의 세 개 거리가 가장 짧은 triplet을 찾는 방식으로 구현 되었다. 이 프로그램은 메모리 소요가 매우 커 각 군에 속한 개체의 수가 많아지면 메모리 부족 에러가 발생하는 경우가 많다. 본 연구에서는 세 군 매칭에 소요되는 메모리 소요를 줄일 수 있는 알고리즘을 제안하고자 한다. 이 알고리즘의 구현을 통해 각 군에 속한 개체가 늘어나도 안정적인 세 군 매칭 결과를 얻을 수 있을 것으로 기대한다.

  • PDF

휴대인터넷 서비스 수요 및 사업 전망

  • Ji, Gyeong Yong;Kim, Mun Gu;Kim, Taek Sik;Gang, Ji Eun
    • The Magazine of the IEIE
    • /
    • v.30 no.8
    • /
    • pp.23-23
    • /
    • 2003
  • 국내 통신서비스 시장은 유선에서 무선으로, 음성에서 데이터로 그 중심이 전환되는 상황에 있다. 본고에서는 CDMA, xDSL에 이은 제 3의 한국 IT성장 엔진으로서 휴대인터넷을 보는 연구자의 입장에서, 설문조사를 바탕으로 사업으로서의 성장 가능성을 타진하고 성장의 전제조건을 점검하였다. 결론으로서 휴대인터넷의 수요는 어느 정도 성숙되어 있지만, 현재 높은 이용요금, 킬러 애플리케이션의 부족, 단말기 가격 등의 문제가 노출되어 있으므로 이를 기술적, 정책적으로 해결해야 함을 역설하였다.

휴대인터넷 서비스 수요 및 사업 전망

  • 지경용;김문구;김택식;강지은
    • The Magazine of the IEIE
    • /
    • v.30 no.8
    • /
    • pp.803-814
    • /
    • 2003
  • 국내 통신서비스 시장은 유선에서 무선으로, 음성에서 데이터로 그 중심이 전환되는 상황에 있다. 본고에서는 CDMA, xDSL에 이은 제 3의 한국 IT성장 엔진으로서 휴대인터넷을 보는 연구자의 입장에서, 설문조사를 바탕으로 사업으로서의 성장 가능성을 타진하고 성장의 전제조건을 점검하였다. 결론으로서 휴대인터넷의 수요는 어느 정도 성숙되어 있지만, 현재 높은 이용요금, 킬러 애플리케이션의 부족, 단말기 가격 등의 문제가 노출되어 있으므로 이를 기술적, 정책적으로 해결해야 함을 역설하였다.

  • PDF

IPv6 Stateful Autoconfiguration Using DHCPv6 Sever of ISP In UMTS/GPRS (UMTS/GPRS에서 ISP의 DHCPv6 서버를 이용한 IPv6 stateful autoconfiguration)

  • 김성진;김화성;민상원;임선화;오돈성;김영진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.205-207
    • /
    • 2001
  • 3세대 이동 통신망인 UMTS/GPRS에서 IP 기반의 서비스를 제공하기 위해서는 이동단말이 IP 주소를 할당 받고 이 주소를 통하여 데이터 패킷이 전송된다. 하지만 IPv4에서 인터넷 가입자의 폭발적인 증가로 인해 IP 주소 부족 문제를 예견하고 있다. UMTS/GPRS에 IP 주소가 획기적으로 증가하는 IPv6(Internet Protocol version 6) 적용이 필요하다. 본 논문에서는 UMTS/GPRS 망에서의 stateless autoconfiguration 절차를 설명하고 이동단말이 DHCPv6 서버와 연동하여 IP 주소를 할당하기 위한 stateful autoconfiguration 방법을 제안한다.

  • PDF

A Design and Implementation of General Help System (범용 도움말 시스템의 설계 및 구현)

  • 주예찬;김형국;권기항
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.641-643
    • /
    • 1998
  • 인터넷 환경의 대중화와 함께 HTML 문서의 사용 범위가 확대되면서, 많은 소프트웨어 벤더들이 HTML 문서 형식으로 도움말을 제공하고 있다. HTML 문서는 작성하기 쉽고, 문서 관계를 쉽게 나타낼 수 있다는 장점이 있지만 사용자가 원하는 정보를 찾기 어렵고 효과적으로 관리할 수 있는 방법이 부족하다. 본 논문에서는 이 문제를 해결하기 위해 웹이나 지역 머신에 위치한 HTML 문서들에서 정보를 추출하고 데이터 베이스화 시키는 도움말 시스템을 설계하고 구현한다.

Design of Application Mechanism Model over IPv6 transition (IPv6 전이 환경에서의 이동 IPv6 적용 메커니즘 모델 설계)

  • 이수진;강현국
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.184-186
    • /
    • 2003
  • 우선 환경에서 기존 음성 서비스와 항께 비디오론 포함한 인터넷 데이터 서비스를 차세대 이동 통신을 위한 주요 서비스로 인식하고 있으며 가정에서 다양한 서비스를 제공하기 위한 흥 네트워크 역시 차세대 인터넷 기술로 부각되면서, IP가 고정적으로 내장된 이동 전화나 가전 제품의 사용이 필수적이 될 것으로 예상된다. 따라서 주소 부족의 문제뿐만 아니라 기능 및 성능적인 면에서 IPv6 주소 방식의 사용이 요구된다. 본 논문에서는 현재 사용되고 있는 IPvf 네트워크에서 IPv6 네트워크로의 전이 단계에서 IPv6 스택을 가지는 이동 노드의 이동성을 지원하기 위한 메커니즘을 제안하였다.

  • PDF

Improving Korean Word-Spacing System Using Stochastic Information (통계 정보를 이용한 한국어 자동 띄어쓰기 시스템의 성능 개선)

  • 최성자;강미영;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.883-885
    • /
    • 2004
  • 본 논문은 대용량 말뭉치로부터 어절 unigram과 음절 bigram 통계 정보를 추출하여 구축한 한국어 자동 띄어쓰기 시스템의 성능을 개선하는 방법을 제안한다 어절 통계를 주로 이용하는 기법으로 한국어 문서를 처리할 때, 한국어의 교착어적인 특성으로 인해 자료부족 문제가 발생한다 이물 극복하기 위해서 본 논문은 음절 bigram간 띄어쓸 확률 정보를 이용함으로써 어절로 인식 가능한 추가의 후보 어절을 추정하는 방법을 제안한다. 이와 글이 개선된 시스템의 성능을 다양한 실험 데이터를 사용하여 평가한 결과, 평균 93.76%의 어절 단위 정확도를 얻었다.

  • PDF

A study on Establishing National Defence Shared Data Environment (SHADE) (국방 데이터공유환경 구축에 관한 연구)

  • Lee, Hak-Rae;Lee, Sang-Hoon;Lee, Tae-Kong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1725-1728
    • /
    • 2002
  • 국방부는 90년대 후반부터 국방정보체계 구축사업을 본격적으로 추진하면서 정보체계의 상호운용성 문제를 심각하게 인식하고 상호운용성을 보장하는 국방 정보체계를 구축하기 위하여 많은 노력을 추진하고 있다. 상호운용성을 보장하는 정보체계를 구축하기 위한 목표를 국방통합정보체계 구축으로 설정하고 이를 구성하는 요소로 국방정보체계표준, 공통운용환경, 데이터공유환경을 식별하고, 이를 구축하기 위해 추진하고 있다. 이들 가운데 국방정보체계표준은 선정되어, 국방전반에 대하여 효력을 발휘하고 있으며, 공통운용환경은 우리의 국방환경에 적합한 추진방향을 선정하였으나, 데이터공유환경을 구축하기 위한 전략 및 방법에 대한 연구는 부족한 실정이다. 본 연구에서는 선진국의 추진사례와 우리나라 국방 현실에 대한 분석을 통하여 우리의 현실에 맞는 데이터공유환경(SHADE)를 구축하기 위한 전략 및 방법을 제시하며, 그 내용으로는 먼저 현 국방 데이터 관리 실태 분석을 통하여 현 상황을 인식한 후, 구축하고자 하는 목표을 설정하고, 이러한 목표를 달성하기 위한 추진 전략 및 방향, 업무와 관련된 조직 및 인원에 대한 임무, 단계별 추진 과제 등을 식별하고 데이터공유가 요구되는 조직 및 체계에 적용가능한 데이터 관리 절차와 데이터 상호운용성을 만족시키기 위한 접근방법을 제시한다.

  • PDF

Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information (음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템)

  • Choi, Sung-Ja;Kang, Mi-Young;Heo, Hee-Keun;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.47-53
    • /
    • 2003
  • 본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

  • PDF