• Title/Summary/Keyword: 정보단위

Search Result 5,293, Processing Time 0.043 seconds

Text Preprocessor for Generating Korean Automatic Pronunciation Variants Using Morpheme-trg Information (한국어 발음열 자동 생성을 위한 형태소 태그 정보 기반의 텍스트 전처리기)

  • 이경님;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.199-201
    • /
    • 2001
  • 일반적으로 발음열 자동 생성기는 음성 인식 및 음성 합성에 사용되며, 그 주된 역할은 입력된 한글 철자에 대해 발음 나는 데로 표기된 음소열로 출력하는 것이다. 그러나 실제 입력되는 문장에는 특수 기호 및 알파벳. 아라비아 숫자, 영어 단어, 알파벳과 숫자가 혼용된 약어, 기호 단위 명사 등이 포함되어 있다. 게다가 아라비아 숫자의 경우 단위 명사의 종류에 따라서 뿐만 아니라, 문맥에 따라 숫자를 읽는 방식이 달라지게 된다. 이러한 모든 현상들을 발음열 생성기 내부에서 처리하게 되면 선행작업이 상대적으로 크게 되어 과부하 문제 가 발생된다. 또한 어절 내의 문맥 정보만으로 정확한 변환 결과를 얻기 힘들기 때문에 형태소 분석 수행 결과 및 예외처리를 위 한 루틴을 포함하여 한글 자소 단위의 입력형식으로 변환하는 전처리 시스템을 구성하였다.

  • PDF

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • 전남열;박혁로
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한극어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bi-gram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분서고가 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

Event Clustering Using Automatically Extracted Temporal Information (자동 추출된 시간정보를 이용한 사건 클러스터링)

  • Kim Pyung;Nam Dukyun;Choi KiSeok;Myaeng SungHyun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.466-468
    • /
    • 2005
  • 신문기사를 대상으로 사건 단위로 문서를 클러스터링 하기 위해서, 기존의 연구에서는 기사의 발행일 또는 기사의 내용만 사용하여 하나의 사건을 다른 사건과 구분하는 방법을 사용해 오고 있다. 하지만 사건의 전개가 시간 차이를 두고 진행되는 경우 또는 비슷한 시간대에 같은 범주에 속하는 사건이 발생하는 경우 기사의 발행일만 사용하여 사건 관련 기사를 구분하는 것은 한계가 있다. 본 연구에서는 한국어 신문기사를 대상으로 신문기사에 나타난 시간정보를 자동 추출하고, 이를 기사의 발행일을 기준으로 정규화 한 후 사용하여 사건단위로 기사를 클러스터링 하는 방법을 개발하였다. 즉 한국어 신문 기사를 대상으로 기사에 나타난 시간 표현을 자동으로 추출한 후, 사건과의 유사도 비교에 사용함으로써 사건 단위 클러스터링의 정확도를 높이기 위한 방법을 제안한다.

  • PDF

RDF 메타 데이터를 이용한 인덱스 기반의 XML/SGML 문서 검색 방법에 관한 연구

  • 오동현;김규태;정회경;이수연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.42-44
    • /
    • 1999
  • 인터넷이 급속히 성장함에 따라 대량의 SGML/XML 문서를 보다 효과적으로 다룰 필요성이 증대하고 있다. SGML/XML 문서를 데이터베이스에 저장하는 경우에 문서를 파싱하여 파싱된 결과를 모두 분리하여 저장하고 서로의 연관관계를 모두 구분하는 경우 구조화 정보를 최대한 이용할 수 있는 등 여러 가지 장점을 지니게 된다. 하지만, 이 경우 분할단위의 폭발적인 증가로 인한 시스템 성능 저하와 내용중복으로 인한 색인저장 오버헤드가 문제이다. 이런 문제점을 해결방안의 하나로서 본 논문에서는 RDF 메타데이타를 통하여 검색시 의미가 있는 단위로 분할 단위를 축소 지정하고 이 축소된 정보를 기반으로 인덱스를 생성하여 내용중복을 방지하는 방법을 제안하였다. 이 방법은 RDF메타데이타를 통해 이루어짐으로서 웹기반에서 자동으로 이루어질 수가 있으며, 이를 통해서 기존의 방법보다 자동화된 검색을 할 수 있다.

  • PDF

A Study on the Guarantee of QoS in the Wireless Network Using the Geographical Information (지리적 정보를 이용한 무선망에서의 QoS 보장에 관한 연구)

  • Lee, Jang Yong;Park, Chan Young;Hwang, Ji Sue;Lee, Chang-Sub
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.1465-1468
    • /
    • 2004
  • 기본적으로 무선 네트워크는 일정한 크기의 셀 단위로 구성된다. 통신 중인 단말은 이러한 셀 사이를 이동하게 되고, 셀과 셀 사이를 이동하는 것을 핸드오프라고 한다. 최근의 셀 크기는 보다 많은 사용자를 수용하기 위해 피코 셀 단위로까지 작아지고 있다. 이렇게 셀 단위가 작아지면, 더욱 빈번한 핸드오프가 일어나게 된다. 본 논문에서는 빈번한 핸드오프로 인한 연결 실패율을 줄이고자 지리적 정보를 토대로 이동성을 예측하고, 그 예측 결과를 사용하여 이동 단말의 속도에 따라 대역폭 예약을 다르게 하는 방식을 제안한다. 이 방식은 이동 단말의 속도와, 셀 내의 도로 사정, 도로 사정에 따른 다음 셀 이동 확률 등을 이용하여 대역의 예약범위와 예약 대역폭 량을 결정한다. 이러한 방법으로 좀 더 확실한 이동성 예측과 예약 대역폭 미사용에 따른 대역폭 낭비를 줄이는 효과를 볼 수 있었다.

  • PDF

The Development of the Urban Deprivation Analysis Supporting System as Neighbourhood Level (지구단위의 도시쇠퇴현황 분석지원시스템 개발)

  • Yang, Dong-suk;Cho, Seungyeoun;Choi, Jiin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1584-1587
    • /
    • 2013
  • 도시재생정책과 계획수립 지원을 위한 도시재생종합정보시스템이 지구단위로서 읍면동 및 집계구 단위로 구축되었다. 이를 이용하여 지표별 진단과 복합쇠퇴진단을 통한 관심지역 추출로 보다 상세한 도시쇠퇴 진단이 가능하다. 이 시스템을 정부정책에 이용하는 것뿐만 아니라 주민의 지역문제 확인 및 해결방안 모색을 위한 도구로 적극 활용되어야 할 것이다. 또한 데이터를 지자체에 직접 입력하게 하여 신속한 정보갱신과 비용절감이 가능한 유지관리방안의 검토가 필요하다.

A Fast Sub-pixel Motion Estimation Method for H.264 Video Compression (H.264 동영상 압축을 위한 부 화소 단위에서의 고속 움직임 추정 방법)

  • Lee, Yun-Hwa;Choi, Myung-Hoon;Shin, Hyun-Chul
    • Journal of KIISE:Software and Applications
    • /
    • v.33 no.4
    • /
    • pp.411-417
    • /
    • 2006
  • Motion Estimation (ME) is an important part of video coding process and it takes the largest amount of computation in video compression. Half-pixel and quarter-pixel motion estimation can improve the video compression rate at the cost of higher computational complexity In this paper, we suggest a new efficient low-complexity algorithm for half-pixel and quarter pixel motion estimation. It is based on the experimental results that the sum of absolute differences(SAD) shows parabolic shape and thus can be approximated by using interpolation techniques. The sub-pixel motion vector is searched from the minimum SAD integer-pixel motion vector. The sub-pixel search direction is determined toward the neighboring pixel with the lowest SAD among 8 neighbors. Experimental results show that more than 20% reduction in computation time can be achieved without affecting the quality of video.

Tagging Error Correction Using Lexical Morpheme Context (형태소 어휘 문맥에 기반한 태깅 오류 정정)

  • Kim, Young-Kil;Yang, Sung-Il;Hong, Mun-Pyo;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.63-68
    • /
    • 2003
  • 본 논문에서는 형태소 분석 대상 어절의 좌우 어절내의 대표 형태소 어휘 문맥 정보에 기반한 형태소 오류 정정 방안을 제안한다. 현재까지 주변의 품사열 문맥 정보에만 의존하는 기존의 품사 태깅 모델과 달리 주변 어휘를 반영할 수 있는 좌우 어절 문맥을 이용해 형태소 태거의 성능을 향상시킬 수 있는 방법들이 제시되었다. 그러나 이러한 어절 문맥에 의한 지속적인 성능 향상을 위해서는 대량의 품사 태킹 문맥 정보를 필요로 한다. 따라서 본 논문에서는 이러한 자료 부족 문제를 해결하기 위하여 기존의 분석 대상 어절 좌우의 어절 단위의 어휘 문맥 정보가 아닌 좌우 어절내의 대표 형태소 단위의 형태소 어휘 문맥을 이용한 품사 태깅 오류 정정 방안을 제안한다. 실험을 통해, 형태소 어휘 단위의 문맥 정보의 적용성(Coverage)의 높고 기존의 품사 문맥 정보 기반의 형태소 분석기의 태깅 오류를 정정하여 그 정확성을 크게 향상시킬 수 있음을 보인다.

  • PDF

The Practical Effectiveness of the Intellectual Property Legislation of the R&D National Projects (디지털환경에서의 지식재산권 관련 R&D사업 규정의 실용성 분석)

  • Yoo, Sa-Rah
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.16 no.1
    • /
    • pp.269-283
    • /
    • 2005
  • Research and Development projects sponsored by the government are one of the main production sectors of academic and research information in domestic area. The access control and information service of R&D outcomes should be considered as a critical factor of nation-wide knowledge-based IS management. This study focused on the practical utilities of three IPR legislations of the government projects and analyzed if they are good enough to support the information service in recent digital network environment. Some suggestions in different perspectives were provided for the improvement of the existed IPR legislation.

  • PDF

An Automatic Extraction of English-Korean Bilingual Terms by Using Word-level Presumptive Alignment (단어 단위의 추정 정렬을 통한 영-한 대역어의 자동 추출)

  • Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.6
    • /
    • pp.433-442
    • /
    • 2013
  • A set of bilingual terms is one of the most important factors in building language-related applications such as a machine translation system and a cross-lingual information system. In this paper, we introduce a new approach that automatically extracts candidates of English-Korean bilingual terms by using a bilingual parallel corpus and a basic English-Korean lexicon. This approach can be useful even though the size of the parallel corpus is small. A sentence alignment is achieved first for the document-level parallel corpus. We can align words between a pair of aligned sentences by referencing a basic bilingual lexicon. For unaligned words between a pair of aligned sentences, several assumptions are applied in order to align bilingual term candidates of two languages. A location of a sentence, a relation between words, and linguistic information between two languages are examples of the assumptions. An experimental result shows approximately 71.7% accuracy for the English-Korean bilingual term candidates which are automatically extracted from 1,000 bilingual parallel corpus.