• Title/Summary/Keyword: 태깅 시스템

Search Result 197, Processing Time 0.029 seconds

Efficient Storage and Retrieval for Automatic Indexing of Persons in Videos (동영상 등장인물의 자동색인을 위한 효율적인 저장과 검색 방법)

  • Kim, Jin-Seung;Han, Yong-Koo;Lee, Young-Koo
    • Journal of Korea Multimedia Society
    • /
    • v.14 no.8
    • /
    • pp.1050-1060
    • /
    • 2011
  • With increasing need for indexing of persons in a large video database, automatic indexing has been attracting great interest which takes advantage of automatic tagging instead of the time-consuming and costly manual tagging. However, automatic indexing approach should provide a degree of recognition proximity because it cannot identify the persons with accuracy of 100%. In this paper, we propose an efficient storage method for storing posting lists efficiently and a novel ranking technique of ordering relevant videos for efficient retrieval. Through experiment evaluations we have shown that our storage method exhibits good performance in compressing the posting list. We have also shown that the proposed ranking method is effective for finding relevant videos.

Automatic Error Correction System for Erroneous SMS Strings (SMS 변형된 문자열의 자동 오류 교정 시스템)

  • Kang, Seung-Shik;Chang, Du-Seong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06a
    • /
    • pp.59-60
    • /
    • 2007
  • 휴대폰과 메신저 등 통신 환경에서 사용되는 표준어가 아닌 SMS의 변형된 어휘 및 띄어쓰기 오류를 자동으로 교정하여 형태소 분석 및 품사 태깅의 성능 저하 문제를 방지하는 문자열 오류의 교정 방법을 제안하였다. 통신 어휘들의 문자열 사전 구축 방법으로 통신어휘집을 기반으로 수동으로 구축하는 방법과 수작업으로 구축된 말뭉치로부터 자동으로 변형된 문자열을 추출하는 방법, 그리고 문맥을 고려하는 방법을 비교-분석하고 실험 및 성능 평가 결과를 제시하였다.

  • PDF

A Reverse Segmentation Algorithm of Compound Nouns (복합명사의 역방향 분해 알고리즘)

  • 이현민;박혁로
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.56-59
    • /
    • 2000
  • 한국어에서 복합명사는 명사간 결합이 자유롭고, 단위명사로 띄어쓰는 것을 원칙으로 하나 붙여써도 무방하다. 따라서, 정보검색분야, 기계번역분야에서 복합명사의 정확한 분해는 시스템의 성능에 많은 영향을 미치게 된다. 본 논문에서는 ETRI의 태깅된 코퍼스로부터 추출한 복합명사를 역방향 분해 알고리즘을 이용하여 단위명사로 분해한다. 분해되지 않은 3119개의 복합명사에 대해 실험한 결과 약 96.6%의 정확도를 얻었다. 또한, 미등록이나 접사에 대한 처리에도 비교적 정확한 결과를 얻을 수 있었다.

  • PDF

Extraction and Classification of Proper Nouns by Rule-based Machine Learning (규칙 기반의 기계학습을 통한 고유명사의 추출과 분류)

  • 노태길;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.170-172
    • /
    • 2000
  • 고유명사를 추출하고 그 범주를 파악할 수 있다면, 이는 정보 추출이나 정보 검색, 문서 요약과 같은 분야에 도움을 줄 수 있다. 본 논문에서는 고유명사를 추출하고 그 범주를 찾는 방법을 제시한다. 고유명사가 태깅된 코퍼스로부터, 고유명사의 내부와 주변에 반복적으로 나타나는 실마리들을 규칙 기반으로 학습한다. 이를 통하여 고유명사를 찾고 그 범주를 정한다. 구현한 시스템은 경제기사 코퍼스에서 4가지 범주로 고유명사를 추출하고 분류함에 있어 79.8%의 재현율과 92.9%의 정확률, 그리고 F 평가치에서 85.8의 성능을 보인다.

  • PDF

Design and Implementation of the Language Processor for Educational TTS Platform (음성합성 플랫폼을 위한 언어처리부의 설계 및 구현)

  • Lee, Sang-Ho
    • Proceedings of the KSPS conference
    • /
    • 2005.11a
    • /
    • pp.219-222
    • /
    • 2005
  • 본 논문에서는 한국어 TSS 시스템을 위한 언어처리부의 설계 및 구현 과정을 설명한다. 구현된 언어처리부는 형태소 분석, 품사 태깅, 발음 변환 과정을 거쳐, 주어진 문장의 가장 적절한 발음열과 각 음소의 해당 품사를 출력한다. 프로그램은 표준 C언어로 구현되어 있고, Windows와 Linux에서 모두 동작되는 것을 확인하였다. 수동으로 품사가 할당된 4.5만 어절의 코퍼스로부터 형태소 사전을 구축하였으며, 모든 단어가 사전에 등록되어 있다고 가정할 경우, 488문장의 실험 자료에 대해 어절 단위 오류율이 3.25%이었다.

  • PDF

Korean Entity Recognition System using Bi-directional LSTM-CNN-CRF (Bi-directional LSTM-CNN-CRF를 이용한 한국어 개체명 인식 시스템)

  • Lee, Dong-Yub;Lim, Heui-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.327-329
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템을 개발하기 위해 딥러닝 기반의 워드 임베딩(word embedding) 자질과 문장의 형태적 특징 및 기구축 사전(lexicon) 기반의 자질 구성 방법을 제안하고, bi-directional LSTM, CNN, CRF과 같은 모델을 이용하여 구성된 자질을 학습하는 방법을 제안한다. 실험 데이터는 2017 국어 정보시스템 경진대회에서 제공한 2016klpNER 데이터를 이용하였다. 실험은 전체 4258 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 실험을 진행하였다. 실험 결과 본 연구에서 제안하는 모델은 BIO 태깅 방식의 개체 청크 단위 성능 평가 결과 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score를 나타냈다.

  • PDF

A Study on the Natural Language Query System Using Sentence-Pattern (문장패턴을 이용한 자연어 질의 시스템에 대한 연구)

  • Woo, Keun-Sin;Song, Jae-Gwan;Hong, Sung-Woong;Yon, Che-Yong;Park, Chan-Gun
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.214-218
    • /
    • 2003
  • 질의응답 시스템은 인터넷과 같은 실용적 환경에서 사용될 경우, 실제 사용자의 질의는 다양한 유형으로 나타나게 된다. 따라서 실용적인 시스템에서 사용되는 질의는 문장의 형태나 단어의 쓰임에 관계없이 같은 의도를 가진 질의를 같은 유형으로 분류할 수 있는 의문형 문장패턴을 태깅하여 다양한 형태의 자연어로 기술된 문서에서 원하는 응답으로 처리할 수 있는 질의 응답 시스템은 정보 검색 시스템으로서의 가능성을 보여준다.

  • PDF

Korean Entity Recognition System using Bi-directional LSTM-CNN-CRF (Bi-directional LSTM-CNN-CRF를 이용한 한국어 개체명 인식 시스템)

  • Lee, Dong-Yub;Lim, Heui-Seok
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.327-329
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템을 개발하기 위해 딥러닝 기반의 워드 임베딩(word embedding) 자질과 문장의 형태적 특징 및 기구축 사전(lexicon) 기반의 자질 구성 방법을 제안하고, bi-directional LSTM, CNN, CRF과 같은 모델을 이용하여 구성된 자질을 학습하는 방법을 제안한다. 실험 데이터는 2017 국어 정보시스템 경진대회에서 제공한 2016klpNER 데이터를 이용하였다. 실험은 전체 4258 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 실험을 진행하였다. 실험 결과 본 연구에서 제안하는 모델은 BIO 태깅 방식의 개체 청크 단위 성능 평가 결과 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score를 나타냈다.

  • PDF

Automatic Generatio of Korean Pronunciation Variants (TTS 시스템을 위한 한국어 발음열 자동 생성)

  • 차선화
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.413-418
    • /
    • 1998
  • 음성 합성 시스템의 한 모듈로서 한국어 문자열을 음소열로 자동 변환하는 시스템을 구현하였다. 문자열을 음소열로 변환할 때에는 한국어 음운현상에 대한 체계적인 분석 과정이 필요하다. 한국어의 음운 변화 현상은 단일 형태소 내부와 여러 형태소가 결합하여 한 어절을 이루는 경우 그 형태소 경계, 그리고 어절 경계에서 서로 다른 음운규칙이 적용된다. 따라서 언절이나 문장 등의 입력을 음소열로 변환하기 위해서는 형태소 분석, 태깅작업이 반드시 수행되어야 올바른 발음열을 유도할 수 있다. 본 논문에서 제안한 시스템은 한국어의 형태음운현상을 반영하기 위해 형태소 분석을 선행한 후, 한국어에서 빈번하게 발생하는 음운 변화 현상의 분석을 통해 정의된 음소 변동 규칙과 변이음 규칙을 선택적으로 적용하여 형태소, 어절, 언절 또는 문장 등의 다양한 형태의 입력에 대해 발음열을 생성한다. 기존의 연구에서 분리되어 있던 형태소 태거와 변환시스템을 통합하여 사용자 편의성을 높였으며 텍스트 기반의 형태소 분석기를 사용하기 때문에 원형이 복원되는 형태소들에 대한 처리 루틴을 두어 오류를 감소 시켰다.

  • PDF

Design and Implementation of Topic Map Generation System based Tag (태그 기반 토픽맵 생성 시스템의 설계 및 구현)

  • Lee, Si-Hwa;Lee, Man-Hyoung;Hwang, Dae-Hoon
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.5
    • /
    • pp.730-739
    • /
    • 2010
  • One of core technology in Web 2.0 is tagging, which is applied to multimedia data such as web document of blog, image and video etc widely. But unlike expectation that the tags will be reused in information retrieval and then maximize the retrieval efficiency, unacceptable retrieval results appear owing to toot limitation of tag. In this paper, in the base of preceding research about image retrieval through tag clustering, we design and implement a topic map generation system which is a semantic knowledge system. Finally, tag information in cluster were generated automatically with topics of topic map. The generated topics of topic map are endowed with mean relationship by use of WordNet. Also the topics are endowed with occurrence information suitable for topic pair, and then a topic map with semantic knowledge system can be generated. As the result, the topic map preposed in this paper can be used in not only user's information retrieval demand with semantic navigation but alse convenient and abundant information service.