• Title/Summary/Keyword: 합성어

Search Result 295, Processing Time 0.033 seconds

Dynamic Synthesis of Pseudo 2D HMMs for Korean Characters in Key Character Recognition Tasks (키워드 인식을 위한 한글 Pseudo 2D HMM의 동적 합성 방법)

  • 조범준
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.6B
    • /
    • pp.820-827
    • /
    • 2001
  • 한글은 둘 또는 세 개의 자모가 사각형 영역 안에 적절히 배치된 구조로 되어 있다. 이와 같은 구성 방법에 따라 글자의 영상을 합성하고 이를 실시간에 Pseudo 2D HMM으로 변환하는 방법을 제안한다. 본 방법에 따라 실시간 합성된 모델과 추가의 필러(filler) 모델, 여백 모델을 문서 영상의 글자 영역에서 핵심어 검출에 적용하였다. 실험 결과 최소한의 설계 변수 조정으로도 오검출, 미검출률이 낮고 언어 모델 없이 숫자 89%, 한글 80%의 검출성능을 보였으며, 따라서 제안된 방법이 인쇄 문자 패턴의 실시간 모델링 및 키워드 검출에 효과가 있음을 보였다. 본 연구 결과는 내용 기반의 광학 문서 색인 등에 활용할 수 있다.

  • PDF

A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search (검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구)

  • Jeong, So-Na;Jeong, Ji-Na
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.5
    • /
    • pp.596-607
    • /
    • 2017
  • This study examined the method for adding related to "stomach neoplasms" as filters to the Medical Subject Headings (MeSH) for search as well as a method for improving the search efficiency through a word-proximity search by measuring the distance of co-occurring terms. A total of 8,625 articles published between 2007 and 2016 with the major topic terms "stomach neoplasms" were downloaded from PubMed article titles. The vocabulary to be added to the MeSH for search were analyzed. The search efficiency was verified by 277 articles that had "Stomach Neoplasms" indexed as MEDLINE MeSH in KoreaMed. As a result, 973 terms were selected as the candidate vocabulary. "Gastric Cancer" (2,780 appearances) was the most frequent term and 7,376 compound words (88.51%) combined the histological terms of "stomach" and "neoplasm", such as "gastric adenocarcinoma" and "gastric MALT lymphoma". A total of 5,234 compounds words (70.95%), in which the co-occurring distance was two words, were found. The matching rate through the MEDLINE MeSH and KoreaMed MeSH Indexer was 209 articles (75.5%). The search efficiency improved to 263 articles (94.9%) when the search filters were added, and to 268 articles (96.7%) when the 13 word-proximity search technique of the co-occurring terms was applied. This study showed that the use of a thesaurus as a means of improving the search efficiency in a natural language search could maintain the advantages of controlled vocabulary. The search accuracy can be improved using the word-proximity search instead of a Boolean search.

SW-HW Co-design of a High-performance Dehazing System Using OpenCL-based High-level Synthesis Technique (OpenCL 기반의 상위 수준 합성 기술을 이용한 고성능 안개 제거 시스템의 소프트웨어-하드웨어 통합 설계)

  • Park, Yongmin;Kim, Minsang;Kim, Byung-O;Kim, Tae-Hwan
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.54 no.8
    • /
    • pp.45-52
    • /
    • 2017
  • This paper presents a high-performance software-hardware dehazing system based on a dedicated hardware accelerator for the haze removal. In the proposed system, the dedicated hardware accelerator performs the dark-channel-prior-based dehazing process, and the software performs the other control processes. For this purpose, the dehazing process is realized as an OpenCL kernel by finding the inherent parallelism in the algorithm and is synthesized into a hardware by employing a high-level-synthesis technique. The proposed system executes the dehazing process much faster than the previous software-only dehazing system: the performance improvement is up to 96.3% in terms of the execution time.

Grading System of Movie Review through the Use of An Appraisal Dictionary and Computation of Semantic Segments (감정어휘 평가사전과 의미마디 연산을 이용한 영화평 등급화 시스템)

  • Ko, Min-Su;Shin, Hyo-Pil
    • Korean Journal of Cognitive Science
    • /
    • v.21 no.4
    • /
    • pp.669-696
    • /
    • 2010
  • Assuming that the whole meaning of a document is a composition of the meanings of each part, this paper proposes to study the automatic grading of movie reviews which contain sentimental expressions. This will be accomplished by calculating the values of semantic segments and performing data classification for each review. The ARSSA(The Automatic Rating System for Sentiment analysis using an Appraisal dictionary) system is an effort to model decision making processes in a manner similar to that of the human mind. This aims to resolve the discontinuity between the numerical ranking and textual rationalization present in the binary structure of the current review rating system: {rate: review}. This model can be realized by performing analysis on the abstract menas extracted from each review. The performance of this system was experimentally calculated by performing a 10-fold Cross-Validation test of 1000 reviews obtained from the Naver Movie site. The system achieved an 85% F1 Score when compared to predefined values using a predefined appraisal dictionary.

  • PDF

Text Augmentation Using Hierarchy-based Word Replacement

  • Kim, Museong;Kim, Namgyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.1
    • /
    • pp.57-67
    • /
    • 2021
  • Recently, multi-modal deep learning techniques that combine heterogeneous data for deep learning analysis have been utilized a lot. In particular, studies on the synthesis of Text to Image that automatically generate images from text are being actively conducted. Deep learning for image synthesis requires a vast amount of data consisting of pairs of images and text describing the image. Therefore, various data augmentation techniques have been devised to generate a large amount of data from small data. A number of text augmentation techniques based on synonym replacement have been proposed so far. However, these techniques have a common limitation in that there is a possibility of generating a incorrect text from the content of an image when replacing the synonym for a noun word. In this study, we propose a text augmentation method to replace words using word hierarchy information for noun words. Additionally, we performed experiments using MSCOCO data in order to evaluate the performance of the proposed methodology.

A Comparative Study of the Speech Signal Parameters for the Consonants of Pyongyang and Seoul Dialects - Focused on "ㅅ/ㅆ" (평양 지역어와 서울 지역어의 자음에 대한 음성신호 파라미터들의 비교 연구 - "ㅅ/ ㅆ"을 중심으로)

  • So, Shin-Ae;Lee, Kang-Hee;You, Kwang-Bock;Lim, Ha-Young
    • Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology
    • /
    • v.8 no.6
    • /
    • pp.927-937
    • /
    • 2018
  • In this paper the comparative study of the consonants of Pyongyang and Seoul dialects of Korean is performed from the perspective of the signal processing which can be regarded as the basis of engineering applications. Until today, the most of speech signal studies were primarily focused on the vowels which are playing important role in the language evolution. In any language, however, the number of consonants is greater than the number of vowels. Therefore, the research of consonants is also important. In this paper, with the vowel study of the Pyongyang dialect, which was conducted by phonological research and experimental phonetic methods, the consonant studies are processed based on an engineering operation. The alveolar consonant, which has demonstrated many differences in the phonetic value between Pyongyang and Seoul dialects, was used as the experimental data. The major parameters of the speech signal analysis - formant frequency, pitch, spectrogram - are measured. The phonetic values between the two dialects were compared with respect to /시/ and /씨/ of Korean language. This study can be used as the basis for the voice recognition and the voice synthesis in the future.

A Query Processing Model based on the XML View in Relational Databases (관계형 데이터베이스에서 XML 뷰 기반의 질의 처리 모델)

  • Jung, Chai-Young;Choi, Kyu-Won;Kim, Young-Ok;Kim, Young-Kyun;Kang, Hyun-Syug;Bae, Jong-Min
    • The KIPS Transactions:PartD
    • /
    • v.10D no.2
    • /
    • pp.221-232
    • /
    • 2003
  • This paper addresses the query processing component of a wrapper system for a relational database model based on the XML view in integrating databases. The schema of a relational database is represented as XML Schema that is proposed by W3C. Users submit a query using the XML query language XQuery over the XML Schema. The wrapper system to be developed supports an user-defined XML view. XQuery is also used as the view definition language. In this environment, this paper suggests a new XML query processing model. We propose the composition algorithm of an XML view with an user query, the translation algorithm of XQuery into SQL, and the XML template construction algorithm for generating XML documents.

Word-level Korean-English Quality Estimation (단어 수준 한국어-영어 기계번역 품질 예측)

  • Eo, Sugyeong;Park, Chanjun;Seo, Jaehyung;Moon, Hyeonseok;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.9-15
    • /
    • 2021
  • 기계번역 품질 예측 (Quality Estimation, QE)은 정답 문장에 대한 참조없이 소스 문장과 기계번역 결과를 통해 기계번역 결과에 대한 품질을 수준별 주석으로 나타내주는 태스크이며, 다양한 활용도가 있다는 점에서 꾸준히 연구가 수행되고 있다. 그러나 QE 모델 학습을 위한 데이터 구성 시 기계번역 결과에 대해 번역 전문가가 교정한 문장이 필요한데, 이를 제작하는 과정에서 상당한 인건비와 시간 비용이 발생하는 한계가 있다. 본 논문에서는 번역 전문가 없이 병렬 또는 단일 말뭉치와 기계번역기만을 활용하여 자동화된 방식으로 한국어-영어 합성 QE 데이터를 구축하며, 최초로 단어 수준의 한국어-영어 기계번역 결과 품질 예측 모델을 제작하였다. QE 모델 제작 시에는 Cross-lingual language model (XLM), XLM-RoBERTa (XLM-R), multilingual BART (mBART)와 같은 다언어모델들을 활용하여 비교 실험을 수행했다. 또한 기계번역 결과에 대한 품질 예측의 객관성을 검증하고자 구글, 아마존, 마이크로소프트, 시스트란의 번역기를 활용하여 모델 평가를 진행했다. 실험 결과 XLM-R을 활용하여 미세조정학습한 QE 모델이 가장 좋은 성능을 보였으며, 품질 예측의 객관성을 확보함으로써 QE의 다양한 장점들을 한국어-영어 기계번역에서도 활용할 수 있도록 했다.

  • PDF

A study on speech interface technology for DAB (DAB용 음성 인터페이스 기술연구)

  • 최정규;김규홍;김원철;한민수
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.193-196
    • /
    • 1999
  • 본 논문에서는 수년 내에 실용화될 것으로 예상되는 DAB (Digital Audio Broadcasting)에 필요한 음성 인터페이스 기술에 대한 기본연구 결과를 소개한다. 연구의 시작 단계이므로 적용 분야는 고속도로 상에서의 교통정보 안내 시스템으로 제한하였다. 즉 목표시스템은 고속도로 상의 출발지와 목적지를 고립단어로 입력하면 시스템이 이를 인식한 후 미리 저장되어 있는 교통 정보 안내 text중 해당 구간에 대한 정보를 추출하여 음성어로 사용자에게 들려 주는 것이다. 현재의 연구 결과는 상기 시스템 중 음성인식 기능은 구현이 완료되었으며 교통 정보 안내는 아직은 문장으로 보여주는 수준이다. 향후 이를 편집 합성기를 이용하여 음성어로 들려 주는 연구를 금년 말까지 개발하여 전체 시스템에 대한 초벌 구현을 완료할 예 정 이 다. 논문에서 소개될 내용은 전체 시스템 개념, 고립단어 인식 기술, 표본화 주파수 및 양자화 bit수에 따른 인식율 변화, 최종 시스템 구현을 위한 향후 계획 등이다.

  • PDF

Design of Automatic Indexing System Using Korean Morpheme Network (문법형태소 네트워크를 이용한 자동색인 시스템의 설계)

  • Ahn, Sung-Hyun;Chang, Jae-Woo
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.13-17
    • /
    • 1995
  • 본 논문은 한국어 특성을 적용하여 키워드를 자동으로 추출하는 기법을 제시한다. 기존에 제안된 명사 추출 시스템인 문법형태소 네트워크를 확장하여 단일 명사 뿐만 아니라 복합 명사를 색인어로 추출한다. 복합 명사는 단일 명사에 비해 보다 한정적 개념을 가지므로, 색인어로 추출될 때 문헌의 식별력을 높일 수 있다. 복합 명사를 구성하는 각각의 단일 명사를 인식함으로써 복합 명사를 분해하고, 간단한 구단위 구문분석을 수행하는 명사 결합 규칙에 따라 단일 명사들을 복합 명사로 합성하는 방법을 제시한다. 마지막으로 이와 같이 추출된 복합 명사에, 복합 명사를 구성하는 단일 명사간의 연관성을 고려하여 보다 정확한 가중치를 부여할 수 있는 새로운 가중치 부여 방안을 제시한다.

  • PDF