• Title/Summary/Keyword: 약어 생성

Search Result 11, Processing Time 0.02 seconds

Korean Abbreviation Generation using Sequence to Sequence Learning (Sequence-to-sequence 학습을 이용한 한국어 약어 생성)

  • Choi, Su Jeong;Park, Seong-Bae;Kim, Kweon-Yang
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.3
    • /
    • pp.183-187
    • /
    • 2017
  • Smart phone users prefer fast reading and texting. Hence, users frequently use abbreviated sequences of words and phrases. Nowadays, abbreviations are widely used from chat terms to technical terms. Therefore, gathering abbreviations would be helpful to many services, including information retrieval, recommendation system, and so on. However, manually gathering abbreviations needs to much effort and cost. This is because new abbreviations are continuously generated whenever a new material such as a TV program or a phenomenon is made. Thus it is required to generate of abbreviations automatically. To generate Korean abbreviations, the existing methods use the rule-based approach. The rule-based approach has limitations, in that it is unable to generate irregular abbreviations. Another problem is to decide the correct abbreviation among candidate abbreviations generated rules. To address the limitations, we propose a method of generating Korean abbreviations automatically using sequence-to-sequence learning in this paper. The sequence-to-sequence learning can generate irregular abbreviation and does not lead to the problem of deciding correct abbreviation among candidate abbreviations. Accordingly, it is suitable for generating Korean abbreviations. To evaluate the proposed method, we use dataset of two type. As experimental results, we prove that our method is effective for irregular abbreviations.

Construction of Korean acronym dictionary by considering ways of making acronym from definition (약어 생성 유형을 고려한 한국어 약어 사전 자동 구축)

  • Yoon, Yeo-Chan;Song, Young-In;Lee, Joo-Young;Lim, Hae-Chang
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.81-85
    • /
    • 2006
  • 본 논문에서는 한국어 고유명사 약어 사전을 자동으로 구축하기 위한 방법론을 제안한다. 본 논문은 원어로부터 약어가 생성되는 방식을 네 가지 유형으로 분류 한 후 각 유형에 따라 가능한 약어의 후보들을 생성하여 원어, 약어 후보 쌍을 수집하고, 수집 된 각 쌍에 대하여 확률적모형에 근거, 실제 사용되는 원어, 약어 쌍을 선별하여 사전에 등재함으로써 자동으로 사전을 구축 할 수 있도록 한다.

  • PDF

Semantic Dependency Link Topic Model for Biomedical Acronym Disambiguation (의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소)

  • Kim, Seonho;Yoon, Juntae;Seo, Jungyun
    • Journal of KIISE
    • /
    • v.41 no.9
    • /
    • pp.652-665
    • /
    • 2014
  • Many important terminologies in biomedical text are expressed as abbreviations or acronyms. We newly suggest a semantic link topic model based on the concepts of topic and dependency link to disambiguate biomedical abbreviations and cluster long form variants of abbreviations which refer to the same senses. This model is a generative model inspired by the latent Dirichlet allocation (LDA) topic model, in which each document is viewed as a mixture of topics, with each topic characterized by a distribution over words. Thus, words of a document are generated from a hidden topic structure of a document and the topic structure is inferred from observable word sequences of document collections. In this study, we allow two distinct word generation to incorporate semantic dependencies between words, particularly between expansions (long forms) of abbreviations and their sentential co-occurring words. Besides topic information, the semantic dependency between words is defined as a link and a new random parameter for the link presence is assigned to each word. As a result, the most probable expansions with respect to abbreviations of a given abstract are decided by word-topic distribution, document-topic distribution, and word-link distribution estimated from document collection though the semantic dependency link topic model. The abstracts retrieved from the MEDLINE Entrez interface by the query relating 22 abbreviations and their 186 expansions were used as a data set. The link topic model correctly predicted expansions of abbreviations with the accuracy of 98.30%.

An Automated Transformation of XML Documents (XML 문서의 자동변환)

  • 이준승;신동훈;이경호
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.822-826
    • /
    • 2004
  • XML 문서가 인터넷을 비롯한 다양한 분야에서 정보 교환을 위한 표준으로 널리 사용되면서 XML 문서의 변환에 대한 필요성이 증가하고 있단 본 논문에서는 XML 문서의 자동 변환 방법을 제안한다. 제안된 방법은 스키마 매칭과 XSLT 스크립트 생성의 두 단계로 구성된다. 특히, 제안된 방법은 정교한 수준의 스키마 매칭을 위해서 동의어 사전, 축약어 사전, 도메인 온톨로지 등의 부가정보를 활용한다. 또한 기존 연구와 비교하여 보다 빠른 변환 속도를 지원하는 XSLT 스크립트를 생성한다.

  • PDF

A review on the method of coined words by Korean and Chinese characters (한·중 인물지칭 신어 조어방식에 관한 고찰 - 2017년과 2018년을 중심으로 -)

  • Wang, Yan
    • Journal of Convergence for Information Technology
    • /
    • v.12 no.3
    • /
    • pp.178-185
    • /
    • 2022
  • This study compared and analyzed the characteristics of new words by classifying 197 newly coined Korean and Chinese characters in 2017 and 2018 into single, compound, derivative, abbreviated, and hybrid words according to the coined method. In the case of a single language, Korean is all words borrowed from Chinese and English. However, no monolingual language appeared in Chinese. In the case of compound words, the format of the Chinese synthesis method was much more diverse and the generative power was stronger than that of Korea. In the case of derivatives, there are not many prefixes in both countries, and Korean suffixes have the strongest productivity of Chinese suffixes and weak productivity of foreign and native suffixes. Korean foreign language suffixes were characterized by relatively more appearance than Chinese. In the case of abbreviations, it can be seen that the productivity of dark syllables is stronger for Korean abbreviations, and the productivity of empty syllables is stronger for Chinese abbreviations. In the case of mixed languages, the hybrid form of Korean was much more diverse than that of Chinese. Through this study, it will be possible to help Chinese Korean learners understand the process of forming a new language, and to develop their ability to guess the meaning of Korean words while learning a new language.

Text Preprocessor for Generating Korean Automatic Pronunciation Variants Using Morpheme-trg Information (한국어 발음열 자동 생성을 위한 형태소 태그 정보 기반의 텍스트 전처리기)

  • 이경님;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.199-201
    • /
    • 2001
  • 일반적으로 발음열 자동 생성기는 음성 인식 및 음성 합성에 사용되며, 그 주된 역할은 입력된 한글 철자에 대해 발음 나는 데로 표기된 음소열로 출력하는 것이다. 그러나 실제 입력되는 문장에는 특수 기호 및 알파벳. 아라비아 숫자, 영어 단어, 알파벳과 숫자가 혼용된 약어, 기호 단위 명사 등이 포함되어 있다. 게다가 아라비아 숫자의 경우 단위 명사의 종류에 따라서 뿐만 아니라, 문맥에 따라 숫자를 읽는 방식이 달라지게 된다. 이러한 모든 현상들을 발음열 생성기 내부에서 처리하게 되면 선행작업이 상대적으로 크게 되어 과부하 문제 가 발생된다. 또한 어절 내의 문맥 정보만으로 정확한 변환 결과를 얻기 힘들기 때문에 형태소 분석 수행 결과 및 예외처리를 위 한 루틴을 포함하여 한글 자소 단위의 입력형식으로 변환하는 전처리 시스템을 구성하였다.

  • PDF

Wortschatzarbeit in der Wortbildung und ihre didaktische $Vorschl\"{a}ge$ (조어론에 있어서의 어휘연습과 교수법 제언)

  • Jang Ki-Sung;Jung Hyun-Sook
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.3
    • /
    • pp.233-252
    • /
    • 2001
  • 1970년이래 외국어학습 및 교수법에 있어서 어휘에 관련된 문제들에 많은 관심과 그 중요성이 인식되고있다. 특히 Fleischer/Buz (1992)등에 의한 당해 영역의 연구물 뿐 아니라, 전문서적 및 어학 자료(교재)등에서도 이러한 중요성이 강조되어 왔음을 알 수 있다. Fleischer등은 조어규칙의 개념과 조어모델을 규정하는 근거들로 생산성 Produktivitat, 용인성 Akzeptabilitat, 조어참여성 Aktivitat등 중요한 매개요인으로 간주하고 있으며 $G\"{o}tze/ Hess-Luttich$ (1999)등의 학자들은 어휘체계에서 두 개 이상의 구성성분들이 결합하여 당해 시대의 시대정신이나 시대상에 부합되는 신조 어휘들을 생성하며, 또한 그 사회의 정보화와 기술화에 이바지하며, 이를 통해서 전문어의 생산력을 한층 높혀 주는 통로로 작용함을 주장한바 있다. 본고에서는 조어론의 이러한 기본원리나 개념들에 입각하여 독일어 수업에서 목표어의 습득에 관여적인 역할을 수행하는 조어모델, 즉 합성어와 파생어를 형용사와 명사의 층위에서 구체적으로 분석하고 기술했다. 예컨데, 합성어에 있어서 접두사와 접미사, 조어의 유형 가운데 축약어, 그리고 외래어 기저와 고유어 접미사 및 접두사, 고유어기저와 외래어접미사(접두사) 뿐만 아니라, 의미론적 관점에서 본 합성어의 형태, 합성 연결소의 형태와 기호의 사용, 명사적 파생어에서 고유어접미사(접두사), 축약조어와 축약어 단어형성, 형용사조어의 특성, 명시적파생 가운데 고유어(외래어) 접미사(접두사) 등이 어휘생성과 어휘신장의 관점에서 교수법의 적용가능성이 논의되었다. 결론부에서는 외국어를 습득하고자하는 학습자에게 일방적이고 획일적인 암기식 위주의 어휘학습방법에서 벗어나, 목표어가 요구하는 새로운 어휘를 획득하는데 비교적 용이하며 또한 체계적으로 습득 할 수 있도록 인지론에 기대어 텍스트, 문장, 어휘영역 등이 투입되어 적용되었으며, 이에 상응되게 구체적인 몇몇 방안들이 제시되었다. 학습자들이 텍스트를 읽고 중심내용을 찾아내며, 단락을 구획하고 또한 체계를 파악하는데 있어서 어휘연습은 외국어 교수법 측면에서도 매우 관여적이며 시의적절한 과제라 생각된다.

  • PDF

A Study on Java Information Extractor using JML Document (JML 문서를 이용한 자바 정보 추출기에 대한 연구)

  • Jang, Geun-Sil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.173-176
    • /
    • 2001
  • XML을 중심으로 많은 컴퓨팅 분야에서 다양한 연구가 이루어지고 있는데, 이는 기존의 웹 정보 표현 언어인 HTML이 갖는 부족한 부분을 해결할 수 있는 XML의 특징 때문이다. JML은 Java Markup Language의 약어로서 Java로 작성된 원시코드의 정보를 다양한 목적으로 이용하는데 적합하도록 작성된 XML의 응용으로 클래스 계층구조나 클래스 관계성 및 메소드 등에 관련된 다양한 정보를 효과적으로 표현할 수 있는 DTD를 포함한다. 본 연구의 목적은 역공학 측면에서의 JML의 응용으로, JML문서에 포함된 정보로부터 Java 응용 프로그램의 스켈레턴 코드를 생성하는데 있다. 본 연구의 의미는 기존에 수행된 Java 응용 프로그램의 정보를 추출하여 JHL문서를 생성해 주는 도구와 접목시킴으로써 순방향과 역방향 측면에서 모두 접근가능한 도구를 제공하는데 있다.

  • PDF

A Study on the Creation of Hybrid Bibliographic Records (국내 하이브리드 서지레코드 생성 방안에 관한 연구)

  • Lee, Mihwa
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.49 no.4
    • /
    • pp.203-220
    • /
    • 2015
  • This study was to suggest the creation of hybrid bibliographic records in complicated bibliographic environment applying both AACR2 and RDA for uniform display and correct search. The literature reviews and case studies were used as the research methods. In case studies, Kent State University, University of Houston as the libraries, and Backstage Library Works as algorithm converting to hybrid records were surveyed. For creating the hybrid records, it was needed to differentiate hybrid records and born RDA records, to keep the data that appeared in 250 tag without spelling out edition data, to maintain 260 tag instead of converting 260 tag to 264 tag, and last to design mapping table for converting GMD to CMC. This study would suggest uniform display and search through hybridization of bibliographic records of foreign resources.

A Recovery Method of External Symbol Information in Statically-Linked ELF Files (정적 링크된 ELF 파일에서의 외부 심볼 정보 복구 기법)

  • Kim, Jung-In
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.2
    • /
    • pp.161-170
    • /
    • 2010
  • ELF, an abbreviation for Executable and Linkable Format, is the basic file format for shared libraries and executable files used in the Linux system, whereas 'Linker' copies the symbol information of static shared libraries into the symbol table in the target file generated by way of static linking. At this time, the symbol table keeps various pieces of debugging-related information including function names provided by the shared libraries, and it can be deleted to avoid debugging for security reasons by utilizing the fact that it does not directly affect the program execution. This paper proposes a method for restoring the symbol information of static shared libraries from the ELF object file in which the symbol table is deleted, and confirms that the symbol information is restored by conducting practical experiments.