• Title/Summary/Keyword: 한국어 용어

Search Result 144, Processing Time 0.024 seconds

Extending the MARTIF and TEI for Korean Lexical Entities (한국어사전 인코딩체계의 확장에 관한 연구: MARTIF와 TEI를 중심으로)

  • 백지원;최석두
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.2
    • /
    • pp.295-322
    • /
    • 2001
  • The purpose of this study is to present a scheme to encode all possible lexical entities in dictionaries, glossaries, encyclopedias, and thesaurus, etc. First, it discussed the nature and structure of dictionaries. Second, two current major terminological data encoding schemes, MARTIF and TEI were analyzed in terms of their flexibility for extension to encompass all lexical entities. Third, an integrated microstructure of dictionaries was presented and compared with the MARTIF and TEI for print dictionaries. Then, the need and 17 suggestions for extended MARTIF and TEI formats were addressed with specific cases, which combined with the suggestions from two studies concerning MARTIF and TEI DTD modification for the markup of Korean dictionary entries.

  • PDF

An Alignment Model for Extracting English-Korean Translations of Term Constituents (영-한 조어단위 대역쌍 추출을 위한 조어단위 정렬 모델)

  • Oh Jong-Hoon;Huang Jin-Xia;Choi Key-Sun
    • Journal of KIISE:Software and Applications
    • /
    • v.32 no.4
    • /
    • pp.300-311
    • /
    • 2005
  • Terms are linguistic realization of technical concepts. Term constituents are important elements used for representing the concept. Since many new terms are created from the modification or combination of existing constituents, it is important to analyze term constituents for understanding the concept of the term. It means that term constituents offer clues for understanding the concept of terms. However, there are a couple of difficulties in matching concept unit and term constituents such as mismatching between a term constituent and a concept unit, homonym of term constituents and synonym of term constituents. To solve them, it is necessary to recognize concept units of term constituents. In this paper, we define an English term constituent as the concept unit and use an alignment algorithm between English-Korean term constituents in order to recognize concept units of term constituents. By our alignment algorithm we recognize Korean term constituents corresponding to an English term constituent with about $93\%$ precision.

The Design and Implementation of Automatic Query Term Refiner for Term Expansion/Restriction in Information Retrieval (정보검색에서 질의 용어 확장/한정을 위한 자동 질의 용어 정련기의 설계 및 구현)

  • Kang, Hyun-Su;Kang, Hyun-Kyu;Lee, Yong-Seok;Kim, Young-Sum
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.65-72
    • /
    • 1998
  • 인터넷 정보 검색에서 이용자들이 주로 사용하는 질의는 2-3개의 용어로 이루어진 짧은 질의이다. 또만 동음이의어를 갖는 용어를 사용하기도 한다. 짧은 질의를 처리하는 일반적인 방법은 시소러스[8]나 Wordnet[1]을 이용한 질의 확장이다. 그러나 시소러스나 Wordnet과 같은 지식 베이스는 구축하기가 용이하지 않으며, 도메인 종속적인 면과 단어의 회귀(sparseness) 문제를 극복하기 어려운 단점이 있다. 또한 동음이의어 용어로 인하여 검색의 정확성이 털어지는 문제점이 있다. 한편, 사용자의 질의를 주의 깊게 살펴보면, 질의로부터 관련 용어 분류 정보를 추출할 수 있다. 본 논문은 사용자의 질의가 관련 용어 분류 정보에 의해 유기적으로 관계를 가지고 있다는 사실에 기인하여 관련 용어 분류 정보에 따라 자동으로 용어 확장 및 한정을 수행하며 적절한 용어 가중치를 부여하는 자동 질의 용어 정련기를 제안한다. 자동 질의 용어 정련기는 용어의 확장, 한정 및 가중치 부여를 통하여 사용자의 정보 검색 요구를 명확히 하여 검색의 정확성을 향상시킨다.

  • PDF

Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect (한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로)

  • Lee, Jae-Sung;Kim, Mi-Suk;Lee, Young-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

Suggestions for Efficient Translation of English Computer Terms into Korean Ones: An approach of Inner-Outer Compatibility Priciple Model (컴퓨터 용어의 효율적인 한글화를 위한 방안: 안-밖 합치도원리 모형의 접근)

  • Kim, Jung-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.219-227
    • /
    • 1991
  • 본 논문에서는 정보처리에 관한 일반 모형으로 제기된 안-밖 합치도원리 모형(김정호, 1986; Kim, 1986b, 1991)을 통해서 컴퓨터 용어의 효율적인 한글화를 위한 하나의 접근방법을 제시하였다. 안-밖 합치도는 인간의 정보처리 전반에 걸쳐서 인간이 주어진 환경에서 특정 정보를 구성함에 있어서 갖는 정보처리의 좋음 혹은 쉬움을 나타내는 개념이다. 여기서 중요한 것은 안-밖 합치도가 구성할 특정 정보에 상대적이라는 점이며 안-밖 합치도를 측정할 때에는 어떤 정보에 관심이 있는가의 목적을 명백히 해야 한다. 컴퓨터 용어의 효율적 한글화는 안-밖 합치도원리 모형의 관점에서 볼 때, 특정 목적을 위하여, 만들어진 한글 컴퓨터 용어와 그 용어의 사용자 간의 안-밖 합치도를 높이고자 하는 작업이라고 할 수 있다. 본 논문에서는 컴퓨터 용어의 한글화에 있어서 고려될 수 있는 목적들을 크게 경제적 목적, 문화적 목적, 및 심미적 목적 등으로 나누어 고찰하였다. 끝으로 각 목적에 따른 실제적인 연구방법을 소개하였다.

  • PDF

Terminology Tagging System using elements of Korean Encyclopedia (백과사전 기반 전문용어 태깅 시스템)

Development of Terminology Construction Tool for Disaster Safety Information Sharing (재난안전정보 공유를 위한 용어사전 구축도구 개발)

  • Kim, Tae-Young;Yang, Joogsik;Oh, Hyo Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.546-549
    • /
    • 2018
  • 다양한 재난안전 유관기관으로부터 생산 및 관리되는 재난안전정보는 공유를 통해 재난관리업무를 보다 효율적이고 신속하게 수행할 수 있도록 도와준다. 그러나 재난안전정보 공유를 위해서는 우선 재난안전 분야에서 사용되는 용어의 표준화 및 체계화가 선행되어야 한다. 특히 다양한 분야에서 축척된 용어들을 모두 종합 검토하고 형상 관리하기 위해서는 별도의 구축도구가 필요하다. 본 논문에서는 재난안전정보 용어사전 구축도구를 통해 재난안전 분야의 용어를 입력하고 정제 및 검토하는 과정을 통하여 용어 표준화를 수행하고자 한다. 특히 본 논문에서 개발된 구축도구는 웹 기반 다중접속이 가능하도록 구현되었고, 하나의 표제어에 다양한 정의문이 할당되는 일대다 관계로 용어사전을 관리하고 있어 다양한 분야에서 혼재되어 있는 정의문들을 종합적으로 관리할 수 있다는 장점이 있다. 현재는 개발된 구축도구를 활용하여 재난안전정보 용어사전을 구축 중에 있으며, 차후 구축된 용어사전을 재난안전 분야 실무자 및 일반 이용자에게 제공하기 위한 활용도구 구축 연구가 추가적으로 진행될 계획이다.

  • PDF

Alleviating Semantic Term Mismatches in Korean Information Retrieval (한국어 정보 검색에서 의미적 용어 불일치 완화 방안)

  • Yun, Bo-Hyun;Park, Sung-Jin;Kang, Hyun-Kyu
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.12
    • /
    • pp.3874-3884
    • /
    • 2000
  • An information retrieval system has to retrieve all and only documents which are relevant to a user query, even if index terms and query terms are not matched exactly. However, term mismatches between index terms and qucry terms have been a serious obstacle to the enhancement of retrieval performance. In this paper, we discuss automatic term normalization between words in text corpora and their application to a Korean information retrieval system. We perform two types of term normalizations to alleviate semantic term mismatches: equivalence class and co-occurrence cluster. First, transliterations, spelling errors, and synonyms are normalized into equivalence classes bv using contextual similarity. Second, context-based terms are normalized by using a combination of mutual information and word context to establish word similarities. Next, unsupervised clustering is done by using K-means algorithm and co-occurrence clusters are identified. In this paper, these normalized term products are used in the query expansion to alleviate semantic tem1 mismatches. In other words, we utilize two kinds of tcrm normalizations, equivalence class and co-occurrence cluster, to expand user's queries with new tcrms, in an attempt to make user's queries more comprehensive (adding transliterations) or more specific (adding spc'Cializationsl. For query expansion, we employ two complementary methods: term suggestion and term relevance feedback. The experimental results show that our proposed system can alleviatl' semantic term mismatches and can also provide the appropriate similarity measurements. As a result, we know that our system can improve the rctrieval efficiency of the information retrieval system.

  • PDF

Review on the Korean Terms of Sediment Grain Size Demonstrated in the Textbooks (교과서에서 사용하는 퇴적물의 입도에 대한 한국어 용어의 검토)

  • Kim, Jeong-Yul
    • Journal of the Korean earth science society
    • /
    • v.33 no.4
    • /
    • pp.350-359
    • /
    • 2012
  • The Korean terms of sediment grain size demonstrated in the 30 textbooks of elementary, middle, and high schools and university levels are compared and reviewed, and the problems of its use and alternative terms are proposed. The Korean terms of sediment grain size shown in the most textbooks are the translated terms of the Udden-Wentworth grade scale, and the different terms have been used in these textbooks. In the case of gravels, granule, cobble, and boulder have commonly been translated as wangmorae (king sand), janjagal (fine gravel), wangjagal (king gravel), and pyoryeog (drift gravel) or georyeog (large gravel), respectively. However, it is regarded to be reasonable that they are termed as janjagal, jungjagal (medium gravel), keunjagal (large gravel), and wangjagal, respectively. Adjectives such as 'maeu goun' (very fine), 'goun' (fine), 'junggan' (medium), 'gulgeun' (coarse), and 'maeu gulgeun' (very coarse), attached with each sediment name seem to be suitable to terms for sediments smaller than gravels. Silt has been commonly termed as misa (fine sand) in many textbooks, but it may be appropriate that silt is expressed as silt. Finally, mud, which is a mixture of silt and clay, should be named ito (mud) as shown in several textbooks including Dictionary of Korean Earth Science, though mud has been frequently termed as jinheug (slush or watery soil) in the most of textbooks for elementary and middle school students, and some high school and university textbooks.