Search | Korea Science

An Experimental Approach of Keyword Extraction in Korean-Chinese Text (국한문 혼용 텍스트 색인어 추출기법 연구 『시사총보』를 중심으로)

Jeong, Yoo Kyung;Ban, Jae-yu
- Journal of the Korean Society for information Management
- /
- v.36 no.4
- /
- pp.7-19
- /
- 2019
The aim of this study is to develop a technique for keyword extraction in Korean-Chinese text in the modern period. We considered a Korean morphological analyzer and a particle in classical Chinese as a possible method for this study. We applied our method to the journal "Sisachongbo," employing proper-noun dictionaries and a list of stop words to extract index terms. The results show that our system achieved better performance than a Chinese morphological analyzer in terms of recall and precision. This study is the first research to develop an automatic indexing system in the traditional Korean-Chinese mixed text.
https://doi.org/10.3743/KOSIM.2019.36.4.007 인용 PDF KSCI

A Comparative Study on Oriental Medicine Terminology of North md South Korea (남북한 한의학 전문용어 비교: 국역 향약집성방을 중심으로)

이경미
- Proceedings of the Korean Society for Information Management Conference
- /
- 2001.08a
- /
- pp.11-16
- /
- 2001
본 연구에서는 남북한 한의학 용어의 상이한 정도를 파악하기 위하여 남북한에서 각각 국역된 향약집성방의 용어를 침구목록, 병문, 병증, 처방, 향약본초, 단위, 신체부위 부문으로 나누어 분석하였다. 그 결과, 남한의 한자어, 두음법칙 등의 경향과, 북한의 말다듬기, 두음법칙의 무시 등의 경향으로 상당한 용어상의 괴리가 있다는 것을 발견하였다.
PDF

A Study on the Arabic numeral reading rules in Modern Korean (현대 한국어에서 아라비안 숫자의 읽기 규칙 연구)

Jung, Young-Im;Kim, Jeong-Se;Kim, Sang-Hoon;Lee, Young-Jik;Yoon, Ae-Sun
- Annual Conference on Human and Language Technology
- /
- 2002.10e
- /
- pp.16-23
- /
- 2002
본 논문에서는 아라비안 숫자를 포함한 텍스트를 음성으로 합성하기 위하여, 숫자 형태와 분류사 그리고 숫자가 나오는 문맥에 따라 숫자를 자동으로 문자화할 수 있는 전처리 규칙을 설정하는데 목적을 둔다. 먼저 선행연구를 통해 숫자를 포함한 수사 및 수사표현의 읽기 규칙의 적용 범위 및 한계점을 살펴보고, 음성 합성을 위한 아라비안 숫자의 문자화 규칙을 설정하고자 한다. 현대 한국어에서 아라비안 숫자를 읽는 방식은 크게 고유어 방식과 한자어 방식이 있으며 단(單)단위에서는 영어가 사용되기도 한다. 또한 한자어 방식에서도 단위를 붙여 읽는 경우와 모든 수를 단 단위로 읽는 경우가 있으므로, 아라비안 숫자의 문자화를 단순한 규칙을 설정하여 자동화하기에는 중의성이 높다. 본 연구에서는 (1) 숫자 전 전치어(pre-numeral), (2) 기호를 포함한 숫자열의 표현 형식과 크기, (3) 단위 표현, (4) 숫자 후치어(post-numeral), (5) 분류사(classifier) (6) 분류사 후치어(post-classifier), (7) 수사표현 앞뒤 문맥에 따라, 아라비안 숫자표현이 문자화되는 방식을 살펴보았다. 분석 대상 말뭉치는 C 신문의 2000년 1월부터 2000년 4월까지 전체 기사 1,400건에서 숫자가 포함된 숫자표현 약 63,000개론 구성하였다. 패턴화된 구조 및 중의성이 없는 구조를 12가지로 밝히고 중의성이 있는 구조의 유형을 밝혔으며 분류사 후치어와의 결합 관계, 좌우 문맥정보를 통해 중의성 해결의 단서를 제시하고자 하였다.
PDF

Effects of orthographic and morphological frequency of a syllable in Korean word recognition (한국어 음절의 표기빈도와 형태소빈도가 단어인지에 미치는 효과)

Yi, Kwang-Oh;Bae, Sung-Bong
- Korean Journal of Cognitive Science
- /
- v.20 no.3
- /
- pp.309-333
- /
- 2009
Two experiments were conducted to examine the role of Kulja and morpheme in processing two-syllable Sino-Korean words. In Experiment 1, the effects of morphemic frequency were not significant at the initial and final positions of a word while Kulja frequency and Kulja-morpheme correspondence at both positions in a word had a significant impact on the processing of nonwords. Lexical decision times were longer for nonwords with high frequency Kulja and for nonwords with ambiguous Kulja-morpheme correspondence whose Kulja can go with many different morphemes. In Experiment 2 Kulja-morpheme correspondence was examined for words as well as nonwords. Lexical decisions were slower for stimuli with ambiguous Kulja-morpheme correspondence. The effect was more stable for nonwords, which replicated the result of Experiment 1. In sum, the results of this study suggest that words with ambiguous Kulja-morpheme correspondence activate many different morphemes and competition among these morphemic candidates slows down the lexical selection process. Kulja frequency, Kulja neighborhood, morphemic frequency, morphological neighborhood, and Kulja-morpheme correspondence in Korean word recognition were also discussed.
PDF

A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX (한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX)

Kim, Nam-Churl;Seo, Young-Hoon
- Annual Conference on Human and Language Technology
- /
- 1999.10d
- /
- pp.50-59
- /
- 1999
본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.
PDF

Lexical Analysis of Dictionary Definitions for Constructing Semantic Networks (명사류 의미망 구축을 위한 사전 뜻풀이의 어휘구조분석)

Han, Young-Gyun
- Annual Conference on Human and Language Technology
- /
- 1994.11a
- /
- pp.326-332
- /
- 1994
본 연구에서는 중사전 규모의 현대국어사전에서 약 5,000 개의 표제항목의 뜻풀이 8,000여 항에 사용된 어휘를 분석한 결과를 제시하였다. 분석 결과 명사류의 의미구조에서 최상위계층에 속하는 것들이 사전의 뜻풀이에 자주 사용됨을 확인할 수 있었고, 아울러 뜻풀이에 사용되는 단어들이 어느 정도 통제된 상태임을 알 수 있었다. 그러나 표제항목과 뜻풀이에 사용된 단어들 사이의 관계만을 바탕으로 해서는 의미망을 구축하기 어려웠는데, 그것은 국어사전에서의 뜻풀이가 지니고 있는 구조적 문제에서 기인하는 것이다. 즉 일부 한자어의 경우에는 명사로 정의되지 않으며, 그 결과 표제명사와 뜻풀이에 사용된 명사 사이의 관계를 바탕으로 한 의미망의 구축에 포함되지 않는 것이다. 또한 순환적 뜻풀이의 경우 역시 의미망 구축에 장애요소로 작용함을 밝혔다.
PDF

A Segmentation Method of Compound Nouns Using Syllable Preference (선호 음절 정보를 이용한 복합명사의 분해 방법)

Park Chan-Ee;Ryu Bang;Kim Sang-Bok
- Journal of Korea Multimedia Society
- /
- v.9 no.2
- /
- pp.151-159
- /
- 2006
The ratio of a segmentation algorithm of compound nouns causes an effect a lot in nouns which are not in the dictionary. The structure of Korean compound nouns are mostly derived from the Chinese characters and it includes some preference ratio. So it will be able to use segmentation rule of compound nouns. This paper suggests a segmentation algorithm using some preference ratio of Korean compound nouns which are not in the dictionary. The experiment resulted in getting 88.49% of correct segmentation and showed effective result from the comparative experimentation with other algorithm.
PDF

Derivational Morphology in a Tagged Corpus (형태소 분석 말뭉치의 파생명사 처리)

차준경;강범모
- Proceedings of the Korean Society for Cognitive Science Conference
- /
- 2000.06a
- /
- pp.390-394
- /
- 2000
이 논문은 형태소 분석 말뭉치를 구축하면서 제기되었던 파생 명사 처리의 문제점을 논의하고 그 해결 방안을 모색한 것이다. 파생 명사의 분석에서 국어학적·전산 언어학적으로 유의미한 분석 범위를 정할 때 몇가지 고려해야 할 사항이 있다. 접두사는 어기가 불규칙하므로 규칙으로 자동처리가 어렵다. 형태소 분석의 대상은 생산성이 높고, 어기와 범주를 변화시키는 서술성 접두사로 그 범위를 정할 수 있을 것이다. 접미사의 분석은 생산성이 높고 규칙적인 굴절 접미사가 분석의 대상이 되며, 또한 서술성을 갖는 한자어계 접미사도 분석 대상이 된다. 파생 명사의 분석에 있어서 접사는 그 위상이 동요되므로 접두사는 고나형사와 구별이 어렵고, 접미사는 의존명사와 구별이어렵다. 그러므로, 대용량의 형태소 분석 말뭉치를 효율적으로 구축하기 위해서는 접사에 대한 다각적인 검토가 필요할 것이다.
PDF

The difference in the representation of Korean Noun Eojeol in the mental lexicon based on its etymology (한국어 명사어절의 어원에 따른 심성어휘집 표상 양식의 차이)

Yoon, Ji Min;Nam, Ki Chun
- Annual Conference on Human and Language Technology
- /
- 2009.10a
- /
- pp.258-261
- /
- 2009
한국어에서 어절은 띄어쓰기 단위이며 한국어의 두드러진 특징 가운데 하나이다. 본 연구에서는 명사에 조사가 결합된 명사어절의 처리 과정에 대해서 밝히고자 이 과정에 관여하는 빈도효과를 측정하였다. 즉, 명사의 빈도와 어절의 빈도를 조작하여 어절의 의미를 판단하는데 걸리는 반응시간을 측정하였다. 실험 결과, 자극을 제시한 방법에 차별을 둔 실험 1과 실험 2의 결과에서 모두 어절빈도의 주효과가 유의미한 것으로 관찰되었다. 그러나 명사빈도의 주효과는 실험 2에서만 관찰되었고, 상호작용효과는 실험1과 실험2 모두 관찰되지 않았다. 또한, 한국어의 어원에 따른 즉 다시 말해, 한국어 명사를 한자어, 고유어, 외래어로 분류하여 어원에 따른 심성어휘집 표상 양식의 차이를 구별하여 보고 이를 토대로 더욱 세부적인 한국어 명사어절의 처리 과정을 규명하여 보고자 한다.
PDF

한국의 전통 - 우리 술 이야기

Kang, Seong-Eun
- 식품문화 한맛한얼
- /
- v.2 no.1
- /
- pp.42-45
- /
- 2009
술! 우리 주변에서 쉽게 접할 수 있는 술. 이 술이라는 말에는 어떤 뜻이 내포되어 있을까? 현재 우리가 사용하고 있는 술이라는 말은 본래 '수불'이라고 불렸다고 한다. 물과 불! 우리 선조들은 술을 빚는 과정에서 효모가 생성하는 이산화탄소에 의해 술덧(술밑) 표면에 거품이 생기는 현상을 보고는 물에 불이 붙어서 부글부글 끓어오르는 것으로 생각하고 '수불'이라고 표현한 것 같다. 어찌 보면 비약적인 해석일 수 있으나 우리 선조들이 말 속에 과학 현상을 잘 표현한 것이라 할 수도 있다. 술의 한자어인 주(酒)는 물 수(水)자와 본래 술을 뜻하는 유(酉)자가 합쳐진 것으로 '물이 익은 것' 이라는 뜻이 내포되어 술이 만들어지는 현상을 표현한 것이라면, 술이라는 말은 효모에 의해 술이 만들어지는 과정의 일부를 과학적으로 표현한 말이라고 할 수 있다. 또 이 말 속에는 끓는다는 뜻의 라틴어 'ferverve'에서 유래된 'fermentation', 즉 발효의 의미도 포함되어 있다. 이러한 뜻을 내포하고 있는 술에 대해 우리나라 주세법에서는 알코올 도수 1% 이상의 음용 가능한 것이라고 정의하고 있으나, 각각의 개인이 내리는 술에 대한 정의는 천차만별일 것이다.
PDF

Search Result 55, Processing Time 0.029 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)