• Title/Summary/Keyword: 고유어

Search Result 187, Processing Time 0.043 seconds

Perception of High School Students in Chonnam Province on the Meteorology Terms in Geography Textbooks of North Korean Secondary School (북한 중등과정 지리 교과서 기상학분야 용어에 대한 전남지역 고등학생들의 이해)

  • Hong, Jeong-Min;Jeong, Young-Kun
    • Journal of the Korean earth science society
    • /
    • v.27 no.1
    • /
    • pp.15-19
    • /
    • 2006
  • In this study, the meteorology terms in the geography text books of North Korea which includes all of the meteorology educational contents in secondary school curriculum are compared with those in the earth science text books in South Korea. Forty science terms which are the same meaning but composed of different words are picked up to investigate the degree for 89 high school students in Chonnam province to perceive the meanings correctly. High school students' perceptions is on the average 30% higher in terminology of South Korea textbooks than in those of North Korea. But, students' perceptions on 9 North Korean terms is rather higher compared to South Korean terms. Twenty six (83.9%) terms which are difficult for high school students to perceive correct meanings are those lately composed of North Korean native words. Most of meteorology terms in South Korean textbooks are derived from the Chinese characters or imported from foreign language terms are easier for high school students to perceive correct meanings than those of North Korean terms derived from North Korean native language.

Competitor Extraction based on Machine Learning Methods (기계학습 기반 경쟁자 자동추출 방법)

  • Lee, Chung-Hee;Kim, Hyun-Jin;Ryu, Pum-Mo;Kim, Hyun-Ki;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.107-112
    • /
    • 2012
  • 본 논문은 일반 텍스트에 나타나는 경쟁 관계에 있는 고유명사들을 경쟁자로 자동 추출하는 방법에 대한 것으로, 규칙 기반 방법과 기계 학습 기반 방법을 모두 제안하고 비교하였다. 제안한 시스템은 뉴스 기사를 대상으로 하였고, 문장에 경쟁관계를 나타내는 명확한 정보가 있는 경우에만 추출하는 것을 목표로 하였다. 규칙기반 경쟁어 추출 시스템은 2개의 고유명사가 경쟁관계임을 나타내는 단서단어에 기반해서 경쟁어를 추출하는 시스템이며, 경쟁표현 단서단어는 620개가 수집되어 사용됐다. 기계학습 기반 경쟁어 추출시스템은 경쟁어 추출을 경쟁어 후보에 대한 경쟁여부의 바이너리 분류 문제로 접근하였다. 분류 알고리즘은 Support Vector Machines을 사용하였고, 경쟁어 주변 문맥 정보를 대표할 수 있는 언어 독립적 5개 자질에 기반해서 모델을 학습하였다. 성능평가를 위해서 이슈화되고 있는 핫키워드 54개에 대해서 623개의 경쟁어를 뉴스 기사로부터 수집해서 평가셋을 구축하였다. 비교 평가를 위해서 기준시스템으로 연관어에 기반해서 경쟁어를 추출하는 시스템을 구현하였고, Recall/Precision/F1 성능으로 0.119/0.214/0.153을 얻었다. 제안 시스템의 실험 결과로 규칙기반 시스템은 0.793/0.207/0.328 성능을 보였고, 기계 학습기반 시스템은 0.578/0.730/0.645 성능을 보였다. Recall 성능은 규칙기반 시스템이 0.793으로 가장 좋았고, 기준시스템에 비해서 67.4%의 성능 향상이 있었다. Precision과 F1 성능은 기계학습기반 시스템이 0.730과 0.645로 가장 좋았고, 기준시스템에 비해서 각각 61.6%, 49.2%의 성능향상이 있었다. 기준시스템에 비해서 제안한 시스템이 Recall, Precision, F1 성능이 모두 대폭적으로 향상되었으므로 제안한 방법이 효과적임을 알 수 있다.

  • PDF

Word processing observed in an eye-tracking experiment of Korean sentence reading by Chinese-Korean late bilinguals (중국어-한국어 후기 이중언어자들의 한국어 문장 읽기 안구운동 추적 실험에서 나타난 단어 처리)

  • Choo, Hyeree;Jeon, Moongee
    • Korean Journal of Cognitive Science
    • /
    • v.35 no.3
    • /
    • pp.205-224
    • /
    • 2024
  • The reading processes of Chinese-Korean bilinguals, who have learned Korean as a foreign language, are expected to show different eye movement patterns compared to native Korean speakers. Moreover, these bilinguals may utilize knowledge similar to Chinese in processing Korean word meanings, especially for Sino-Korean words that share semantic relationships with Chinese, potentially processing them faster than native Korean words. This study observed whether Chinese-Korean bilinguals show the word frequency effect typically observed in Korean native speaker reading during Korean sentence reading. Additionally, eye-tracking experiments were conducted under conditions distinguishing between native Korean words and Sino-Korean words to investigate whether there is an advantage in processing Sino-Korean words. The results of the experiments showed that Chinese-Korean bilinguals did not show the same frequency effects as native Korean speakers, and they showed shorter response times in the Sino-Korean condition compared to the native Korean condition. Based on these findings, it is suggested that Chinese-Korean bilinguals, when learning Korean as a foreign language, employ strategies focused on meaning similarity akin to their native language vocabulary acquisition strategies, and they process Sino-Korean words faster than native Korean words, suggesting a potential advantage in learning and processing Sino-Korean vocabulary.

Probabilistic Segmentation and Tagging of Unknown Words (확률 기반 미등록 단어 분리 및 태깅)

  • Kim, Bogyum;Lee, Jae Sung
    • Journal of KIISE
    • /
    • v.43 no.4
    • /
    • pp.430-436
    • /
    • 2016
  • Processing of unknown words such as proper nouns and newly coined words is important for a morphological analyzer to process documents in various domains. In this study, a segmentation and tagging method for unknown Korean words is proposed for the 3-step probabilistic morphological analysis. For guessing unknown word, it uses rich suffixes that are attached to open class words, such as general nouns and proper nouns. We propose a method to learn the suffix patterns from a morpheme tagged corpus, and calculate their probabilities for unknown open word segmentation and tagging in the probabilistic morphological analysis model. Results of the experiment showed that the performance of unknown word processing is greatly improved in the documents containing many unregistered words.

Korean Electronic Dictionary of Encyclopedic Nouns I. - Nouns related to Human Names - (검색 엔진을 위한 '백과 명사' 전자 사전의 구축 (I) <인명 관련 백과 명사의 연구>)

  • Nam, Jee-Sun;Lee, Ju-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.304-315
    • /
    • 1998
  • 정보 검색 시스템에서 가장 문제가 되는 어휘 클라스는 소위 '고유 명사'와 '합성 명사'로 분류되는 명사 유형이다. 이들 클라스는, 기존 대사전 및 전자 사전 (MRD)류에서, 그 어휘 목록을 체계적으로 제공하지 못하는 가장 대표적인 부류들인데, 실제 검색 시스템에서는 많은 경우 정보의 핵심어 (Key Word)가 된다. 본 연구에서는 신문, 잡지등 시사 문서류에서 가장 빈번히 발견되는 명사 유형의 하나인, '인명 관련 고유 명사' 유형에 대한 문제에 그 논의의 촛점을 두고, 이들 명사들의 체계적인 처리를 위해서 어떠한 형태로 사전을 구성해야 하는지를 검토할 것이다. '고유 명사'라는 개념 자체가 지니고 있는 외연적 정의상의 문제점을 극복하기 위해서 우리는 '백과 명사 (Encyclopedic Noun)'라는 용어를 사용하기로 하며, 이는 좁은 의미의 고유 명사 및, 전문어, 고유 명사 관련 파생-복합어류 등을 포함하는, 보다 확장된 개념으로 이해되어야 한다. <인명> 관련 백과 명사류의 하위 유형 분류 및 그 특징적 결합어 형태(Appropriate Particle)에 대한 연구 결과들이 소개된다.

  • PDF

Resolution of Context Anaphora for Text Summarization (문서요약을 위한 조응 대용 해결)

  • 김상수;김계성;노태길;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.679-681
    • /
    • 2002
  • 한 문서에서 동일한 개체(Entity)를 지칭하는 고유명사가 다른 형태로 출현하는 현상은 문서요약의 품질을 떨어지게 만드는 요소이다. 이런 문제를 해결하기 위해서는 각각의 고유명사 및 지칭어를 인식하고 이들간의 상관 관계를 밝혀야 한다. 본 논문에서는 이런 문제를 개체명 조응 대용 관계로 정의하고 출현 특성에 따라 분류한 후 특성에 맡는 처리 방법을 보인다. 이를 위하여 고유명사의 조응 출현 양상에 따른 휴리스틱을 만들고, 고유명사를 지칭하는 명사들의 시소러스를 구축한 후 이들을 처리하는 방법을 제안한다.

  • PDF

Characteristics of Fish Fauna and Community Structure in Ungcheon Stream due to the Environmental Changes (환경변화에 따른 웅천천의 어류상과 어류 군집 특성)

  • Jung, Hwa-Young;Kim, Kyeong-Hwan;Song, Mi-Young;Lee, Wan-Ok
    • Korean Journal of Environment and Ecology
    • /
    • v.28 no.3
    • /
    • pp.314-325
    • /
    • 2014
  • We studied fish fauna at 10 study sites in Ungcheon stream for 4 times from April to October, 2011 to investigate the influence of artificial structures such as dam (with fish-way) and weir (without fish-way), and abandoned mine on fish community. A total of 12 families, 36 species of fishes were collected. Dominant species was Zacco platypus (23.4%) and subdominant species was Zacco koreanus (20.5%). Ten species (27.8%) of Korean endemic species and Micropterus salmoides, exotic species, were observed during the study period. Endangered species of Korea such as Pseudopungtungia nigra and Liobagrus obesus, and Korean endemic species, Coreoperca herzi, which are vulnurable for water quality and had been observed in previous study, were not identified in this study. According to the cluster analysis, Ungcheon stream were divided into three groups consisting upstream (St.1, St.2, St.3), midstream (St.4, St.5, St.6, St.7), downstream (St.8, St.9, St.10). Community structure similarity between upper and lower site of Boryeong dam with fish-way (St.6-St.7) was high, whereas that of weir, lack of fish-way (St.7-St.8) showed little similarity indicating that fish-way was required. According to the canonical correlation analysis, high level of conductivity and salinity at upstream was detected and Misgurnus mizolepis, and endemic species of Korea such as Silurus microdorsalis, Coreoleuciscus splendidus and Iksookimia koreensis were observed at this part of the stream. Since Korean endemic species, Squalidus gracilis majimae cohabit with exotic species, M. Salmoides at downstream whose width is wide and water velocity is low, protection was needed for these endemic species.

Document Thematic words Extraction using Principal Component Analysis (주성분 분석을 이용한 문서 주제어 추출)

  • Lee, Chang-Beom;Kim, Min-Soo;Lee, Ki-Ho;Lee, Guee-Sang;Park, Hyuk-Ro
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.10
    • /
    • pp.747-754
    • /
    • 2002
  • In this paper, We propose a document thematic words extraction by using principal component analysis(PCA) which is one of the multivariate statistical methods. The proposed PCA model understands the flow of words in the document by using an eigenvalue and an eigenvector, and extracts thematic words. The proposed model is estimated by applying to document summarization. Experimental results using newspaper articles show that the proposed model is superior to the model using either word frequency or information retrieval thesaurus. We expect that the Proposed model can be applied to information retrieval , information extraction and document summarization.

A Method for Acronym Sense Tagging (두문자어 의미 태깅 방법)

  • Hwang, Myung-Gwon;Jeong, Do-Heon;Sung, Won-Kyung
    • Annual Conference of KIPS
    • /
    • 2011.04a
    • /
    • pp.1199-1201
    • /
    • 2011
  • 본 논문은 의미적 정보처리에서 걸림돌이 되는 두문자어(Acronym)의 의미처리를 위한 전체적인 구조설계를 포함하고 있다. 두문자어는 일반적으로 복합어에서 의미가 큰 단어의 첫 번째 문자들로 구성된다. 두문자어를 구성하는 복합어는 다른 일반 명사들과 달리 대부분 고유한 의미를 갖고 있기 때문에 정보처리에서 의미 파악의 핵심적인 역할을 수행할 수 있다. 본 논문은 문서에서 출현하는 두문자어의 정확한 의미를 판단하기 위한 방법을 제안하며 현재까지 진행된 결과에 대해 언급하도록 한다.