• 제목/요약/키워드: 동형 이의어

검색결과 62건 처리시간 0.025초

사전 뜻 풀이말에서 구축한 한국어 명사 의미 계층구조 (A Semantic Hierarchy of Korean Nouns using the Definitions of Words in a Dictionary)

  • 조평옥;안미정;옥철영;이수동
    • 인지과학
    • /
    • 제10권4호
    • /
    • pp.1-10
    • /
    • 1999
  • 한국어 명사들을 의미별로 분류하여 계층화시킨‘한국어 명사 의미 계층 구조’는, 한국어 문장을 처리할 때 의미 정보를 제공할 수 있는 매우 중요한 것들 중의 하나이다. 본 논문에서는, 국어 사전의 명사에 대한 뜻 풀이말을 이용하여 bottom-up 방식으로‘한국어 명사 의미 계층 구조’를 구축하였다. 본 논문에서 구축한‘한국어 명사 의미계층 구조’는, 트리(tree)가 43개, 중간 노드(node)가 2,443개, 단말 노드(terminal node)가 10,347개이며, 깊이(depth)가 17인 하나의 포리스트(forest)를 이룬다. 이것의 제 1, 2 계층(level 1, 2)에서의 분류 형태는 top-down 방식에 의한 기존의 분류들과 매우 다른 모습인 반면에, 제 3 이하의 계층들은 상당히 객관적이 형태를 이루고 있다.

  • PDF

사전 뜻 풀이말에서 구축한 한국어 명사 의미 계층구조 (A Semantic Hierarchy of Korean Nouns using the Definitions of Words in a Dictionary)

  • 조평옥;안미정;옥철영;이수동
    • 인지과학
    • /
    • 제10권3호
    • /
    • pp.1.1-10
    • /
    • 1999
  • 한국어 명사들을 의미별로 분류하여 계층화시킨‘한국어 명사 의미 계층 구조’는, 한국어 문장을 처리할 때 의미 정보를 제공할 수 있는 매우 중요한 것들 중의 하나이다. 본 논문에서는, 국어 사전의 명사에 대한 뜻 풀이말을 이용하여 bottom-up 방식으로‘한국어 명사 의미 계층 구조’를 구축하였다. 본 논문에서 구축한‘한국어 명사 의미계층 구조’는, 트리(tree)가 43개, 중간 노드(node)가 2,443개, 단말 노드(terminal node)가 10,347개이며, 깊이(depth)가 17인 하나의 포리스트(forest)를 이룬다. 이것의 제 1, 2 계층(level 1, 2)에서의 분류 형태는 top-down 방식에 의한 기존의 분류들과 매우 다른 모습인 반면에, 제 3 이하의 계층들은 상당히 객관적이 형태를 이루고 있다.

한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소 (Word Sense Disambiguation using Korean Word Space Model)

  • 박용민;이재성
    • 한국콘텐츠학회논문지
    • /
    • 제12권6호
    • /
    • pp.41-47
    • /
    • 2012
  • 한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다. 세종 형태의미분석 말뭉치를 사용하여 학습하고 임의의 200문장(583 단어 종류)에 대해 평가한 결과, 정확도가 94%로 기존의 방법에 비해 매우 우수했다.

영어 동형이의어의 강세실현에 관한 연구 (A Study on the Stress Realization of English Homographic Words)

  • 김옥영;구희산
    • 말소리와 음성과학
    • /
    • 제2권2호
    • /
    • pp.51-60
    • /
    • 2010
  • This study is to examine how Korean speakers realize English stress on the homographic words. Experiments were performed by Korean speakers three times, before stress instruction, immediately after instruction, and six weeks after instruction. First, duration, fundamental frequency, and intensity of the vowel in a stressed syllable of three homographic words produced by Korean speakers were compared with those of native speakers of English. The result shows that when the words were used as nouns, before instruction Korean speakers had shorter duration and lower fundamental frequency in the stressed vowel than the native speakers, which indicates that Korean speakers did not assign the primary stress on the first syllable of the nouns. After instruction, the values of duration and fundamental frequency were increased and the differences between two groups were decreased. Next, the values of these stress features measured three times were analyzed in order to find out how they changed through instruction. The analysis shows that after instruction the values of three features were increased compared to the ones before instruction, and that the biggest change was in duration of the vowel and the next was fundamental frequency. Six weeks after instruction, the values of duration and intensity were decreased than those immediately after instruction. This means that instruction is helpful for Korean speakers to assign the stress for the English homographic words, and that instruction and practice are needed repeatedly.

  • PDF

확률적 문법규칙에 기반한 국어사전의 뜻풀이말 구문분석기 (A Parser of Definitions in Korean Dictionary based on Probabilistic Grammar Rules)

  • 이수광;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권5호
    • /
    • pp.48-460
    • /
    • 2001
  • 국어사전의 뜻풀이말은 표제어의 의미를 기술할 뿐만 아니라, 상위/하위개념, 부분-전체개념, 다의어, 동형이의어, 동의어, 반의어, 의미속성 등의 많은 의미정보를 내재하고 있다. 본 연구는 뜻풀이말에서 다양한 의미정보를 획득을 위한 기본적인 도구로서 국어사전의 뜻풀이말 구문분석기를 구현하는 것을 목적으로 한다. 이를 위해서 우선 국어사전의 뜻풀이말을 대상으로 일정한 수준의 품사 및 구문 부착 말 뭉치를 구축하고, 이 말뭉치들로부터 품사 태그 중의성 어절의 빈도 정보와 통계적 방법에 기반한 문법규칙과 확률정보를 자동으로 추출한다. 본 연구의 뜻풀이말 구문분석기는 이를 이용한 확률적 차트파서이다. 품사 태그 중의성 어절의 빈도 정보와 문법규칙 및 확률정보는 파싱 과정의 명사구 중의성을 해소한다. 또한, 파싱 과정에서 생성되는 노드의 수를 줄이고 수행 속도를 높이기 위한 방법으로 문법 Factoring, Best-First 탐색 그리고 Viterbi 탐색의 방법을 이용한다. 문법규칙의 확률과 왼쪽 우선 파싱 그리고 왼쪽 우선 탐색 방법을 사용하여 실험한 결과, 왼쪽 우선 탐색 방식과 문법확률을 혼용하는 방식이 가장 정확한 결과를 보였으며 비학습 문장에 대해 51.74%의 재현률과 87.47%의 정확률을 보였다.

  • PDF

ManiFL : 얕은 학습 기반의 더 나은 자연어처리 도구 (ManiFL : A Better Natural-Language-Processing Tool Based On Shallow-Learning)

  • 신준철;김완수;이주상;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.311-315
    • /
    • 2021
  • 근래의 자연어처리 분야에서는 잘 만들어진 도구(Library)를 이용하여 생산성 높은 개발과 연구가 활발하게 이뤄지고 있다. 이 중에 대다수는 깊은 학습(Deep-Learning, 딥러닝) 기반인데, 이런 모델들은 학습 속도가 느리고, 비용이 비싸고, 사용(Run-Time) 속도도 느리다. 이뿐만 아니라 라벨(Label)의 가짓수가 굉장히 많거나, 라벨의 구성이 단어마다 달라질 수 있는 의미분별(동형이의어, 다의어 번호 태깅) 분야에서 딥러닝은 굉장히 비효율적인 문제가 있다. 이런 문제들은 오히려 기존의 얕은 학습(Shallow-Learning)기반 모델에서는 없던 것들이지만, 최근의 연구경향에서 딥러닝 비중이 급격히 증가하면서, 멀티스레딩 같은 고급 기능들을 지원하는 얕은 학습 기반 언어모델이 새로이 개발되지 않고 있었다. 본 논문에서는 학습과 태깅 모두에서 멀티스레딩을 지원하고, 딥러닝에서 연구된 드롭아웃 기법이 구현된 자연어처리 도구인 혼합 자질 가변 표지기 ManiFL(Manifold Feature Labelling : ManiFL)을 소개한다. 본 논문은 실험을 통해서 ManiFL로 다의어태깅이 가능함을 보여주고, 딥러닝과 CRFsuite에서 높은 성능을 보여주는 개체명 인식에서도 비교할만한 성능이 나옴을 보였다.

  • PDF

영-한 조어단위 대역쌍 추출을 위한 조어단위 정렬 모델 (An Alignment Model for Extracting English-Korean Translations of Term Constituents)

  • 오종훈;황금하;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권4호
    • /
    • pp.300-311
    • /
    • 2005
  • 전문용어는 전문분야의 개념을 표현하는 언어적 표현이다. 전문용어의 조어단위는 전문용어를 구성하는 최소의 형태적 단위이다. 따라서 조어단위는 전문용어의 의미를 파악하는데 중요한 요소이다. 하지만 조어단위를 이용한 전문용어의 의미파악은 ‘조어단위와 개념단위의 불일치 문제’, 조어 단위의 ‘동형이의어’, ‘동의어’문제 둥으로 인한 어려움이 있다. 이러한 문제를 해결하기 위해서는 하나의 개념을 나타내는 조어단위의 덩어리인 개념단위를 파악하는 작업이 선행되어야 한다. 본 논문에서는 영어의 조어단위를 하나의 개념단위로 정의하고 개념단위에 대응되는 한국어 조어단위의 집합을 개념단위로 인식한다. 개념단위의 파악과정은 영한 대역 전문용어사전에 대한 영어-한국어 조어단위 정렬문제로 해결하고자 한다. 본 논문의 기법은 물리, 화학, 생물 분야에 대한 조어정렬 실험을 수행하였으며, 평균 약 $93\%$의 정확률로 조어단위 간의 정렬을 수행하였다

VHDL-to-C 사상을 위한 VHDL 컴파일러 전반부의 설계 (A deisgn of VHDL compiler front-end for the VHDL-to-C mapping)

  • 공진흥;고형일
    • 한국통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.2834-2851
    • /
    • 1997
  • 본 논문에서는 VHDL '87 및 '93 LRM의 전체 사양을 지원하며 VHDL-to-C 사상의 전처리 과정을 수행하는 VHDL 컴파일러 전반부의 설계 및 구현에 대해서 논한다. VHDL 컴파일러 전반부는 I)VHDL의 계층적 구조체, 선언 영역 및 가시성, 다중 정의 및 동형 이의어, 병행적 다중 스택 구조를 표현하기 위해서 분석 터미널 데이터에 심볼 트리를 구성하였으며, 2) VHDL 고유의 객체, 타입 및 서브타입, 속성과 연산자 등을 나타내기 위한 구조체 및 지원 함수를 설계하였고, 3) VHDL의 병행문/순차문, 행위/구조 기술, 동기 메커니즘 등을 분석하여 VHDL-to-C 사상에 필요한 어의 정보를 구축하고, 4) VHDL 분석 과정에서 어의 데이터의 저장 및 검색이 효과적으로 이루어 지도록 어의 토큰 정의 및 어의 전파 기능 등을 설계하였다. Validation suite를 이용한 실험에서 VHDL 컴파일러 전반부는 LRM 전체 사양을 분석할 수 있음을 확인하였고, VHDL의 계층성/가시성/병행성/어의 검사 등을 효과적으로 처리하기 위해 설계 및 구현된 심볼 트리와 어의 토큰 등의 분석 데이터 모델에 대한 성능 분석 실험에서 VHDL컴파일러 전반부는20- 30%의 개선 효과를보였다.

  • PDF

의미 프레임과 유의어 클러스터를 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Semantic Frames and Synonym Clusters)

  • 임수종;임준호;이충희;김현기
    • 정보과학회 논문지
    • /
    • 제43권7호
    • /
    • pp.773-780
    • /
    • 2016
  • 기계학습 기반의 의미역 인식에서 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 의미 정보 또한 매우 유용한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 의미 정보를 활용하는 방안으로 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 의미 프레임 정보 확장, 구문-의미 정보 연동 규칙, 필수 의미역 오류 보정 등을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.77, 위키피디아 문서 기반의 Exobrain GS 3.0 평가셋에서는 8.05의 성능 향상을 보였다.

정보검색 성능 향상을 위한 단어 중의성 해소 모형에 관한 연구 (Improving the Retrieval Effectiveness by Incorporating Word Sense Disambiguation Process)

  • 정영미;이용구
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.125-145
    • /
    • 2005
  • 이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 $92\%$의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 $67\%$ 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 $39.6\%$의 정확률을 보였고, EM 알고리즘 통합 검색이 약 $36\%$의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 $37\%$와 비교하면 나이브 베이즈 통합 검색은 약 $7.4\%$의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 $3\%$의 성능 저하율을 보였다.