• 제목/요약/키워드: 단어 중의성

검색결과 121건 처리시간 0.027초

구문분석기의 어휘확장 (Lexical Expansion of Sentence Parsers)

  • 김민찬;김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.755-758
    • /
    • 2005
  • 본 논문에서는 구문분석기의 어휘확장을 통해 구문분석의 성공률을 높이고자 하였다. 구문분석은 문장내 구성성분들이 가지는 통사적인 관련성을 파악하는 작업이다. 구문분석 실패의 가장 빈번한 원인 중의 하나는 미등록 어휘의 출현이다. 결여된 어휘문제를 해결하는 것은 구문분석의 성공률을 높이고, 원문이해 시스템을 보다 더 견고하게 하는데 관건으로 작용한다. 이를 위하여, 본 논문에서는 구분분석기 LGPI+ 의 어휘 사전에 존재하지 않는 단어들을 또 다른 어휘자원인 WordNet을 이용하여 해결하고자 하였다. 구체적으로는, (1) 미등록 어휘를 WordNet에서 찾고, (2) 그 유의어 정보를 파악하여, (3) LGPI+ 어휘사전에 추가한다. 실험을 통하여 구문분석의 실패를 해결하고, 정확도와 성공률을 높일 수 있음을 확인하였다.

  • PDF

폭소노미 분위기 태그를 이용한 음악의 분위기 유형 분석 (Analysis of Music Mood Class using Folksonomy Tags)

  • 문창배;김현수;김병만
    • 감성과학
    • /
    • 제16권3호
    • /
    • pp.363-372
    • /
    • 2013
  • 폭소노미 (foxonomy) 분위기 태그를 이용한 음악 검색 시 내부적으로 단어 태그 대신에 수치 태그 (AV 태그: Arousal과 Valence 값으로 이루어진 태그)를 이용하면 폭소노미의 문제점 중의 하나인 유사어 문제점을 일부 해결할 수 있다. 하지만 이를 위해서는 두 가지 선행 작업이 제대로 이루어져야 하는데, 그 첫 번째가 단어 태그를 수치 태그로 변환하는 작업이며 그 두 번째가 검색 대상인 음악을 수치 태그로 표현하는 작업이다. 첫 번째 작업에 대해서는 이전 연구를 통하여 그 유의성을 보였기 때문에 본 논문에서는 두 번째 작업에 대해서 그 유의성을 밝히고자 하였다. 이를 위하여 본 논문에서는 음악과 AV값 간의 관계를 정의하는 음악-분위기 매핑테이블을 제안하고, ANOVA 검증을 이용하여 분석 하였다. 실험 결과, 동의어 포함 유무에 무관하게 음악 구간의 A값과 V값 모두 12개 음악의 분위기에 대하여 분포차가 발생하고, 모두 제 1종 오류확률 P<0.001를 만족하였다. 결론적으로 음악의 분위기에 따라 AV 값 분포가 다르다는 것을 확인할 수 있었다.

  • PDF

한영 기계번역에서 결정 트리 학습에 의한 한국어 부사격 조사의 의미 중의성 해소 (Decision Tree based Disambiguation of Semantic Roles for Korean Adverbial Postpositions in Korean-English Machine Translation)

  • 박성배;장병탁;김영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.668-677
    • /
    • 2000
  • 한국어는 격조사에 의해 구문 역할이 결정되고 하나의 조사가 여러 개의 의미를 가지는 특징이 있다. 특히, 부사격 조사는 그 의미의 다양성으로 인해서 한영 기계 번역에서의 조사 번역을 어렵게 만든다. 본 논문에서는 부사격 조사가 가질 수 있는 의미격을 24개의 클래스로 분류한 후, 50만 어절 크기의 말뭉치에서 추출한 학습 예제와 결정 트리 추론(decision tree induction)을 통해 부사격 조사의 의미격 결정 규칙을 학습하였다. 결정 트리 추론 시 나타날 수 있는 학습 예제의 부족 문제는 단어 클래스를 사용함으로써 해결하였다. 실험 결과, 6개의 부사격 조사에 대해서 평균적으로 76.2%의 정확도를 보였으며, 이는 가장 많이 나타나는 의미격을 부사격 조사의 의미격으로 결정하는 방법에 비해 26.0%의 정확도 향상을 의미한다.

  • PDF

Praat을 활용한 영어발음특성의 시각적 연구 (A Visual Study of the Quality of English Pronunciation Using the Praat Program)

  • 박희석
    • 디지털콘텐츠학회 논문지
    • /
    • 제14권3호
    • /
    • pp.323-331
    • /
    • 2013
  • Praat프로그램을 활용하면 시각적인 영어교육효과를 얻을 수 있다. 시청각교육이 중시되는 영어교육의 방법론에 비추어볼 때 시각적인 연구의 활용은 교육의 효율성 측면에서 기대되는바가 크다고 할 수 있다. 이러한 점에 착안하여 본 연구에서는 현재 고등학교에 재학 중인 학생들 중 영어성적이 1,2등급에 해당되는 학생과 5,6등급에 해당되는 학생들을 두 그룹으로 나누어 각각의 그룹이 원어민의 발음과 어떤 차이를 보이는지를 알아보고, 그 차이가 어떻게 다른지를 시각적인 면으로 규명해보고자 시도하였다. 이를 위해 원어민이 녹음한 CD가 내장되어있는 영어발음교재를 실험자료로 활용하였다. 구체적으로 영어발음에서 외국인어투를 보일 가능성이 있는 영어저모음과 이중모음이 들어있는 단어와 문장을 대상으로 하였으며, 단어와 문장들은 캠브리지대학교 출판국에서 출간된 English Pronunciation in Use의 교재내용 중의 일부를 활용하였다. 실험을 통해 나타난 결과를 보면 한국인 피 실험자의 두 집단 간에 공히 모음이나 단어단위에선 집단 간, 그리고 원어민의 녹음자료와의 사이에서도 유의미한 차이가 나타나지 않았다. 그러나 다섯 단어 이상으로 구성된 상대적으로 긴 문장단위의 실험에서는 5,6등급 집단의 발음이 유의미하게 크게 나타났다. 이러한 결과는 한국인 피 실험자들의 억양구현실패에서 기인한 것으로 보여지며, 이러한 분석은 Praat프로그램에서 제공한 시각적인 자료에 의해 뒷받침되고 있다.

영화 속에 내재된 이중적 의미 : 영화 "향수"를 중심으로 (Double Meaning Inherent in the Film : focused on the Movie "Perfume")

  • 김성훈
    • 한국콘텐츠학회논문지
    • /
    • 제11권3호
    • /
    • pp.147-156
    • /
    • 2011
  • 영화 속에 내재된 이중적 의미는 문학에서 말하는 중의법(重義法)과 같은 맥락으로 해석된다. 중의법이란 어느 한 단어나 문장이 두 가지 이상의 의미로 해석될 때를 말한다. 영화에서도 한 인물의 행동이나 소도구 혹은 의상이 의미하는 바가 두 가지 이상의 의미를 가지고 관객과 대면한다. 프랑스의 유명 감독 프랑수아 오종은 "감독은 언제나 자기가 만든 최신작에 역행하는 영화를 만들어야 한다."고 했다. 이 말의 의미는 영화는 개혁을 추구하지 않으면 안 된다는 감독의 철학이다. 영화가 금기를 깨야한다는 것은 사실 영화정신의 밑바탕이기도 하다. 영화는 항상 금기에 도전했고 진보를 선도했다. 서양 영화의 금기는 우리나라의 도덕과 윤리수준과는 좀 더 치열한 부분이 존재한다. 그들의 금기는 기독교의 신성과 정통성을 부정하는 일이다. 특히 예수 그리스도의 신성을 부정하는 영화가 많은 사람들에게 회자되면서 갑론을박을 끌어내기에 충분했다. 본 연구에서 톰 튀크베어 감독의 영화 "향수"를 텍스트로 선택하여 이 영화 속의 고도의 치밀하고 전략적인 이중적 내용을 파헤쳐 관객을 교묘히 기만한 서양의 금기를 분석하고자 한다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

데이터베이스 의미론의 기초: 자질 구조에서 테이블로 (A Basis of Database Semantics: from Feature Structures to Tables)

  • 이기용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.297-303
    • /
    • 1999
  • 오늘날 전산망을 통해 대량의 다양한 언어 정보가 일상 언어로 교환되고 있다. 따라서 대량의 이러한 정보를 효율적으로 처리할 수 있는 언어 정보 처리 시스템이 필요하다. Hausser (1999)와 이기용(1999)는 그러한 언어 정보 처리 시스템으로 데이터베이스 의미론을 주장하였다. 이 의미론의 특징은 자연언어의 정보 처리 시스템 구축에 상업용 데이터베이스 관리 시스템을 활용한다는 점이다. 이때 야기되는 문제 중의 하나가 표상(representation)의 문제이다. 그 이유는 언어학의 표상 방법이 데이터베이스 관리 시스템의 표상 방법과 다르기 때문이다. 특히, 관계형 데이터베이스 관리 시스템(RDBMS)에서는 테이블 (table) 형식으로 각종 정보를 표시한다. 따라서, 이 논문의 주안점(主眼点)은 언어학에서 흔히 쓰이는 표상 방법, 즉 문장의 통사 구조를 표시하는 수형(tree)이나 의미 구조를 표시하는 논리 형태(logical form), 또는 단어나 구의 특성을 나타내는 자질 구조(feature structure)를 테이블 형식으로 대체하는 방법을 모색하는 것이다. 더욱이 관계형 데이터베이스 관리 시스템에서는 테이블에 대한 각종 연산, 특히 두 테이블을 연결(link)하는 작업이 가능하고 이런 연산 과정을 통해 정보를 통합하거나 여과할 수 있기 때문에 관련 정보를 하나의 테이블에 표상하거나 정보 자료의 분산 저장과 자료의 순수성을 유지하는 것이 용이하다. 이 논문은 곧 이러한 점을 가급적 간단한 예를 들어 설명하는 데 그 목적이 있다.

  • PDF

웹 게시판 비속어 처리 프로그램의 설계 및 구현 (Design and Implementation of a Swearing Remover Program on Web board)

  • 조아영
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권10호
    • /
    • pp.1317-1328
    • /
    • 2001
  • 기존의 웹 게시판 비속어 처리 프로그램들은 입력 차단형이라는 한계성 때문에 비속어의 모양이 조금만 변형이 되어도 비속어를 차단하지 못하는 문제점이 있었다. 이러한 한계성을 극복하기 위하여 본 논문에서는 인터넷의 열려있는 게시판에 대해 분석 및 삭제/치환하는 감시형 프로그램을 개발하였다. 이를 위해 먼저 웹 상의 비속어 패턴을 분류하였고 이를 바탕으로 이러한 패턴들을 분석할 수 있는 토크나이저를 개발하였다. 그리고 각 게시판에 대한 토크나이징 및 비속어 삭제/치환 모듈을 스레드로 구현하여 각각 병렬적으로 작업제어가 되도록 구현하였다. 이 프로그램을 웹 게시판의 데이터에 실험적으로 작동시킨 결과 대부분의 비속어를 검출하여 91.9%의 재현율을 보였으나 형태소적 변형 비속어와 문맥적 비속어의 검출에는 다소 미흡함을 나타내었다. 이 프로그램은 품사적, 의미적 중의어와 문맥적 비속어의 처리에 있어서 이 프로그램의 수동모드의 확장을 통해 앞으로 더욱 보완되어야 할 것이다. 이 프로그램은 게시판 사용자들을 적절한 단어사용에로 유도하며, 공공기관, 학교, 방송국 등의 게시판 관리자의 수작업을 대체해 줄 수 있을 것으로 기대된다.

  • PDF

한국어 서술어와 지식베이스 프로퍼티 연결 (Linking Korean Predicates to Knowledge Base Properties)

  • 원유성;우종성;김지성;함영균;최기선
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1568-1574
    • /
    • 2015
  • 본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 위한 과정 중의 하나인 관계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate)에 집중하여 서술어와 관련성 높은 지식베이스 프로퍼티(Property or Relation)를 찾아내고, 이를 통해 두 개체(Entity)간의 의미를 파악하는 관계추출에 초점을 둔다. 이에 널리 활용되는 원격지도학습(Distant Supervision) 접근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 레이블(Labeled) 데이터를 자동으로 마련하여 지식베이스 프로퍼티에 대한 어휘화 작업을 수행한다. 즉, 두 개체 사이의 관계로 표현되는 서술어와, 온톨로지로 정의할 수 있는 프로퍼티와의 연결을 통해, 텍스트로부터 구조적 정보를 생성할 수 있는 기반을 마련하고 최종적으로 지식베이스 확장의 가능성을 열어준다.

상호 정보를 이용한 구조적 모호성 해소와 결과에 대한 확신도 측정 (Structural Disambiguation using Mutual Information and the Measure of Confidence)

  • 심광섭
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.153-176
    • /
    • 1993
  • 구조적 모호성은 자연 언어 문장을 분석할 때 흔히 나타내는 문제점 중의 하나로,지금까지 이문제의 해결은 대단히 어려운 것으로 인식되어 왔다.그러나,구조적 모호성을 해소하지 않고 올바른 언어 처리를 한다는 것은 사실상 불가능하다.본 논문에서는 이 문제에 대하여 정보 이론적(information-theoretic)개념인 상호 정보(mutual information)를 이용한 통계적 접근방법을 제안한다.상호정보는 말 뭉치로 부터 자동 습득이 가능하므로 지식습득속도가 대단히 빠를뿐만 아니라 지속적인 지식습득이 가능하다. 구조적 모호성 해소는 물론 모호성 해소 결과의 옳고 그름을 스스로 판단할수 있는 능력을 부여할수 있다면 보다 지능적인 시스템을 개발하는데 도움이 될것이다.본 논문에서는 그와 같은 지적 능력을 부여한느데 필요한 확신도(congidence measure) 개념도 또한 제시한다.확신도는 구조적 모호성을 해소하고 난 후에 계산되는 수치로서,구조적 모호성이 올바르게 해소되었을 가능성이 높으면 높을수록 그 값이 커지는 성질을 가지고 있다. 본 논문에서 제시한 구조적 모호성 해소 알고리즘의 타당성을 검증하기 위하여 이공계 논문 초록으로부터 발췌된 약 160만 단어의 말뭉치로부터 상호 정보를 자동 습득하고 이를 이용하요,1,639개의 문장에 대하여 구조적 모호성을 해소하는 실험을 하였다. 실험결과 구조적 모호성 해소 정화도는 약 80%로 나타났다.확신도 개념을 이용할 경우 구조적 모호성 해소가 잘못된 문장을 찾아 정정하는 작업을 매우 효과적으로 진행할 수 있었다.