• 제목/요약/키워드: 대역어 사전

검색결과 54건 처리시간 0.024초

과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용 (Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval)

  • 최용석;최기선
    • 인지과학
    • /
    • 제14권1호
    • /
    • pp.29-40
    • /
    • 2003
  • 교차언어 정보검색은 다국어 정보검색의 일부분으로 질의어에서 사용하는 언어와 검색대상인 문서의 언어가 서로 다른 경우의 정보검색을 의미한다. 교차언어 정보검색의 성능 향상을 위해서는 양질의 언어자원이 대량으로 필요한 경우가 많기 때문에 이를 해결하기 쉽지 않다. 본 논문에서는 사전에 기반한 대역어 후보 선정 시, 가중치를 부여해 질의어를 변환하는 방식을 제안한다. 가중치 계산에 이용되는 의미거리는 영어 명사와 한국어 명사를 같은 벡터 공간에 표현하고, 두 벡터간의 관계를 이용해 거리를 계산한다. 서로 다른 두 언어의 명사를 한 공간에 표현하기 위해 "공통 기반축"의 개념을 제시하고, 구축 방법을 제안한다. 고급 자원인 온톨로지를 확보하지 않고, 제안하는 방법으로 우수한 정보검색 결과를 얻을 수 있다는 것을 실험을 통해 보여준다.을 통해 보여준다.

  • PDF

웹 영한 번역기로부터 특허 영한 번역기로의 특화 방법 (Method Customizing From Web-based English-Korean MT System To English-Korean MT System for Patent Documents)

  • 최승권;권오욱;이기영;노윤형;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.57-64
    • /
    • 2006
  • 본 논문에서는 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특허용 영한 자동번역기로 특화하는 방법에 대해 기술한다. 특허용 영한 파동번역기로의 특화는 다음과 같은 절차에 의해 이루어진다: 1) 대용량 특허 문서에 대한 언어학적 특성 분석, 2) 대용량 특허문서 대상 전문용어 추출 및 대역어 구축, 3) 기존 번역사전 대역어의 특화, 4) 특허문서 고유의 번역 패턴 추출 및 구축, 5) 언어학적 특성 분석에 따른 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 절차에 의해 만들어진 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계분야(80.54%), 전기전자분야(81.58%), 화학일반분야(79.92%), 의료위생분야(80.79%), 컴퓨터분야(82.29%)의 성능을 보였으며 계속 개선 중에 있다. 현재 본 논문에서 기술된 영한 특허 자동번역 시스템은 산업자원부의 특허지원센터에서 변리사 및 특허 심사관이 영어 전기전자분야 특허 문서를 검색할 때 한국어 번역서비스를 제공받도록 이용되고 있으며($\underline{http://www.ipac.or.kr}$), 2007년에는 전분야 특허문서에 대한 영한 자동번역 서비스를 제공할 예정이다.

  • PDF

한국어 어휘 지식 베이스 구축 시스템 (Korean Lexical Knowledge Base Construction System)

  • 이해중;조정미;문준혁;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.397-403
    • /
    • 1999
  • 어휘 지식은 자연어 처리에서 매우 중요한 요소이다. 그러나 대규모의 어휘 지식 베이스를 구축하는 것은 많은 시간과 비용을 필요로하는 일이다. 본 논문에서는 온라인 국어 사전을 이용하여 범용의 대규모 한국어 어휘 지식 베이스를 자동으로 구축하는 방법을 제안하고 실제로 시스템을 구현한다. 제안하는 방법론은 비교적 적은 비용으로 단시일내에 대규모의 어휘 지식 베이스를 구축하는 것을 가능하게 한다. 또한 지식 구축 과정이 자동화되어 만들어진 지식 베이스의 유지, 보수 및 확장이 용이하다. 구현된 시스템으로 구축한 어휘 지식 베이스는 기계번역에서의 대역어 선정이나 한국어 조사의 의미 분별 등 자연어 처리 과정에서 발생하는 각종 어휘 의미 모호성 해소에 응용될 수 있다.

  • PDF

한영 교차언어 정보검색에서 질의 변환 및 질의 확장 방법 (Query Translation and Query Expansion Method in Korean-to-English Cross-Language Information Retreival)

  • 김백일;서희철;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-242
    • /
    • 2002
  • 본 논문은 한영 교차언어 정보검색을 위한 질의 변환 방법과 질의 확장에 대해서 기술하고 있다. 한영 교차언어 정보 검색은 한국어 질의와 관련된 영어 문서를 검색하는 것을 말하며, 한국어 질의를 영어 질의로 변환하는 방법을 사용했다. 이를 위해 한국어 단어들에 대한 영어 대역어들의 공기 정보를 이용하며, 공기 정보로는 상호 정보를 사용했다. 또한 한국어와 영어의 연어 사전을 사용하여 성능을 향상시켰다. 추가적인 검색 성능 향상을 위한 방법으로, 기존 연구에서 많이 사용된 적합성 피드백에 의한 지역적 질의 확장 대신, 영어 워드넷을 확장하여 구축한 한영 이중언어 시소러스를 사용하여 질의 확장을 하는 전역적 질의 확장을 시도하였다. 실험결과, 정확률의 향상보다는 재현율의 향상 정도가 더 컸으며, 긴 질의보다 짧은 질의를 확장한 경우가 성능이 높았다.

  • PDF

의미 애매성 해소를 이용한 WordNet 자동 매핑 (Automatic WordNet mapping using word sense disambiguation)

  • 이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.262-268
    • /
    • 2000
  • 본 논문에서는 어휘 의미 애매성 해소와 영어 대역어 사전 그리고 외국언어에 존재하는 개념체계를 이용하여 한국어 개념체계를 자동으로 구축하는 방법을 기술한다. 본 논문에서 사용하는 방법은 기존의 개념체계 구축 방법들에 비해 적은 노력과 시간을 필요로 한다. 또한 상기한 자동 구축 방법에서 사용하는 어휘 의미 애매성 해소를 위한 6가지 feature도 함께 설명한다.

  • PDF

정렬기법을 이용한 전문분야 조어단위 대역쌍 추출 (An Alignment method for Extracting English-Korean translations of term constituents)

  • 오종훈;황금하;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.529-531
    • /
    • 2003
  • 전문용어는 전문분야의 개념을 표현하는 언어적 표현이다. 전문용어의 조어단위는 전문용어를 구성하는 최소의 형태적 단위이다. 이러한 조어단위는 전문용어의 의미를 파악하는데 중요할 뿐만 아니라 전문분야 문서에 대한 기계번역과 같은 작업에 중요한 언어자원으로 사용될 수 있다. 하지만‘조어단위와 개념단위의 불일치 문제’, 조어 단위의‘동형이의어’,‘동의이형어’문제 등으로 인하여, 하나의 전문분야 개념을 나타내는 조어단위들의 덩어리를 파악할 필요가 있다. 본 논문에서는 이러한 문제점을 조어분석 된 한영 대역 전문용어사전에 대한 한국어-영어 조어단위 정렬문제로 해결하고자 한다. 본 논문의 기법은 97%의 정확률로 조어단위 간의 정렬을 수행하였다.

  • PDF

세종 의미 부류와 KorLex 명사 어휘 의미망 자동 맵핑 (Automatic Mapping of Korean Wordnet "KorLex" to Semantic Classes of Sejong Dictionary)

  • 소길자;윤애선;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-96
    • /
    • 2009
  • 인간이 가진 개념을 지식베이스화하려는 시도 중 하나로 의미망이 구축되고 있다. 한국어를 대상으로 한 어휘 의미망 중 프린스턴 대학의 WordNet을 대역한 KorLex는 1,2단계에서 한국어 어휘의미의 특성을 반영하여 개념 및 의미구조를 재구조화하고 있다. 그러나 현재 KorLex의 동의어 집합을 구성하는 어휘 의미에는 논항정보를 따로 구성할 수 없었다. 본 연구는 세종 전자 사전 격틀정보내의 선택제약조건(selectional restriction)으로 사용되고 있는 의미 부류와 KorLex의 명사 어휘 의미망을 자동 맵핑하는 방안을 제안함으로써 KorLex에서 세종 전자 사전 격틀정보를 활용할 수 있는 가능성을 제공한다.

  • PDF

한중 기계번역 시스템을 위한 동사구 패턴 반자동 확장 방안 연구 (A Study on Semi-Automatic Construction of Verb Patterns for a Korean-Chinese MT System)

  • 홍문표;류철;김영길;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.273-278
    • /
    • 2003
  • 본 논문에서는 한-중 기계번역 시스템에서 사용되는 한중 동사구 패턴의 반자동 생성을 위한 방법론을 제안한다. 한중 동사구 패턴은 한국어와 중국어간의 변환을 위한 정보를 제공할 뿐만 아니라, 한국어의 구문분석과 중국어의 생성을 위해 중요한 정보를 제공하는 고급 언어자원이다. 본 논문에서 제시하는 새로운 패턴 반자동확장 방안은 기존의 한중 동사구 패턴으로부터 대역어 정보를 이용하여 새로운 동사구 패턴을 생성해내는 방법이다. 본 방법론은 시스템 개발 초기에 일반적으로 이루어지는 사전기반 패턴 구축이 끝난 후, 패턴의 커버리지 문제를 해결하기 위해 실용적으로 적용할 수 있는 방법론으로서, 한국어와 중국어 같이 활용 가능한 대역 코퍼스가 아직 많지 않은 경우에 효과적이다. 본 논문에서 제시한 방법론은 실험 결과 67.15%의 정확률과 4.58배의 패턴 확장률을 나타냈다.

  • PDF

일한기계번역에서 진행형 "ている"의 번역처리 (A Processing of Progressive Aspect "te-iru" in Japanese-Korean Machine Translation)

  • 김정인;문경희;이종혁
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.685-692
    • /
    • 2001
  • 본 논문은 일한기계번역에서 일본어 진행표현 "ている" 형태로부터 한국어 대역어의 선정과정에서 발생하는 애매성을 해소하기 위하여 연구한 것이다. 대부분의 일한 기계번역 시스템은 양궁어의 문법적인 유사엉에 기초하여 어휘적인 단계의 처리만으로 고품질의 번역이 가능한 직접 번역방식을 채용하고 있다. 그러나, 직접 번역방식에 기초한 일한 기계번역에서는 술부에 존재하는 "ている"형태의 상적인 의미를 구별할 수 있는 방법론이 아직 제안되지 않았다. 일본어에서 "ている"형태는 동작진행과 상태진행을 모두 나타내지만 한국어에서는 "고 있다."와 "어 있다."로 나누어 표기한다. 양 언어간의 상적인 의미 대응은 간단하지 않지만, 술부의 의미 정보, 부사와 부사어의 의미정보 등을 이용하여 "ている"형태의 상적인 의미를 결정하는 것이 가능하다. "ている"형태의 적절한 대역어 선정을 위하여, 사전 속의 모든 일본어 술어에 다섯 종류의 의미코드를 입력한다. 즉 "1:동작진행만으로 사용되는 술어", "2: 일반적으로는 동작진행으로 사용되지만, 수동인 경우에는 상태진행의 형태로도 사용되는 술어", "3: 상태진행으로만 사용되는 술어", "4: 동작진행, 상태진행의 구별이 애매한 술어", "5: 기타" 당의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2","4"형태의 술어로부터 진행형은 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다. 실험에는 아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.

  • PDF

국방과학기술 전문용어 사전 구축을 위한 프로세스 표준화 및 활용 방안 (Application and Process Standardization of Terminology Dictionary for Defense Science and Technology)

  • 최중환;최석두;김이겸;박영욱;정종희;안희정;정한민;김평
    • 한국콘텐츠학회논문지
    • /
    • 제11권8호
    • /
    • pp.247-259
    • /
    • 2011
  • 국방과학기술분야 업무의 효율성을 극대화하기 위해서는 국가적인 차원에서 국방 관련 기관들이 사용하고 있는 국방과학기술분야의 전문용어를 광범위하게 수집하고 기술 체계를 통일하여 관리하는 것이 필요하다. 각 분야별/기관별로 사용되고 있는 국방과학기술 용어들의 표준화를 통해서 전문용어에 대한 혼란을 없애는 것은 물론, 전문용어 사전을 오프라인 및 온라인 서비스에 활용함으로써 전문용어에 대한 접근성을 높이는 것이 요구된다. 본 연구에서는 고도의 신뢰성이 요구되는 국방과학기술 정보 분석의 기반을 제공하기 위해서 국방과학기술분야를 중심으로 전문용어의 선정, 기술 기준, 기술 구조를 포함하는 모든 프로세스를 표준화하는 것은 물론, 온라인 서비스에 전문용어 사전의 효과적으로 활용하기 위한 방안을 제시하고 있다. 또한 표준화된 구축 프로세스에 따라 전문용어 사전을 시범 구축하였다. 본 연구를 통해 생성되는 전문용어 사전은 다음과 같은 분야에 활용될 수 있다. 1) 국방과학기술 전문용어 데이터베이스 구축 및 용어 사전의 발간. 2) 국방과학기술분야의 정보 분석. 3) 전문용어 다국어 대역어를 이용한 외국어 정보분석. 4) 정보 처리 용어의 일관성 보증. 5) 전문용어를 추출하기 위한 언어 자원.