• 제목/요약/키워드: 기계 번역 시스템

검색결과 198건 처리시간 0.022초

임베디드 시스템에 적합한 한국어 복합명사 분해 (Korean Compound Nouns Decomposition Suitable for Embedded Systems)

  • 최민석;김창현;천민아;박호민;남궁영;윤호;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.316-320
    • /
    • 2018
  • 복합명사는 둘 이상의 말이 결합된 명사를 말하며 문장에서 하나의 단어로 간주된다, 그러나 맞춤법 및 띄어쓰기 검사나 정보검색의 색인어 추출, 기계번역의 미등록어 추정 등의 분야에서는 복합명사를 구성하는 개별 단어를 확인할 필요가 있다. 이 과정을 복합명사 분해라고 한다. 복합명사를 분해하는 방법으로 크게 규칙 기반 방법, 통계 기반 방법 등이 있으며 본 논문에서는 규칙을 기반으로 최소한의 통계 정보를 이용하는 방법을 제안한다. 본 논문은 4개의 분해 규칙을 적용하여 분해 후보를 생성하고 분해 후보들 중에 우선순위를 정하여 최적 후보를 선택하는 방법을 제안한다. 기본 단어(명사)로 트라이(trie)를 구축하고 구축된 트라이를 이용하여 양방향 최장일치를 적용하고 음절 쌍의 통계정보를 이용해서 모호성을 제거한다. 성능을 평가하기 위해 70,000여 개의 명사 사전과 음절 쌍 통계정보를 구축하였고, 이를 바탕으로 복합명사를 분해하였으며, 분해 정확도는 단어 구성비를 반영하면 96.63%이다. 제안된 복합명사 분해 방법은 최소한의 데이터를 이용하여 복합명사 분해를 수행하였으며 트라이 자료구조를 사용해서 사전의 크기를 줄이고 사전의 검색 속도를 개선하였다. 그 결과로 임베디드 시스템과 같은 소형 기기의 환경에 적합한 복합명사 분해 시스템을 구현할 수 있었다.

  • PDF

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

융통성 있는 스레드 분할 시스템 설계와 평가 (Design and Evaluation of Flexible Thread Partitioning System)

  • 조선문
    • 인터넷정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.75-83
    • /
    • 2007
  • 다중스레드 모델은 긴 메모리 참조 지체 시간과 동기화의 문제점을 해결할 수 있다는 점에서 대규모 병렬 시스템에 매우 효과적이다. 다중스레드 병렬기계를 위하여 Non-Strict 함수 프로그램을 번역할 때 가장 중요한 것은 순차적으로 수행될 수 있는 부분을 찾아내어 스레드로 분할하는 것이다. 기존의 분할 알고리즘은 조건식의 판단식, 참실행식, 거짓실행식을 기본 블록으로 나누고 각각에 대하여 지역 분할을 적용한다. 이러한 제약은 스레드의 정의를 약간 수정하여 스레드 내에서의 분기를 허용한다면 좀더 좋은 분할을 얻을 수 있다. 스레드 내에서의 분기는 병렬성을 감소시키거나 동기화의 횟수를 증가 시키거나 또는 교착상태를 발생시키는 등 스레드 분할의 기본 원칙을 어기지 않으며 오히려 스레드 길이를 증가시키거나 동기화 횟수를 줄이는 장점을 가질 수 있다. 본 논문에서는 조건식의 세 가지 기본 블록을 하나 또는 두 개의 기본 블록으로 병합함으로서 스레드 분할을 향상시키는 방법을 제안한다.

  • PDF

규칙에 기반한 한국어 부분 구문분석기의 구현 (Implementing Korean Partial Parser based on Rules)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.389-396
    • /
    • 2003
  • 본 논문에서는 문법검사기나 기계번역과 같은 실제 응용 시스템을 위한 한국어 부분 구문분석의 처리 대상을 정의하고, 규칙에 기반한 한국어 부분 구문분석기의 구현에 대해서 논의한다. 부분 구문분석기는 기본적으로 여러 개의 형태소나 단어가 구문적으로 하나의 구조에 속한 경우 이를 하나의 덩어리로 묶어주는 역할을 수행하며, 동시에 부가적인 작업을 수행할 수 있다. 또한 부분 구문분석기는 다양한 형태로 표현된 부분 구조를 표준 형태소 구조로 바꾸어 줌으로써, 상위 모듈의 처리에서 그 결과를 용이하게 사용할 수 있도록 한다. 본 논문에서는 한국어 부분 구문분석을 위해서 수동으로 작성된 140여 개의 규칙을 이용하였으며, 각 규칙은 일반적인 규칙과 마찬가지로 조건부와 행위부로 구성되었다. 부분 구문분석의 효율성을 관찰하기 위해서 일반적인 구문분석과 부분 구문분석을 포함한 구문분석을 비교하였다. 실험을 통해서 전자가 후자에 비해 약 두 배의 레코드 수가 요구됨을 알 수 있었다.

검색 기반의 질문생성에서 중복 방지를 위한 유사 응답 검출 (Detection of Similar Answers to Avoid Duplicate Question in Retrieval-based Automatic Question Generation)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구는 검색 기반의 질문 자동 생성 시스템에서 사용자가 이미 답변한 내용을 재질문하지 않도록 사용자의 응답과 유사도가 높은 응답을 질문-데이터베이스에서 찾는 방법을 제안한다. 유사도가 높게 검출된 응답의 질문은 이미 사용자가 아는 내용일 확률이 높기 때문에 질문 후보군에서 제거한다. 유사 응답 검출에는 두 응답간의 동일 단어, 바꿔쓰기 표현, 문장 내용을 모두 사용하였다. 바꿔쓰기 표현은 통계기반의 기계번역에서 사용하는 구절 테이블을 사용하여 구축하였다. 문장 내용은 두 문장을 주의-기반 컨볼루션 신경망으로 압축하여 유사도를 계산하였다. 평가를 위해 구축한 100개의 평가 응답에 질문-응답 데이터베이스로부터 가장 유사한 응답을 추출해서 얻은 결과는 MRR값 71%의 성능을 보였다.

미얀마 우수농산물 재배기술 전수사업 (Project of Improving Good Agriculture Practice and Income by Intergrated Agricultural Farming)

  • 이영철;최동용
    • 현장농수산연구지
    • /
    • 제16권1호
    • /
    • pp.193-206
    • /
    • 2014
  • ○ 미얀마 우수농산물 재배기술 전수사업은 농림축산식품부의 국제협력과제로 2011년 12월~2013년 12월에 걸쳐 수행되었다. ○ 사업의 주 내용은 미얀마의 신 수도인 네이피도 시의 핀마나 타운쉽에 소재한 국립농업연구소의 구내에 실시되었다. - GAP 훈련센터 건물과 지원되는 차량 농기계를 위한 차고 및 정비고를 건설하고 훈련센터 건물내에 O.J.T. 교육을 위한 기계 설비를 지원 설치하여 GAP 제도의 이해와 교육에 활용이 되도록 함 ○ 생산 농산물의 저온 저장을 위한 저온 저장고의 설치 <훈련센터 건물+시범 농장>하여 수확한 농산물이 변질·부패되지 않고 손실이 없이 저장하여 출하 할 수 있도록 하였다. - 훈련센터 내에 교육장을 설치하여 20명의 교육생이 교육받을 수 있도록 에어컨, Beam Project와 스크린, 오디오, 책상, 의자, 캐비넷(탈의장) 설비를 갖춤 - 사무실 장비로 컴퓨터, 프린터 복사기, 냉장고, 파일박스 등을 갖추어 공무원 학생, 교사 등이 교육할 수 있게 함 - 여기에 실습용(농산물의 세척, 탈수 포장) 라인과 관정개발, 전기, 양수설비 등을 갖추어 실습에 이용할 수 있게 함 - 영농기계로 트랙터(50마력), 컴바인(4조식), 틸러(10Hp 3대)와 부속 작업기(트레일러, 쟁기, 로터베이터)를 지원하여 영농에 활용하도록 함 - 시범농장 5ha를 조성하고 여기에 필요한 지하수 개발, 물탱크 설치(20톤 및 50톤) pipe 라인, 용수로 스프링클러 관수, 점적관수 시설을 설치함 - 채소 육묘에 필요한 비닐하우스(300m2)와 이동식 벤치, 미니 스프링클러 관수시설을 하였고 시범농장에 전기가 인입되지 않아 3상4선의 동력선을 500m 이상 가설 함 - 영농에 필요한 양수기, 방제용 고압분무기 등을 설치하여 건기와 우기가 뚜렷한 미얀마에서 필요한 때 언제든지 영농에 이용할 수 있게 함 - 미얀마의 선진 농민과 농업부 공무원을 대상으로 2주간 한국 초청연수를 실시하여 한국의 발전된 농업시설, 영농방식, GAP제도, 마케팅시스템, 농산물 가공 GAP처리 시설(쌀 도정, 과일 선별 포장, 딸기 수확 포장, 엽채류 재배 수확 포장 등)과 벼 기계화 재배-육묘 이식 시스템 및 육종기술 등을 견학시켜 대한민국의 선진 기술을 직접 보고 배움 - 지원하는 농기계의 운전, 유지관리, 보수를 위한 교육은 농기계 회사와 협조하여 기술자 1명을 한국에 초청하여 2주간에 걸친 농기계 담당자 교육 연수 ○ GAP제도와 실무에 관한 교육은 1차 P.M.C. 요원을 대상으로 강의, 토론 등을 통하여 소개 제시하고 한국의 관련법, 제도, 인증 실무요령 등을 제공하여 미얀마 GAP 인증제도 도입에 참고하도록 하였다. - 한국의 농산물품질관리법 GAP 인증 실무에 관한 고시 등을 번역하여 제공 ○ 미얀마 농업관개부 발행(2013 Myanmar Agriculture in brief) 5쪽에서 미얀마 농업생산 발전의 중요 요소로 GAP 제도의 도입을 강조하고 8쪽에서 그 활동내용을 소개하고 있다. 57쪽에서 GAP Project가 대한민국의 K.R.C.에 의해 이루어지고 있음을 소개하고 있다. ○ 교육장을 활용한 미얀마 농업관계 공무원과 학생에 대한 교육이 이루어지고 있고 인계인수가 끝난 2013. 12월에도 교육이 실시되고 있다. ○ 조성된 시범농장에서 GAP 기준에 맞는 영농이 계속되고 있으며 채소류의 생산 및 처분을 3회에 걸쳐 실시하였다. ○ 아직 미얀마 일반 소비자나 생산 농민에게 생소한 새로운 제도이지만 미얀마 농업관개부의 적극적인 의지로, 빠른 시일 내에 정착된 것으로 예상된다. ○ 본 프로젝트가 시기적으로 미얀마 정부의 농업정책 방향과 잘 맞아 프로젝트 규모에 비하여 미얀마의 농업정책 수립과 세부시행 방침에 크게 기여하게 되었음을 매우 기쁘게 생각한다.

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.