• 제목/요약/키워드: 교차언어 정보검색

검색결과 26건 처리시간 0.024초

한국어 테스트 컬렉션 HANTEC의 확장 및 보완 (Extension and Validation of Hangul Text Collection(HANTEC))

  • 김지영;장동현;맹성현;이석훈;서정현;김현
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.210-215
    • /
    • 2000
  • HANTEC1.0은 12만 건의 문서집합과 30개의 질의집합, 그리고 각 질의에 대한 적합문서로 구성된 정보검색용 한글 테스트 컬렉션이다. 본 연구에서는 HANTEC1.0의 확장 및 보완하기 위해 과학기술분야 20개의 질의를 추가하였는데, 질의 추가를 위해서 일본 NACSIS 테스트 컬렉션의 질의를 번역하여 사용함으로써 한일 교차언어 검색환경을 조성하고자 하였다. 추가된 각 질의에 대해서는 여러 검색기에서 총 41가지 검색방법으로 검색한 후, 각 검색조합의 상위 50개 문서로 구성된 중간 결과집합을 만들었으며, 이를 대상으로 적합성판정에 대한 평가기준 및 절차 교육이 이루어진 평가자가 각 질의에 대한 적합성평가를 실시하였다. 이렇게 구축된 HANTEC 테스트 컬렉션의 적합문서 집합의 객관적 품질 평가와 시스템 성능평가를 위하여 통계적인 방법을 적용하므로써 공신력있고 일반화된 테스트 컬렉션을 구축하고자 하였다. 현재 HANTEC2.0은 검색분야 연구자 및 개발자에게 자유롭게 배포 중이며 정복머색 시스템의 신뢰도 측정을 목적으로 하는 학술대회의 연구결과 발표 및 제품 비교 등에 활용되어질 것이다.

  • PDF

가상의 네트워크 프로세서 환경에서 프로그램 테스트를 위한 가상머신 (Virtual Machine for Program Testing on the Virtual Network Processor Environment)

  • 홍순호;곽동규;고방원;유재우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.514-517
    • /
    • 2012
  • 최근 인터넷 사용자 증가와 네트워크를 기반의 응용 프로그램이 다양하게 개발되고 있다. 또한 스마트 폰과 매블릿 PC 의 대중화로 누구나 쉽게 인터넷을 통해 정보검색 서비스를 이용할 수 있다. 따라서 갈수록 증가하는 패킷에 대한 제]어와 이동, 삭제 등과 같은 처리를 빠르게 하기 위해 네트워크 프로세서 (Network Processor)가 개발되었다. 네트워크 프로세서는 패킷 제어와 이동, 삭제를 수행하는데 최적화되어 있다. 하지만 네트워크 프로세서를 개발한 회사마다 교차개발환경 툴과 개발언어가 서로 다르기 때문에 소스코드 재사용 및 확장이 어렵다. 또한 네트워크 프로세서에서 동작하는 프로그램을 매스트 하기 위해 하드웨어 장비가 필요하고 네트워크 프로세서에 종속적인 개발환경과 언어를 배우는 것은 프로그래머에게 큰 부담을 준다. 본 논문에서는 네트워크 프로세서에 최적화된 기능을 언어 레벨에서 정의한 eFlowC 언어를 사용하고 범용 컴퓨터에서 매스트 및 실행을 할 수 있는 가상머신을 제안한다. 그리고 가상머신 중간언어를 사용하여 가상머신이 설치된 범용 컴퓨터에서 소스코드 재사용 및 확장을 가능하게 한다. 따라서 범용 컴퓨터에서 프로그램 테스트를 통해 신뢰성 높은 프로그램을 작성할 수 있다.

은닉 마르코프 모델을 이용한 음차표기된 외래어의 자동인식 및 추출 기법 (Automatic Detection and Extraction of Transliterated Foreign Words Using Hidden Markov Model)

  • 오종훈;최기선
    • 인지과학
    • /
    • 제12권3호
    • /
    • pp.19-28
    • /
    • 2001
  • 본 논문에서는 한국어문서에서 음차표기된 외래어를 자동적으로 인식 및 추출하는 알고리즘을 제안한다. 제안된 방법에서는 음차표기된 외래어 인식 및 추출 문제를 음절태깅문제로 변환한다. 음절태깅문제는 주어진 단어 내의 음절들에 대하여 순수 한국어를 구성하는 음절인지 또는 음차표기된 외래어를 구성하는 음절인지를 태깅하는 작업으로 정의된다. 이를 위하여. 주어진 어절 내의 음절의 나열을 순수 한국어 음절을 표현하는 상태와 외래어 음절을 표현하는 상태의 이진 상태(binary state)로 모델링한 은닉 마르코프 모델을 이용한다. 제안된 방법은 기존 연구에 비하여 높은 재현율과 정확률로 음차표기된 외래어를 인식 및 추출하였다.

  • PDF

디자인 지식창출을 위한 검색시스템 구축

  • 임옥수;오민권;정인수;유의상
    • 디자인학연구
    • /
    • 제16권1호
    • /
    • pp.35-44
    • /
    • 2003
  • 오늘날은 유용한 정보의 확보 및 이용이 경쟁의 중요한 원천이었던 과거 정보화시대와는 달리 정보를 토대로 새로운 지식을 창출하여 현장에 적용하는 지식정보화(지식경영) 시대이다. 이 같은 지식정보화 시대에는 누구나 인터넷을 기반으로 하는 검색서비스를 이용하여 필요한 자료 및 정보를 손쉽게 얻을 수 있기 때문에 더 이상 단순한 정보의 획득이 개인, 기업, 국가의 경쟁력이 될 수 없게 되었다. 이러한 지식정보화라는 시대적 요구는 사회 각 분야에서 지식경영 시스템(Knowledge Management System) 등을 통해 급속도로 변화되고 있으며 여러 학문분야에서도 활발한 연구가 진행되고 있으나 디자인분야는 아직까지 일반적인 디자인 자료에 대한 단편(일차원)적인 검색서비스 수준에 머물러 있는 실정이다. 이에 본 연구에서는 가전제품, 생활용품, 의류제품, 식료품관련 회사들의 각 제품에 대한 CI/BI에 대해서 형태, 색상, 심미적 요소, 선호 이미지 언어, 만족도 등을 조사한 자료를 데이터베이스를 구축하고 이를 바탕으로 디자이너가 새로운 제품에 대한 CI/BI 작업을 수행하는데 있어 유용한 자료 및 정보를 얻을 수 있는 검색 시스템을 제안하였다. 특히, 제안된 시스템은 디자이너가 특정 BI/CI를 개발해야 하는 경우 기존 BI/CI에 대한 다양한 검색결과는 유용한 디자인 컨셉을 제공할 것이다. 또한 기존 디자인에 대한 디자인요소(형태, 색상, 심미적 요소, 선호 이미지 언어)들의 이차원 범주형자료 분석결과인 분할표(Cross Table)는 디자이너가 새로운 디자인지식을 창출하는데 기여할 것이다.

  • PDF

KOLIS-NET의 패싯 네비게이션 활용에 관한 연구 (A Research on the Use of Faceted Navigation of KOLIS-NET)

  • 윤정옥
    • 한국문헌정보학회지
    • /
    • 제53권1호
    • /
    • pp.109-132
    • /
    • 2019
  • 이 연구의 목적은 국립중앙도서관 KOLIS-NET의 단순 키워드 검색창과 패싯 네비게이션의 기능을 검토하고, 개선 방안을 제안하는 것이다. KOLIS-NET에서 '김훈'의 검색 결과 3,702건 중 '발행시기' 패싯의 '2011-2020 (776)' 레코드 그룹을 살펴보았다. 주요한 발견은 다음과 같다: (1) '자료유형', '발행시기', '주제별', '언어' 및 '발행국'의 5개 패싯은 검색 결과 첫 단계만 적용 및 복수 패싯의 교차 미적용; (2) 10년 단위 '발행시기' 패싯에서 개별 발행연도 미식별; (3) KDC의 10개 주류 및 '기타'로 구분된 '주제별' 패싯은 하위 패싯이 없어 주제 구체화 곤란; (4) '자료유형' 패싯의 '일반도서'에서 큰 활자 도서 등 특수 자료유형의 집합과 식별 곤란; (5) 저자 패싯 부재로 저자명으로 집합 및 식별 곤란; (6) '발행시기' 패싯의 '발행년불명', '언어' 패싯의 '언어불명' 및 '주제명' 패싯의 '기타' 그룹은 디스플레이 미작동, 서지 리스트와 개별 레코드 간 이동 불편 등 시스템 기능적 제한점. 이에 따라 원활한 패싯 네비게이션 위한 패싯 간 이동 개선, '발행시기' 패싯의 1년 단위 하위 패싯 및 '주제별' 패싯의 강목류 수준 하위 패싯 구성, 서지 레코드 작성 시 '자료유형표시'의 정확한 입력과 코딩 활용 및 OPAC 디스플레이 조정, 이름표목에 기반한 저자 패싯 추가 등 KOLIS-NET 시스템 기능성 및 레코드의 품질 개선을 제안하였다.

XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지 (Detecting Errors in POS-Tagged Corpus on XGBoost and Cross Validation)

  • 최민석;김창현;박호민;천민아;윤호;남궁영;김재균;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권7호
    • /
    • pp.221-228
    • /
    • 2020
  • 품사부착말뭉치는 품사정보를 부착한 말뭉치를 말하며 자연언어처리 분야에서 다양한 학습말뭉치로 사용된다. 학습말뭉치는 일반적으로 오류가 없다고 가정하지만, 실상은 다양한 오류를 포함하고 있으며, 이러한 오류들은 학습된 시스템의 성능을 저하시키는 요인이 된다. 이러한 문제를 다소 완화시키기 위해서 본 논문에서는 XGBoost와 교차 검증을 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 제안된 방법은 먼저 오류가 포함된 품사부착말뭉치와 XGBoost를 사용해서 품사부착기를 학습하고, 교차검증을 이용해서 품사오류를 검출한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류기로서 오류를 검출할 수 없다. 따라서 본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의 출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기 위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. 이 말뭉치는 오류 검출 대상의 전체 말뭉치로부터 임의로 추출된 것을 전문가에 의해서 오류가 부착된 것이다. 본 논문에서는 성능 평가의 척도로 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 또한 모집단의 모든 오류 후보를 수작업으로 확인할 수 없으므로 표본 집단과 모집단의 오류 분포를 비교하여 본 논문의 타당성을 보였다. 앞으로 의존구조부착 말뭉치와 의미역 부착말뭉치에서 적용할 계획이다.