• 제목/요약/키워드: 중요어

검색결과 870건 처리시간 0.022초

위키피디아로부터의 자동 병렬 문장 추출 기법을 이용한 영어-한국어 교차언어 정보검색의 번역 성능 개선 (Improving Query Translation by Extracting Parallel Sentences from Wikipedia for Cross-Language Information Retrieval)

  • 천주룡;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-40
    • /
    • 2015
  • 본 논문은 영어-한국어 교차언어 정보검색의 질의어 번역에 대한 중요한 자원으로 활용되는 병렬 말뭉치의 품질 향상을 위해서, 위키피디아의 비교 말뭉치로부터 자동으로 병렬 문장을 추출하여 활용하는 기법을 제안한다. 기존 연구에서 질의어 번역을 위해 위키피디아의 이중 어휘 사전 및 동의어, 다의어 정보를 구축하고, 기 기축된 병렬 말뭉치와 함께 활용하여 여러 의미를 가진 번역 후보 단어들 중, 최적의 단어를 선택하는 방법을 이용하고 있다. 여기서 활용되는 병렬 말뭉치는 질의어 번역에서 가장 중요한 자원이다. 하지만, 기 구축된 병렬 말뭉치는 양이 적거나, 특정 영역을 중심으로 구성되어 있는 문제가 있다. 이러한 문제를 해결하기 위해, 본 논문은 위키피디아로부터 자동 병렬 문장 추출 기법을 이용, 대량의 영어-한국어 간 병렬 말뭉치를 구축하고, 이를 교차언어 정보검색을 위한 질의어 번역에 적용하여 개선을 보인다. 실험의 성능 비교를 위해서 NTCIR-5 데이터를 이용하였으며 기 구축된 세종 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 31.5%, R-P 33.0%에서, 새롭게 구축한 위키피디아 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 34.6%, R-P 34.6%로, 각각 MAP 3.1%와 R-P 1.6%의 성능 향상을 보였다.

  • PDF

그래픽 객체 질의어에서 집합 속성과 메소드를 포함한 경로식의 시각화 (Visualization of Path Expressions with Set Attributes and Methods in Graphical Object Query Languages)

  • 조완섭
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권2호
    • /
    • pp.109-124
    • /
    • 2003
  • 대부분의 상용 관계 DBMS(Database Management System)에서는 사용자 편의성을 위하여 SQL과 함께 그래픽 질의어를 제공하고 있으나, 객체 DBMS의 경우에는 그래픽 질의어에 관한 연구와 개발이 미흡한 실정이다. 그래픽 질의어에서는 복잡한 질의 조건을 간결하고도 직관적인 방법으로 표현하는 것이 중요한 이슈이다. 특히, 객체 DBMS는 관계 DBMS 보다 복잡한 데이타 모델과 객체 질의어를 제공하므로 그래픽 객체 질의어를 설계하고 구현할 때 간결성과 직관성을 유지하는 것이 더욱 중요하다. 본 논문에서는 인터넷 환경에서 원격지 객체 데이타베이스에 접근하여 자료를 검색하고 관리하는 그래픽 객체 질의어인 GOQL(Graphical Object Query Language)을 제안한다. GOQL은 그래픽 관계 질의어에서 다루지 않은 집합값 속성과 한정어 및 메소드를 포함한 길이가 2 이상인 경로를 간단한 그래픽 요소들로 시각화함으로써 간결성과 직관성을 높인다. 그리고 대표적인 객체 질의어인 XSQL(1,2)에서 사용하는 경로는 GOQL에서 제공하는 간단한 시각적 도구로 표현할 수 있음을 보인다. 또한, 논문에서는 GOQL의 그래픽 질의어를 텍스트 객체 질의어로 변환하는 알고리즘을 제안하고, 실제로 인터넷 환경에서 동작하도록 구현한 결과를 소개한다.

역문헌빈도 가중치의 재검토 (Inverse Document Frequency Weighting Revisited)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.253-261
    • /
    • 2003
  • 역문헌빈도 가중치는 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 이 연구에서는 역문헌빈도 가중치의 가정에 의문을 제기하고, 이를 보완하는 새로운 문헌빈도 가중치 공식을 제안하였다. 제안한 가중치 공식은 저빈도어가 아닌 중간빈도어가 더 중요하다는 가정에 근거한 것으로서 역시 문헌빈도를 이용한 함수이다. 문헌빈도에 의한 가중치를 문헌의 색인어에 부여하는 경우와 질의어에 부여하는 경우로 나누어서 실험을 수행하고, 두 경우의 차이점을 논하였다.

  • PDF

임자도 주변해역의 자치어 분포

  • 전송미;조영철;최옥인;이성환
    • 한국어업기술학회:학술대회논문집
    • /
    • 한국어업기술학회 2000년도 추계수산관련학회 공동학술대회발표요지집
    • /
    • pp.300-301
    • /
    • 2000
  • 우리나라 서해안은 조간대가 넓게 발달하여 있고 조차가 매우 크므로 물의 혼합이 잘 이루어져 먹이가 풍부하며, 탁도가 높아 포식의 위험이 적어 어류의 산란장이나 생육장으로 중요한 역할을 하고 있다. 어류는 난에서 부화하여 자치어기를 거쳐 성장하면서 성어가 되고 어업에 가입이 된다. 어류의 초기 발생 시기에는 주변해역의 환경요인에 영향을 가장 많이 받는 시기로 자치어 생존율은 어류 자원의 크기를 결정짓는다(May,1974). 따라서 어류 자원량 추정과 미래 자원량을 예측하기 위해서는 자치어의 출현량과 분포에 관한 연구가 중요한 정보가 된다. (중략)

  • PDF

게임 정보검색을 위한 자동색인 및 신조어 처리 시스템 구현 (Implementation of the Automatic Indexing and New Term Processing System for Game Information Retrieval)

  • 이상준;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (상)
    • /
    • pp.51-54
    • /
    • 2001
  • 오늘날 국내외에 인터넷 보급의 대중화가 점차 확대되고 네트워크을 이용하는 게임의 증가에 따라 게임에 관련된 웹 문서에 대한 사용자의 요구가 증가되고 있다. 기존의 수작업에 의한 색인 방식은 많은 전문인력, 시간, 경비등을 필요로 하기 때문에, 기하급수적으로 증가하는 웹 상의 정보를 처리하기에는 이미 그 한계에 이른 실정이다. 이러한 문제점의 해결을 위해 컴퓨터를 이용한 자동색인 시스템의 개발은 매우 중요하고 시급하다. 더구나 게임 분야에서 있어 신조어는 너무나 급속히 생성되고 있다. 따라서 이러한 신조어 처리는 효과적인 자동색인을 위한 중요한 요소이다. 이 논문에서는 사용자들에게 보다 적합하고 안정적인 게임 정보를 제공하기 위해 게임 용어 사전을 이용한 자동색인과 신조어 처리 시스템을 설계, 구현한다. 자동색인 및 신조어 처리를 위해 게임용어사전, TF-IDF, n-gram 추출법을 이용한다.

  • PDF

XML 태그를 분류에 따른 가중치 결정 (An XML Tag Indexing Method Using on Lexical Similarity)

  • 정혜진;김용성
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.71-78
    • /
    • 2009
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

주제어 기반 문서 클러스터링 알고리즘 (Keyword-based Document C lustering Algorithm)

  • 장성호;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.469-471
    • /
    • 2002
  • 높은 연관성을 갖는 문서들을 서로 집단화시키는 문서 클러스터링은 문서와 문서간의 연관성을 확인할 수 있는 문서의 주제어 추출이 중요한 문제이며 일반적인 정보검색 시스템에서 사용하는 출현빈도에 의한 주제어 추출은 성능 향상에 한계가 있다. 또한, 문서 클러스터링은 문서를 집단화시키기 위해 문서간 연관성을 확인하기 위해 유사도 계산에 따른 시간과 공간을 많이 소비하는 문제를 가지고 있다. 본 논문에서는 주제어 추출 기법을 적용하여 주제어 연관성에 의해 문서들을 집단화시키는 새로운 방법의 문서 클러스터링 알고리즘을 제안한다.

  • PDF

전산유체역학을 이용한 아이스하버식 어도 내 월류부의 흐름특성에 관한 연구 (A Study on Hydraulic Characteristics of rollway of Ice-Harbor Type Fishway Using Computational Fluid Dynamics)

  • 고선호
    • EDISON SW 활용 경진대회 논문집
    • /
    • 제4회(2015년)
    • /
    • pp.618-622
    • /
    • 2015
  • 어도(fishway)란 강이 댐과 같은 인공물로 막혀있을 때 물고기가 지나갈 수 있도록 만든 통로이다. 본 연구에서는 전산유체해석 프로그램인 EDISON_CFD 시스템을 활용하여 아이스하버식 어도 내 월류부(rollway)에서 유체의 수직흐름특성을 분석하였다. 어류는 소상과 강하시 어도 내의 흐름에 민감하므로, 흐름에 영향을 주는 요인을 분석하는 것은 중요한 문제이다 어도는 2차원으로 간략화하여 모델링하였으며, 강의 유속, 어도의 기울기, 월류부 높이를 변화시키며 이들이 어도 내의 흐름특성과 어떤 관계가 있는지 분석하였다. 또 속도 증가에 따른 수면파의 파장 변화를 프로우드수와 연관지어 설명하였고, 레이놀즈수가 어도 내의 흐름특성과 밀접한 관련이 있음을 확인하였으며 기 설치된 어도의 문제점을 보완할 수 있는 방법을 제시하였다.

  • PDF

이런과학자,저런기술자 - '20세기의 다윈' 에른스트 마이어

  • 현원복
    • 과학과기술
    • /
    • 제30권12호통권343호
    • /
    • pp.67-69
    • /
    • 1997
  • 6백61번째의 논문, 21번째의 저서를 내면서 노익장을 과시하고 있는 올해 92세의 에른스트 마이어는 '20세기의 다윈'으로 불리는 생물학자이자 역사가이며 철학자이다. 독일 태생으로 현재 미국에서 활동하고 있는 마이어는 20세기의 가장 중요한 6대 과학업적중의 하나로 평가되는 '진화론적 종합'의 선도역할을 해왔다.

  • PDF

해양사고 인적오류 예방을 위한 해심 주제어 분석에 관한 고찰

  • 장은진;강유미;임정빈
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2016년도 춘계학술대회
    • /
    • pp.196-198
    • /
    • 2016
  • 해양사고 원인의 대부분을 차지하는 인적오류 예방은 해양안전에 가장 중요하며 인적오류는 확률기반의 인적 모델을 구축하여 평가할 수 있다. 확률기반 인적 모델을 구축하기 위해 사건의 원인과 결과 사이에 연계성을 갖고 있는 통계 데이터가 필요하다. 이러한 데이터는 정부 공식통계로서 해양안전심판원에서 제공하는 재결서의 내용 분석을 통해 얻고자 하나, 측정변수가 너무 많아 계산량이 방대하다. 본 연구에서는 재결서 분석서의 원인판단에서 기준이 되는 해양안전심판원의 해양사고조사심판정보포털(이하 해심)에서 제공하는 재결서 내용의 핵심적인 내용으로 구성된 '주제어 '데이터를 활용하여 주제어에 포함된 핵심단어 분석절차를 수립하였다. 이들 단어가 구분형태별로 어떻게 분포된 상태인지 알아보고, 선박사고별로 최적으로 설명할 수 있는 단어 객체수를 검토해보고자 한다. 향후 축소된 차원으로도 해양사고 인적과실의 인과관계 설명이 가능하면, 인적모델의 측정변수를 결정하는 경우 쉽게 타당성을 확인 할 수 있어 해양안전을 위한 중요한 자료로 활용할 수 있다.

  • PDF