• 제목/요약/키워드: 지명인식

검색결과 108건 처리시간 0.021초

자동 구축된 문맥 패턴과 개체명 사전에 기반한 제목 개체명 인식 (Title Named Entity Recognition based on Automatically Constructed Context Patterns and Entity Dictionary)

  • 이주영;송영인;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.40-45
    • /
    • 2004
  • 본 논문에서는 영화명, 도서명, 음악명 등의 제목 개체명 인식을 위한 새로운 방법에 대해 기술한다. 제목 개체명은 개체명 내부에 기존 MUC에서 분류한 인명, 지명, 기관명 등과 같은 일반적인 개체명과는 달리, 철자 자질 등 내부 자질을 사용하기 어려우며, 제목 개체명 부착 말뭉치가 없기 때문에 기존 연구에서 좋은 성능을 보인 방법들을 적용하기는 힘들다. 이러한 문제를 해결하기 위해 본 논문에서는 원시 말뭉치에서 자동으로 구축한 문맥 패턴 정보와 개체명 사전을 사용하여 제목 개체명을 인식하는 방법을 제안한다. 패턴과 제목 개체명 사전 구축을 위해, 사전 정보를 이용한 패턴 확장과 이렇게 구축된 패턴 정보를 사용한 사전 확장 단계를 반복 수행하여 문맥 패턴과 제목 개체명 사진을 점진적으로 증가시키는 방법을 사용하였으며, 이러한 정보가 제목 개체명 인식에 도움이 됨을 실험적으로 입증하였다.

  • PDF

ManiFL을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using ManiFL)

  • 김완수;신준철;박서연;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.633-636
    • /
    • 2021
  • 개체명 인식은 주어진 문장 안의 고유한 의미가 있는 단어들을 인명, 지명, 단체명 등의 미리 정의된 개체의 범주로 분류하는 문제이다. 최근 연구에서는 딥 러닝, 대용량 언어 모델을 사용한 연구들이 활발하게 연구되어 높은 성능을 보이고 있다. 하지만 이러한 방법은 대용량 학습 말뭉치와 이를 처리할 수 있는 높은 연산 능력을 필요로 하며 모델의 실행 속도가 느려서 실용적으로 사용하기 어려운 문제가 있다. 본 논문에서는 얕은 기계 학습 기법을 적용한 ManiFL을 사용한 개체명 인식 시스템을 제안한다. 형태소의 음절, 품사 정보, 직전 형태소의 라벨만을 자질로 사용하여 실험하였다. 실험 결과 F1 score 기준 90.6%의 성능과 초당 974 문장을 처리하는 속도를 보였다.

  • PDF

기술 문헌 분석 테스트베드 툴킷 개발 (Developing a Test-Bed Toolkit for Scientific Document Analysis)

  • 최성필;송사광;정한민
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2012년도 춘계 종합학술대회 논문집
    • /
    • pp.51-52
    • /
    • 2012
  • 본 논문은 논문, 특허, 연구보고서 등과 같은 다양한 과학기술문헌에 포함된 기술 지식을 효과적으로 추출하는데 필요한 기반 텍스트 분석 엔진들의 성능 평가 및 개선을 위한 테스트베드 툴킷을 소개한다. 이 툴킷은 과학기술분야의 전문용어를 비롯한 인명, 지명, 기관명 등을 자동으로 인식하는 기술개체인식엔진을 위한 테스트베드와 인식된 기술개체 간의 의미적 연관관계를 자동으로 추출하는 기술개체 간 관계추출 테스트베드 로 구성되어 있다.

  • PDF

스마트폰 기반의 고 정밀 위치 인식 서비스 지원을 위한 LBS 플랫폼 개발

  • 이양구;조영수;지명인;김주영;박상준
    • 정보와 통신
    • /
    • 제30권2호
    • /
    • pp.3-10
    • /
    • 2013
  • 본고에서는 ETRI에서 현재 수행하고 있는 "5m 정밀도의 증강현실 서비스 지원 LBS 플랫폼 개발"과제에 대한 플랫폼 구성과 주요 핵심기술들에 대해서 소개한다. 개발 기술은 스마트폰 사용자들에게는 실내외 어느 곳에서나 5m 이내의 정밀한 위치정보를 제공하고, 위치정보사업자들에게는 짧은 시간에 서비스용 실내지도와 운용시스템 구축을 가능하게 하도록 한다. 특히 운용 이후에 발생되는 유지 관리 비용을 최소화 할 수 있고 쉽게 서비스지역을 확장할 수 있는 기술 개발을 목표로 하고 있다.

도로표지 영상에서 IRBP 기반의 문자 영역 추출 (Text Area Detection of Road Sign Images based on IRBP Method)

  • 정규수
    • 한국ITS학회 논문지
    • /
    • 제13권6호
    • /
    • pp.1-9
    • /
    • 2014
  • 최근 Mobile Mapping System을 활용한 영상의 수집과 도로표지 속성정보의 자동 인식을 위한 연구가 진행되고 있다. 도로표지는 판의 규격, 글씨크기 및 배치가 다양하고 가로수 등 타 시설물의 간섭으로 인해 일정한 패턴을 찾아 정보를 추출하기 어렵다. 본 연구에서는 다양한 크기의 한글 문자가 있거나, 한글문자 주변에 심벌이 위치한 도로표지에 대해서도 국문지명을 성공적으로 검출하기 위해서는, 한글문자 템플릿에 의존하지 않는 새로운 국문지명 검출 방법이 필요하다. 그 새로운 한 방법으로서, 점진적 좌측방향으로의 블럽 투사(incremental right-to-left blob projection, IRBP)를 제시하고, 그 가능성과 개선 정도를 평가하였다. 성능 평가하기 위하여, 60개의 도로표지 영상 데이터로 기존의 한글 템플릿을 사용하는 경우와 비교하여 성능을 평가하였다. 전반적으로, IRBP 방법으로 국문지명 검출 성능을 개선할 수 있음을 확인하였다.

국제학술지, 지도, 문서에 나타난 대한해협 해양지명과 경계에 대한 인식 변화 (The Maritime Geography of Korea Strait: Suggested Nomenclature and Cartographic Boundaries Derived from a Review of Historical and Contemporary Maps)

  • 변도성;최병주
    • 한국해양학회지:바다
    • /
    • 제28권2호
    • /
    • pp.63-93
    • /
    • 2023
  • 이 연구는 황·동중국해와 동해 울릉분지 사이에 위치한 수로를 대한해협(Korea Strait)으로 명명한 역사적 사실을 바탕으로 향후 국내 연구자들이 활용할 수 있는 일관된 명명법과 지리적 영역을 제시하였다. 국제적으로 대한해협으로 알려진 이 수역은 일상에서 보통 남해로 불리지만, 역사적 근거에 기초하여 대한해협으로 불리는 것이 바람직하다. 이러한 권장안 사용을 뒷받침하기 위해, 먼저 우리나라 주변해역에 대한 고지도, 고해도, IHO 특별간행물(S-23) 등을 분석하여 과거 대한해협의 공간범위를 정의하였고, 대한해협과 대한해협 내 서수도·동수도 지명들의 변천 과정을 조사하였다. 이를 바탕으로 지난 17년(2005-2021년) 간 Ocean Science Journal (OSJ)과 Journal of Oceanography (JO)에 실린 논문들 중 지도에 Korea Strait 또는 관련 지명(South Sea, Korea/Tsushima Straits, Tsushima Strait)을 표기한 논문들을 분석하여 연구자들의 대한해협 지명 표기와 그 공간적 위치에 대한 인식을 조사하였다. OSJ의 경우에 42.9%가 'Korea Strait'를 표기한 반면에 JO의 경우 60.4%가 'Tsushima Strait'를 표기하였다. 하지만, OSJ에는 'Tsushima Strait'를 단독으로 표기한 논문이 한 편도 없었으나, JO에는 7.5%가 'Korea Strait'를 단독으로 표기하였다. 두 국제학술지에서 실린 'Korea Strait' 지명 표기 위치는 크게 5가지 형태로 분류되었다. 즉, 각 논문에서는 대한해협을 광의의 대한해협 영역(Type 1), 울릉분지와 대마도 사이(Type 2), 대한해협 내 서수도(Type 3-1), 대한해협 내 동수도(Type 3-2), 대한해협 내 서·동수도(Type 4)에 표기하고 있었다. 이 중 Type 1이 OSJ의 경우 71.4%를, JO의 경우 60.4%를 차지하여, 광의의 대한해협 영역에 가장 빈번하게 이 해협의 이름을 표기하고 있었다. 끝으로 현재 대한해협을 흐르는 해류의 명칭이 국제적으로 '대한난류'가 아닌 '대마난류' 즉 대한해협 지명에서 비롯하지 않은 명칭이라는 사실에 관해 논의하였다.

한국 고지도에 표현된 백두산 동류 수계 (Baekdu Mountain's East Flowing Streams on the Old Map of Korea)

  • 문상명
    • 한국지역지리학회지
    • /
    • 제19권2호
    • /
    • pp.259-281
    • /
    • 2013
  • 본 연구의 목적은 고지도에 표현된 쟁점이 되는 백두산 동류 하천인 토문강 분계강 두만강 하천 유로의 분석을 통해 고지도에 나타난 북방영역 인식, 토문강 두만강의 1강설과 2강설, 분계강의 의미에 대하여 연구하는 것이다. 백두산 영역권과 만주를 포함하고 있는 한국의 고지도 248점 가운데 백두산이 그려져 있지 않은 지도를 제외한 160점의 고지도를 유형화하여 연구의 분석에 활용하였다. 연구의 결과 고지도에서 백두산 북동부 유로는 다양하게 나타나며, 토문강과 두만강 2강설은 대체로 확대된 북방영역 인식을 표출하고, 1강설을 나타내는 지도 중에는 분계강을 속평강과 같은 강으로 표현하여 확대된 북방영역 인식을 표출하기도 한다는 것을 알 수 있었다. 그런데 1강설의 지도가운데 분계강의 의미가 현재 지명의 해란하인 경우, 지도에는 확대된 영토인식이 나타나지 않고 현재 한반도와 중국의 국경선과 일치되는 국경인식이 나타난다. 고지도에서 분계강은 첫째, 속평강과 같은 강으로 확대된 영토인식이 나타나며 둘째, 토문강과 같은 강으로 토문강의 하류이다. 셋째, 현재 지명의 해란하를 표현하고 넷째, 단순히 분계를 나타내는 강을 의미한다.

  • PDF

Multi-Head Attention 방법을 적용한 문자 기반의 다국어 개체명 인식 (Character-Aware Neural Networks with Multi-Head Attention Mechanism for Multilingual Named Entity Recognition)

  • 천민아;김창현;박호민;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-171
    • /
    • 2018
  • 개체명 인식은 문서에서 인명, 지명, 기관명 등의 고유한 의미를 나타내는 단위인 개체명을 추출하고, 추출된 개체명의 범주를 결정하는 작업이다. 최근 개체명 인식과 관련된 연구는 입력 데이터의 앞, 뒤를 고려하기 위한 Bi-RNNs와 출력 데이터 간의 전이 확률을 이용한 CRFs를 결합한 방식을 기반으로 다양한 변형의 심층학습 방법론이 제안되고 있다. 그러나 대부분의 연구는 입력 단위를 단어나 형태소로 사용하고 있으며, 성능 향상을 위해 띄어쓰기 정보, 개체명 사전 자질, 품사 분포 정보 등 다양한 정보를 필요로 한다는 어려움이 있다. 본 논문은 기본적인 학습 말뭉치에서 얻을 수 있는 문자 기반의 입력 정보와 Multi-Head Attention을 추가한 Bi-GRU/CRFs을 이용한 다국어 개체명 인식 방법을 제안한다. 한국어, 일본어, 중국어, 영어에 제안 모델을 적용한 결과 한국어와 일본어에서는 우수한 성능(한국어 $F_1$ 84.84%, 일본어 $F_1$ 89.56%)을 보였다. 영어에서는 $F_1$ 80.83%의 성능을 보였으며, 중국어는 $F_1$ 21.05%로 가장 낮은 성능을 보였다.

  • PDF

정보보안 분야의 위협정보 개체명 인식 시스템 개발을 위한 데이터셋 구축 (Development of Tagging Dataset for Named Entity Recognition in Security)

  • 김경민;허윤아;김규경;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.669-671
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)은 주로 인명(PS), 지명(LC), 기관명(OG) 등의 개체를 인식하기 위한 방식으로 많이 사용되어왔다. 그 이유는 해당 개체들이 데이터에서 중요한 의미를 가진 키워드이기 때문이다. 그러나 다른 도메인이 달라진다면 그동안 사용된 개체보다 더욱 중요한 의미를 갖는 개체가 존재할 수 있다. 특히 정보보안 분야에서는 악의적으로 사용되는 위협정보가 문서 내에서 중요한 의미를 갖는다. 보안 문서는 해시값, 악성코드명, IP, 도메인/URL 등 위협정보에 중요한 단서가 될 수 있는 다양한 정보를 담고 있다. 본 논문에서는 정보보안 분야의 위협정보를 탐지할 수 있는 개체명 시스템 개발을 위해 4개의 클래스와 20가지 속성으로 정의한 구축 방식을 구축하고 그 구축 방식에 대해 제안한다.

  • PDF

한강(漢江)의 역사문화경관 연구 - 조선시대 경강(京江) 동호(東湖)지역(地域)을 대상으로 - (A Study on the Historical and Cultural Landscape of Han River - Around East Lake of Kyung River in Joseon Dynasty -)

  • 김선화;이재근
    • 한국전통조경학회지
    • /
    • 제32권2호
    • /
    • pp.55-67
    • /
    • 2014
  • 조선시대 경강 동호지역은 역사와 문화적 요소가 풍부하여 역사문화경관의 명승명소가 많았으나 현대 한강은 자연경관에 비해서 문화성과 역사성이 낮은 것으로 인식되고 있다. 본 연구는 한강이 지니고 있는 역사문화적 요소를 한강의 경관에 적용하고자 조선시대 문화공간의 경관 특성을 린치의 시각적 이미지요소에 적용하여 경관특성을 살펴보았다. 연구결과는 다음과 같다. 동호를 시각적 이미지 요소에 적용했을 때 '통로'로서 높게 인식되었고 가장자리를 의미하는 '경계'의 명료성 또한 동호가 높게 인식되었다. 방향 전환점인 '결절점'은 두모포가 인지도에서 우수하게 나타났다. 린치의 시각적 이미지 요소에서 '랜드마크'를 문화공간에 적용했을 때 경강 동호, 압구정, 제천정이 우월한 인지도를 보임으로써 역사문화경관의 지명도와 명성은 시각적 이미지 요소에 비례하는 것으로 파악되었다. 문화공간의 패턴, 구조, 의미가 명료하고 정체성이 확실할수록 '랜드마크'와 '지역'요소가 높게 인식되었다. 공간의 지명도가 높을수록 역사문화경관의 인지도가 높았다. 그러므로 한강의 역사문화경관 복원 시 시각적 인지도를 고려하여 조사하고 사례연구 함으로써 장소의 복원과 함께 역사성과 문화성에 대한 인지도를 높일 수 있을 것으로 사료된다.