• 제목/요약/키워드: 한글 텍스트

검색결과 377건 처리시간 0.02초

단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구 (A Study on Statistical Feature Selection with Supervised Learning for Word Sense Disambiguation)

  • 이용구
    • 한국비블리아학회지
    • /
    • 제22권2호
    • /
    • pp.5-25
    • /
    • 2011
  • 이 연구는 지도학습 방법을 이용한 단어 중의성 해소가 최적의 성능을 가져오는 통계적 자질선정 방법과 다양한 문맥의 크기를 파악하고자 하였다. 실험집단인 한글 신문기사에 자질선정 기준으로 정보획득량, 카이제곱 통계량, 문헌빈도, 적합성 함수 등을 적용하였다. 실험 결과, 텍스트 범주화 기법과 같이 단어 중의성 해소에서도 자질선정 방법이 매우 유용한 수단이 됨을 알 수 있었다. 실험에 적용한 자질선중 기준 중에 정보획득량이 가장 좋은 성능을 보였다. SVM 분류기는 자질집합 크기와 문맥 크기가 클수록 더 좋은 성능을 보여 자질선정에 영향을 받지 않았다. 나이브 베이즈 분류기는 10% 정도의 자질집합 크기에서 가장 좋은 성능을 보였다. kNN의 경우 10% 이하의 자질에서 가장 좋은 성능을 보였다. 단어 중의성 해소를 위한 자질선정을 적용할 때 작은 자질집합 크기와 큰 문맥 크기를 조합하거나, 반대로 큰 자질집합 크기와 작은 문맥 크기를 조합하면 성능을 극대화 할 수 있다.

WorldCat 수록 한국 및 일본 관련 청소년 책의 분석 (An Analysis on the Juvenile Books on Korea and Japan in the WorldCat)

  • 윤정옥
    • 한국문헌정보학회지
    • /
    • 제47권3호
    • /
    • pp.5-23
    • /
    • 2013
  • 이 연구의 목적은 WorldCat에 수록된 한국 및 일본 관련 청소년 책의 언어, 장르, 주제적 특성을 살펴보고, 소장도서관 및 보유 현황을 분석함으로써 한국과 일본 관련 지식 확산의 가능성을 전망하는 것이다. 이를 위해 1993년부터 2012년까지 발행된 청소년용 책의 서지레코드 및 이들 중 한국 및 일본 관련 책의 서지 레코드 수가 가장 비슷했던 1997년 발행 책들의 소장도서관 수, 언어, 장르 및 주제표목 분포를 상세히 계량분석 하였다. 한국 관련 책들은 WorldCat 수록 서지레코드 수가 절대적으로 적고, 1997년 책은 미국 내 소장 및 보유도서관 수가 적으며, 대부분 한글 전용 텍스트, 영유아 및 초등 저학년 수준 책의 과잉, 옛날이야기나 일화 중심 전기서 등 장르와 주제 편향성 등을 보여 '읽을거리'로서 흥미 유발이나 지식 확산의 전망이 제한적일 것으로 나타났다.

저자 식별을 위한 자질 비교 (Features for Author Disambiguation)

  • 강인수;이승우;정한민;김평;구희관;이미경;성원경;박동인
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.107-111
    • /
    • 2007
  • 학술 정보에서 저자는, 실세계의 한 저자가 형태적으로 둘 이상의 저자명으로 출현할 수 있으며, 서로 다른 저자들이 동일한 저자명을 공유하기도 한다. 이는 각각 학술정보에 대한 검색 및 탐색에 있어, 재현율과 정확률을 저하시키는 요인이다. 이 연구에서는 후자에 해당하는 저자의 동명이인 문제에 있어, 그 중의성 해소를 위한 자질의 특성에 집중하고자 한다. 최근까지, 저자 식별을 위한 자질로, 공저자, 논문 제목, 게재지명과 같은 서지 내적 자질과, 논문 원문 텍스트로부터 획득되는 전자메일주소, 소속기관, 논문의 토픽 등과 같은 서지 외적 자질이 사용되어 왔다. 그러나, 이러한 자질들이 저자 식별에 미치는 영향에 대한 비교 분석 연구는 찾아보기 힘들다. 이 연구에서는, 한글 저자명에 대해 원문과 연계된 대용량 저자 식별 평가 셋을 구축하여, 동명 저자 중의성 해소에 있어 다양한 자질들의 특성을 비교한다.

  • PDF

기계학습 기반 경쟁자 자동추출 방법 (Competitor Extraction based on Machine Learning Methods)

  • 이충희;김현진;류법모;김현기;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-112
    • /
    • 2012
  • 본 논문은 일반 텍스트에 나타나는 경쟁 관계에 있는 고유명사들을 경쟁자로 자동 추출하는 방법에 대한 것으로, 규칙 기반 방법과 기계 학습 기반 방법을 모두 제안하고 비교하였다. 제안한 시스템은 뉴스 기사를 대상으로 하였고, 문장에 경쟁관계를 나타내는 명확한 정보가 있는 경우에만 추출하는 것을 목표로 하였다. 규칙기반 경쟁어 추출 시스템은 2개의 고유명사가 경쟁관계임을 나타내는 단서단어에 기반해서 경쟁어를 추출하는 시스템이며, 경쟁표현 단서단어는 620개가 수집되어 사용됐다. 기계학습 기반 경쟁어 추출시스템은 경쟁어 추출을 경쟁어 후보에 대한 경쟁여부의 바이너리 분류 문제로 접근하였다. 분류 알고리즘은 Support Vector Machines을 사용하였고, 경쟁어 주변 문맥 정보를 대표할 수 있는 언어 독립적 5개 자질에 기반해서 모델을 학습하였다. 성능평가를 위해서 이슈화되고 있는 핫키워드 54개에 대해서 623개의 경쟁어를 뉴스 기사로부터 수집해서 평가셋을 구축하였다. 비교 평가를 위해서 기준시스템으로 연관어에 기반해서 경쟁어를 추출하는 시스템을 구현하였고, Recall/Precision/F1 성능으로 0.119/0.214/0.153을 얻었다. 제안 시스템의 실험 결과로 규칙기반 시스템은 0.793/0.207/0.328 성능을 보였고, 기계 학습기반 시스템은 0.578/0.730/0.645 성능을 보였다. Recall 성능은 규칙기반 시스템이 0.793으로 가장 좋았고, 기준시스템에 비해서 67.4%의 성능 향상이 있었다. Precision과 F1 성능은 기계학습기반 시스템이 0.730과 0.645로 가장 좋았고, 기준시스템에 비해서 각각 61.6%, 49.2%의 성능향상이 있었다. 기준시스템에 비해서 제안한 시스템이 Recall, Precision, F1 성능이 모두 대폭적으로 향상되었으므로 제안한 방법이 효과적임을 알 수 있다.

  • PDF

서포트벡터머신과 정칙화판별함수를 이용한 비디오 문자인식의 분류 성능 개선 (Video character recognition improvement by support vector machines and regularized discriminant analysis)

  • 임수열;백장선;김민수
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권4호
    • /
    • pp.689-697
    • /
    • 2010
  • 본 연구에서는 비디오이미지로부터 추출된 텍스트영역으로부터 문자인식을 수행하였다. 비디오영상으로부터 추출된 문자열은 한글, 영어, 숫자, 특수문자 등으로 혼합되어 있거나, 또는 다양한 폰트와 크기, 그래픽 형태의 글자 존재, 영상의 기울어짐, 끊김, 잡영, 접촉, 저해상도의 글자 등으로 인하여 일반적인 문자인식에 비해 많은 어려움이 존재한다. 이와 같은 어려움을 극복하기위해 본 연구에서는 모든 글자에 대해서 인식하지 않고 가장 빈번하게 등장하는 글자만을 인식하고 나머지는 버리는 방법을 사용하였으며 지지도벡터기계와 정칙화판별분석의 2단계 문자인식 방법을 이용하여 인식률을 개선하였다. 또한 인식률이 좋지 못한 4형식과 5형식 글자에 대해 모음별로 중분류를 실시하였다. 실험결과 지지도벡터기계와 정칙화판별분석을 동시에 사용하는 방법이 다른 문자인식의 방법들보다 인식률이 우수하였으며, 부분적인 중분류의 방법을 이용한 경우 향상된 인식 성능을 나타냈다.

인터넷에서의 개선된 벡터라이징 기법에 관한 연구 (A study of improve vectorising technique on the internet)

  • 김용호;이윤배
    • 한국정보통신학회논문지
    • /
    • 제6권2호
    • /
    • pp.271-281
    • /
    • 2002
  • 현재 대부분의 웹디자이너들은 비트맵 그래픽을 사용하여 고정된 포인트 사이즈로 하이 퀼리티를 보장하고 있지만 이는 파일 크기와 유연성에 결점을 가지고 있다. 특히 배너문자나 광고문자에 하이 퀼리티를 제공하기 위해서는 반드시 다른 비트맵 에디팅 프로그램을 사용해서 작업한 후, 비트맵 데이터로 HTML 문서에 첨가하는 방식을 따를 수 밖에 없다. 또한 HTML 문서 자체적으로 글꼴을 단순하게 출력하는 방법 이외에, 단순한 blink, underline, bold, italic을 제외한 글꼴을 직접 제어하는 HTML Tag 또한 가지고 있지 않기 때문이라고도 할 수 있다. 때문에 폰트의 아웃라인 데이터를 이용한 효과나 외곽선 패턴 분할 같은 작업을 위해서는 벡터에디팅 프로그램과 이미지 에디팅 프로그램, 그리고 최종적으로 HTML 문서에 삽입하는 번거로운 과정을 거쳐야만 하는 문제에 직면하게 된다. 따라서 본 논문에서는 HTML 문서의 폰트에 몇 가지 태그를 새롭게 제시함으로써, 폰트에 더욱 다양한 효과를 줄 수 있는 방법을 제안한다. 제안된 방법은 텍스트 정보 저장시 단순한 제어점과 외곽선 정보만을 가지고 화면 출력하기 때문에 웹브라우저 상에서 인쇄물과 동일한 품질의 한글 문자 표현이 가능하며, 이종의 플랫폼에 상관없이 정확한 문자 표현, 다양한 효과로 문자 표현이 가능하다.

재난문자 서비스에서의 이미지 표출 방안 (A Method of Image Display on Cellular Broadcast Service)

  • 변윤관;이현지;장석진;최성종;표경수
    • 방송공학회논문지
    • /
    • 제25권3호
    • /
    • pp.399-404
    • /
    • 2020
  • 재난문자 서비스는 텍스트 기반으로 국민에게 재난 경보를 전달하는 서비스이다. 그래서 한글에 익숙하지 않은 외국인 들은 제공받은 재난문자 메시지를 정확히 이해하기 어렵다. 이미지 등 멀티미디어 정보를 제공하면 이러한 문제가 많이 해소 될 것으로 기대한다. 그러나 현재의 재난문자 서비스 방식은 멀티미디어 정보 전송에 적합하지 않다. 이 연구에서는 이러한 단점을 극복하기 위해 단말기에서 재난 이미지 표출을 위한 펌웨어 기반의 재난문자 서비스 방식을 제안한다. 이 방식을 적용한 단말기는 재난 종류에 대응하는 이미지들을 저장하고 있어야 하고 재난문자 메시지에 이미지 표출을 알려주는 특수문자를 사용해야 한다. 이 방식은 신형 단말기에 장착되는 새로운 펌웨어를 이용하여 구현할 수 있으며 기존 단말기에서도 문제없이 작동할 수 있음을 보여준다.

트리 구조를 이용한 수식 인식 연구 (A Study on Equation Recognition Using Tree Structure)

  • 박병준;김현식;김완태
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권4호
    • /
    • pp.340-345
    • /
    • 2018
  • 수식은 일반 문장에 비해 복잡한 구조와 다양한 문자와 기호가 사용되어 단순한 키보드 입력만으로는 모든 문자 집합을 입력할 수 없어 한글이나 워드 같은 문서편집기 내에서도 자체적으로 구현된 수식 편집기를 사용하고 있다. 수식을 올바르게 표현하기 위해 구문을 해석할 수 있는 의미가 될 수 있는 사전 학습 정보가 필요하다. 문자가 입력되더라도 크기와 위치 서로간의 관계에 따라 다른 수식으로 표현될 수 있기 때문이다. 즉 표현될 위치와 크기 등 문자와 기호들 간의 상호관계를 고려하여 수식의 형태를 트리 모델로 표현한다. 문자인식 응용의 한 분야로 문자나 기호(부호)를 인식하는 기술을 이미 널리 알려졌지만, 수식을 입력과 해석하는 방법은 일반적인 텍스트에 비해 복잡한 분석 과정이 필요하다. 본 논문에서는 수식의 문자를 인식하고 표현되는 위치와 크기의 결정을 빠르게 해석하는 수식 인식기를 구현하였다.

현대 한국어에서 아라비안 숫자의 읽기 규칙 연구 (A Study on the Arabic numeral reading rules in Modern Korean)

  • 정영임;김정세;김상훈;이영직;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-23
    • /
    • 2002
  • 본 논문에서는 아라비안 숫자를 포함한 텍스트를 음성으로 합성하기 위하여, 숫자 형태와 분류사 그리고 숫자가 나오는 문맥에 따라 숫자를 자동으로 문자화할 수 있는 전처리 규칙을 설정하는데 목적을 둔다. 먼저 선행연구를 통해 숫자를 포함한 수사 및 수사표현의 읽기 규칙의 적용 범위 및 한계점을 살펴보고, 음성 합성을 위한 아라비안 숫자의 문자화 규칙을 설정하고자 한다. 현대 한국어에서 아라비안 숫자를 읽는 방식은 크게 고유어 방식과 한자어 방식이 있으며 단(單)단위에서는 영어가 사용되기도 한다. 또한 한자어 방식에서도 단위를 붙여 읽는 경우와 모든 수를 단 단위로 읽는 경우가 있으므로, 아라비안 숫자의 문자화를 단순한 규칙을 설정하여 자동화하기에는 중의성이 높다. 본 연구에서는 (1) 숫자 전 전치어(pre-numeral), (2) 기호를 포함한 숫자열의 표현 형식과 크기, (3) 단위 표현, (4) 숫자 후치어(post-numeral), (5) 분류사(classifier) (6) 분류사 후치어(post-classifier), (7) 수사표현 앞뒤 문맥에 따라, 아라비안 숫자표현이 문자화되는 방식을 살펴보았다. 분석 대상 말뭉치는 C 신문의 2000년 1월부터 2000년 4월까지 전체 기사 1,400건에서 숫자가 포함된 숫자표현 약 63,000개론 구성하였다. 패턴화된 구조 및 중의성이 없는 구조를 12가지로 밝히고 중의성이 있는 구조의 유형을 밝혔으며 분류사 후치어와의 결합 관계, 좌우 문맥정보를 통해 중의성 해결의 단서를 제시하고자 하였다.

  • PDF

저자 식별을 위한 자질 비교 (Features for Author Disambiguation)

  • 강인수;이승우;정한민;김평;구희관;이미경;성원경;박동인
    • 한국콘텐츠학회논문지
    • /
    • 제8권2호
    • /
    • pp.41-47
    • /
    • 2008
  • 학술 정보에서 저자는, 실세계의 한 저자가 형태적으로 둘 이상의 저자명으로 출현할 수 있으며, 서로 다른 저자들이 동일한 저자명을 공유하기도 한다. 이는 각각 학술 정보에 대한 검색 및 탐색에 있어, 재현율과 정확률을 저하시키는 요인이다. 이 연구에서는 후자에 해당하는 저자의 동명이인 문제에 있어, 그 중의성 해소를 위한 자질의 특성에 집중하고자 한다. 최근까지, 저자 식별을 위한 자질로, 공저자, 논문 제목, 게재지명과 같은 서지 내적 자질과, 논문 원문 텍스트로부터 획득되는 전자메일주소, 소속기관, 논문의 토픽 등과 같은 서지 외적 자질이 사용되어 왔다. 그러나, 이러한 자질들이 저자 식별에 미치는 영향에 대한 비교 분석 연구는 찾아 보기 힘들다. 이 연구에서는, 한글 저자명에 대해 원문과 연계된 대용량 저자 식별 평가 셋을 구축하여, 동명 저자 중의성 해소에 있어 다양한 자질들의 특성을 비교한다.