• 제목/요약/키워드: 정보 단위

검색결과 5,295건 처리시간 0.033초

한국어 발음열 자동 생성을 위한 형태소 태그 정보 기반의 텍스트 전처리기 (Text Preprocessor for Generating Korean Automatic Pronunciation Variants Using Morpheme-trg Information)

  • 이경님;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.199-201
    • /
    • 2001
  • 일반적으로 발음열 자동 생성기는 음성 인식 및 음성 합성에 사용되며, 그 주된 역할은 입력된 한글 철자에 대해 발음 나는 데로 표기된 음소열로 출력하는 것이다. 그러나 실제 입력되는 문장에는 특수 기호 및 알파벳. 아라비아 숫자, 영어 단어, 알파벳과 숫자가 혼용된 약어, 기호 단위 명사 등이 포함되어 있다. 게다가 아라비아 숫자의 경우 단위 명사의 종류에 따라서 뿐만 아니라, 문맥에 따라 숫자를 읽는 방식이 달라지게 된다. 이러한 모든 현상들을 발음열 생성기 내부에서 처리하게 되면 선행작업이 상대적으로 크게 되어 과부하 문제 가 발생된다. 또한 어절 내의 문맥 정보만으로 정확한 변환 결과를 얻기 힘들기 때문에 형태소 분석 수행 결과 및 예외처리를 위 한 루틴을 포함하여 한글 자소 단위의 입력형식으로 변환하는 전처리 시스템을 구성하였다.

  • PDF

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한극어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bi-gram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분서고가 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

자동 추출된 시간정보를 이용한 사건 클러스터링 (Event Clustering Using Automatically Extracted Temporal Information)

  • 김평;남덕윤;최기석;맹성현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.466-468
    • /
    • 2005
  • 신문기사를 대상으로 사건 단위로 문서를 클러스터링 하기 위해서, 기존의 연구에서는 기사의 발행일 또는 기사의 내용만 사용하여 하나의 사건을 다른 사건과 구분하는 방법을 사용해 오고 있다. 하지만 사건의 전개가 시간 차이를 두고 진행되는 경우 또는 비슷한 시간대에 같은 범주에 속하는 사건이 발생하는 경우 기사의 발행일만 사용하여 사건 관련 기사를 구분하는 것은 한계가 있다. 본 연구에서는 한국어 신문기사를 대상으로 신문기사에 나타난 시간정보를 자동 추출하고, 이를 기사의 발행일을 기준으로 정규화 한 후 사용하여 사건단위로 기사를 클러스터링 하는 방법을 개발하였다. 즉 한국어 신문 기사를 대상으로 기사에 나타난 시간 표현을 자동으로 추출한 후, 사건과의 유사도 비교에 사용함으로써 사건 단위 클러스터링의 정확도를 높이기 위한 방법을 제안한다.

  • PDF

RDF 메타 데이터를 이용한 인덱스 기반의 XML/SGML 문서 검색 방법에 관한 연구

  • 오동현;김규태;정회경;이수연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.42-44
    • /
    • 1999
  • 인터넷이 급속히 성장함에 따라 대량의 SGML/XML 문서를 보다 효과적으로 다룰 필요성이 증대하고 있다. SGML/XML 문서를 데이터베이스에 저장하는 경우에 문서를 파싱하여 파싱된 결과를 모두 분리하여 저장하고 서로의 연관관계를 모두 구분하는 경우 구조화 정보를 최대한 이용할 수 있는 등 여러 가지 장점을 지니게 된다. 하지만, 이 경우 분할단위의 폭발적인 증가로 인한 시스템 성능 저하와 내용중복으로 인한 색인저장 오버헤드가 문제이다. 이런 문제점을 해결방안의 하나로서 본 논문에서는 RDF 메타데이타를 통하여 검색시 의미가 있는 단위로 분할 단위를 축소 지정하고 이 축소된 정보를 기반으로 인덱스를 생성하여 내용중복을 방지하는 방법을 제안하였다. 이 방법은 RDF메타데이타를 통해 이루어짐으로서 웹기반에서 자동으로 이루어질 수가 있으며, 이를 통해서 기존의 방법보다 자동화된 검색을 할 수 있다.

  • PDF

지리적 정보를 이용한 무선망에서의 QoS 보장에 관한 연구 (A Study on the Guarantee of QoS in the Wireless Network Using the Geographical Information)

  • 이장용;박찬영;황지수;이창섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.1465-1468
    • /
    • 2004
  • 기본적으로 무선 네트워크는 일정한 크기의 셀 단위로 구성된다. 통신 중인 단말은 이러한 셀 사이를 이동하게 되고, 셀과 셀 사이를 이동하는 것을 핸드오프라고 한다. 최근의 셀 크기는 보다 많은 사용자를 수용하기 위해 피코 셀 단위로까지 작아지고 있다. 이렇게 셀 단위가 작아지면, 더욱 빈번한 핸드오프가 일어나게 된다. 본 논문에서는 빈번한 핸드오프로 인한 연결 실패율을 줄이고자 지리적 정보를 토대로 이동성을 예측하고, 그 예측 결과를 사용하여 이동 단말의 속도에 따라 대역폭 예약을 다르게 하는 방식을 제안한다. 이 방식은 이동 단말의 속도와, 셀 내의 도로 사정, 도로 사정에 따른 다음 셀 이동 확률 등을 이용하여 대역의 예약범위와 예약 대역폭 량을 결정한다. 이러한 방법으로 좀 더 확실한 이동성 예측과 예약 대역폭 미사용에 따른 대역폭 낭비를 줄이는 효과를 볼 수 있었다.

  • PDF

지구단위의 도시쇠퇴현황 분석지원시스템 개발 (The Development of the Urban Deprivation Analysis Supporting System as Neighbourhood Level)

  • 양동석;조승연;최지인
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1584-1587
    • /
    • 2013
  • 도시재생정책과 계획수립 지원을 위한 도시재생종합정보시스템이 지구단위로서 읍면동 및 집계구 단위로 구축되었다. 이를 이용하여 지표별 진단과 복합쇠퇴진단을 통한 관심지역 추출로 보다 상세한 도시쇠퇴 진단이 가능하다. 이 시스템을 정부정책에 이용하는 것뿐만 아니라 주민의 지역문제 확인 및 해결방안 모색을 위한 도구로 적극 활용되어야 할 것이다. 또한 데이터를 지자체에 직접 입력하게 하여 신속한 정보갱신과 비용절감이 가능한 유지관리방안의 검토가 필요하다.

H.264 동영상 압축을 위한 부 화소 단위에서의 고속 움직임 추정 방법 (A Fast Sub-pixel Motion Estimation Method for H.264 Video Compression)

  • 이윤화;최명훈;신현철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권4호
    • /
    • pp.411-417
    • /
    • 2006
  • 움직임 추정은 H.264의 비디오 코딩 과정에서 가장 많은 연산량을 차지하는 중요한 처리과정이다. 움직임 추정 과정에서 정수배 화소 단위에서의 탐색에 비하여, 1/2 화소 (half-pixel)와 1/4 화소(quarter-pixel) 단위까지의 움직임 추정은 영상압축률을 높일 수 있지만, 계산의 복잡도가 늘어나는 문제가 있다. 본 논문에서는 각 블록간의 절대 오차 값인 SAD (Sum of Absolute Difference)가 최소 점을 기준으로 포물선 모양의 분포를 나타내는 특성 및 1/2 단위와 1/4 단위의 화소 보간 특성을 이용하여 움직임 추정 과정에서 탐색 점을 줄임으로써 처리속도를 증가시키고, 계산의 복잡도를 줄이는 알고리듬을 제안하였다. 제안한 방법에서는, 정수 화소 단위에서의 가장 작은 SAD를 갖는 점을 기준으로 주위 8점 가운데 두 번째로 SAD가 작은 점을 찾아 해당 방향으로 1/2 화소 단위의 움직임 추정을 행하였고, 1/4 화소 단위에서도 1/2 화소단위에서 두 번째로 SAD가 작은 점 방향으로 움직임 추정을 실행하였다. 그 결과 기존 알고리듬에 비해 비교적 화질에 변화가 없고, 인코더 처리과정 에서 약 20%의 빠른 속도로 처리하는 결과를 보였다.

형태소 어휘 문맥에 기반한 태깅 오류 정정 (Tagging Error Correction Using Lexical Morpheme Context)

  • 김영길;양성일;홍문표;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-68
    • /
    • 2003
  • 본 논문에서는 형태소 분석 대상 어절의 좌우 어절내의 대표 형태소 어휘 문맥 정보에 기반한 형태소 오류 정정 방안을 제안한다. 현재까지 주변의 품사열 문맥 정보에만 의존하는 기존의 품사 태깅 모델과 달리 주변 어휘를 반영할 수 있는 좌우 어절 문맥을 이용해 형태소 태거의 성능을 향상시킬 수 있는 방법들이 제시되었다. 그러나 이러한 어절 문맥에 의한 지속적인 성능 향상을 위해서는 대량의 품사 태킹 문맥 정보를 필요로 한다. 따라서 본 논문에서는 이러한 자료 부족 문제를 해결하기 위하여 기존의 분석 대상 어절 좌우의 어절 단위의 어휘 문맥 정보가 아닌 좌우 어절내의 대표 형태소 단위의 형태소 어휘 문맥을 이용한 품사 태깅 오류 정정 방안을 제안한다. 실험을 통해, 형태소 어휘 단위의 문맥 정보의 적용성(Coverage)의 높고 기존의 품사 문맥 정보 기반의 형태소 분석기의 태깅 오류를 정정하여 그 정확성을 크게 향상시킬 수 있음을 보인다.

  • PDF

디지털환경에서의 지식재산권 관련 R&D사업 규정의 실용성 분석 (The Practical Effectiveness of the Intellectual Property Legislation of the R&D National Projects)

  • 유사라
    • 한국비블리아학회지
    • /
    • 제16권1호
    • /
    • pp.269-283
    • /
    • 2005
  • 고가의 전문정보 활용이 디지털정보 관리와 서비스에 대한 지속적인 변화에 맞추기 위해서는 학술연구 정보 생산의 중요한 부분을 차지하고 있는 국가단위 R&D 사업 규정에 대한 지속적인 제도 보완이 중요하다. 연구대상으로 선정된 국가단위 R&D 사업 규정은 산자부의 산업기술개발사업운영요령과 정통부의 정보통신 연구개발 관리규정, 그리고 과학기술부의 특정연구개발사업처리규정 등을 중심으로 학술연구 커뮤니케이션을 위한 국가 단위 지식정보자원 활용차원을 중심축으로 조정되어야 할 각 규제의 지재권 관련 내용을 정보생산과 관리, 그리고 서비스 단계별로 세부 분석하였다. 분석 결과로 제안된 내용은 세가지로 기존 규정에 조항은 있으나 미숙하거나 실용성이 부족한 부분을 보완하는 내용과 관련사항에 대해 누락된 조항과 아직까지 전혀 언급되지 못하고 있으나 필요한 신설 조항으로 구성하였다.

  • PDF

단어 단위의 추정 정렬을 통한 영-한 대역어의 자동 추출 (An Automatic Extraction of English-Korean Bilingual Terms by Using Word-level Presumptive Alignment)

  • 이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권6호
    • /
    • pp.433-442
    • /
    • 2013
  • 기계번역 시스템 구축에 가장 필수적인 요소는 번역하고자 하는 언어간의 단어쌍을 담고 있는 대역어 사전이다. 대역어 사전은 기계번역뿐만 아니라 서로 다른 언어간의 정보를 교환하는 모든 응용프로그램의 필수적인 지식원(knowledge source)이다. 본 연구에서는 문서 단위로 정렬된 병렬 코퍼스와 기본적인 대역어 사전을 이용하여 영-한 대역어를 자동으로 추출하는 방법에 대해 소개한다. 이 방법은 수집된 병렬 코퍼스의 크기에 영향을 받지 않는 방법이다. 문서 단위로 정렬된 병렬 코퍼스로부터 문장 단위의 정렬을 수행하고 다시 단어 단위의 정렬을 수행한 후, 정렬이 채 되지 않은 부분에 대해 추정 정렬을 수행한다. 추정 정렬에는 문장에서의 위치, 다른 단어와의 관계, 두 언어간의 언어적 정보등 다양한 정보가 사용된다. 이렇게 추정 정렬된 단어쌍으로부터 영-한 대역어를 추출할 수 있다. 약 1,000개로 구성된 병렬 코퍼스로부터 추출한 영-한 대역어는 71.7%의 정확도를 얻을 수 있었다.