• 제목/요약/키워드: 단어 오류

검색결과 213건 처리시간 0.028초

필기체 혼합 문서 인식에 관한 연구 (A Study on the Recognition of Handwritten Mixed Documents)

  • 심동규;김인권;함영국;박래홍;이창범;김상중;윤병남
    • 한국통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.1126-1139
    • /
    • 1994
  • 본 논문에서는 그래픽을 포함한 필기체 한글화 영숫자로 구성된 혼합문서 인식시스팀을 제안하였다. 전처리 과정에서 제안한 국부적응 이진화 알고리듬으로 이진화를 수행하며, 연결요소와 체인코드를 이용하여 그래픽 영역을 분리하고 한글의 문자유형, 크기 그리고 수직모음의 부분적인 인식을 이용하여 개별문자를 분리한다. 인식단계에서는 DP 정합 비용함수값에 따른 brach and bound 알고리듬을 이용하여 한글 문자를 인식하며, 또한 몇 개의 안정한 특징값을 이용하여 영숫자를 인식하였다. 또한 인식단계에서의 정보와 단어사전의 정합을 통하여 인식기의 오류를 정정하였다. 컴퓨터 모의실험을 통하여 제안한 시스팀이 그래픽을 포함한 필기체 한글과 영숫자를 효과적으로 인식함을 보였다.

  • PDF

한국어 정보검색 시스템을 위한 구 단위 색인 (Phrase-based Indexing for Korean Information Retrieval System)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권1호
    • /
    • pp.44-48
    • /
    • 2004
  • 본 논문에서는 자연언어 처리 기술인 구문 분석 모듈을 도입해 단어 이상의 단위인 구 단위를 색인과 검색의 단위로 삼는 구 단위 색인 및 검색 기법의 사용을 제안한다. 초기의 정보검색의 방법으로 단일 주제어를 키워드로 색인하여 검색하는 방식이 널리 사용되어 왔으나 문서의 내용을 정확히 표현하기 어렵고 검색 결과의 문서 집합 또한 너무 커서 사용자의 만족도가 낮다 고도의 문서 처리 측면에서는 웹 문서들 자체가 갖는 다양한 오류들로 인해 현실적으로 충분히 만족할 만할 우수한 성능의 구문 분석 모듈이 구현되기는 어려우므로 상향식 구문 분석 모듈을 구현하여 완전한 구문 분석 결과를 얻지 못하는 많은 문장에 대해서도 가능한 구 단위 색인을 이용하여 검색 정확률과 재현률이 향상되고 검색 과정의 처리 부하도 줄이는 장점을 얻는다.

  • PDF

질의응답시스템에서 정답 특징에 관한 실험적 분석 (Experimental Analysis of Correct Answer Characteristics in Question Answering Systems)

  • 한경수
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권5호
    • /
    • pp.927-933
    • /
    • 2018
  • 자연어 질문에 대해 답변을 찾아 제공하는 질의응답시스템의 오류에 가장 큰 영향을 미치는 요소 중 하나가 질문으로 정답을 포함하고 있을 만한 문서나 단락을 검색하는 단계이다. 검색의 성능 향상을 위해서는 정답 포함 문서 및 단락의 특징을 잘 이해해야 한다. 본 논문은 질문, 정답 포함 문서, 정답 미포함 문서로 구성된 말뭉치를 사용하여 정답 문서에는 질문 단어가 얼마나 많이 출현하는지, 출현 위치는 어떻게 분포하는지, 질문과 정답 문서의 주제는 얼마나 유사한지 등을 실험적으로 분석한다. 이를 통해 질의응답시스템을 위한 기존의 검색 연구 결과들에 대한 원인을 설명하고 효과적인 검색 단계의 필요 요소에 관해 논의한다.

말소리장애 아동의 단어와 자발화 문맥의 음운오류패턴 비교 (A comparison of phonological error patterns in the single word and spontaneous speech of children with speech sound disorders)

  • 박가연;김수진
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.165-173
    • /
    • 2015
  • This study was aim to compare the phonological error patterns and PCC(Percentage of Correct Consonants) derived from the single word and spontaneous speech contexts of the speech sound disorders with unknown origin(SSD). The present study suggest that the development phonological error patterns and non-developmental error patterns of the target children, in according to speech context. The subjects were 15 children with SSD up to the age of 5 from 3 years of age. This research use 37 words of APAC(Assessment of Phonology & Articulation for Children) in the single word context and 100 eojeol in the spontaneous speech context. There was no difference of PCC between the single word and the spontaneous speech contexts. Significantly different developmental phonological error patterns between the single word and the spontaneous speech contexts were syllable deletion, word-medial onset deletion, liquid deletion, gliding, affrication, fricative other error, tensing, regressive assimilation. Significantly different non-developmental phonological error patterns were backing, addtion of phoneme, aspirating. The study showed that there was no difference of PCC between elicited single word and spontaneous conversational context. And there were some different phonological error patterns derived from the two contexts of the speech sound disorders. The more important interventions target is the error patterns of the spontaneous speech contexts for the immediate generalization and rising overall intelligibility.

S-절 분할을 통한 구문 분석 (Syntactic Analysis based on Subject-Clause Segmentation)

  • 김미영;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권9호
    • /
    • pp.936-947
    • /
    • 2005
  • 한국어 장문에서는 하나의 주어를 여러 용언이 공유하는 경우가 흔하고 주어의 생략 또한 빈번하다. 따라서 주어를 공유하는 용언들의 구간을 파악하는 것이 어렵고 의존문법을 이용한 구문분석시 주어의 의존관계를 찾는데 많은 오류가 생긴다. 이러한 주어의 의존관계의 애매성을 해소하기 위하여 우리는 S(ubject)-절이라는 개념을 제안한다. S-절은 한 개의 주어와 이 주어를 공유하는 단어그룹의 집합으로 정의되고, 본 논문에서는 결정트리를 이용하여 S-절을 자동적으로 분할하는 방법을 제안한다. S-절을 사용한 결과 의존문법에 기반한 구문분석 시스템의 성능이 $5\%$ 향상되었고 주어의 지배소를 찾는 정확률이 $32\%$ 증가했다.

Multi-channel과 Densely Connected Convolution Networks을 이용한 한국어 감성분석 (Korean Sentiment Analysis using Multi-channel and Densely Connected Convolution Networks)

  • 윤민영;구민재;이병래
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.447-450
    • /
    • 2019
  • 본 논문은 한국어 문장의 감성 분류를 위해 문장의 형태소, 음절, 자소를 입력으로 하는 합성곱층과 DenseNet 을 적용한 Text Multi-channel DenseNet 모델을 제안한다. 맞춤법 오류, 음소나 음절의 축약과 탈락, 은어나 비속어의 남용, 의태어 사용 등 문법적 규칙에 어긋나는 다양한 표현으로 인해 단어 기반 CNN 으로 추출 할 수 없는 특징들을 음절이나 자소에서 추출 할 수 있다. 한국어 감성분석에 형태소 기반 CNN 이 많이 쓰이고 있으나, 본 논문에서 제안한 Text Multi-channel DenseNet 모델은 형태소, 음절, 자소를 동시에 고려하고, DenseNet 에 정보를 밀집 전달하여 문장의 감성 분류의 정확도를 개선하였다. 네이버 영화 리뷰 데이터를 대상으로 실험한 결과 제안 모델은 85.96%의 정확도를 보여 Multi-channel CNN 에 비해 1.45% 더 정확하게 문장의 감성을 분류하였다.

원자로내 용융물 재배치시 용기 하부의 온도 거동

  • 강경호;김종환;김상백;김희동;김현섭;허훈
    • 한국원자력학회:학술대회논문집
    • /
    • 한국원자력학회 1997년도 춘계학술발표회논문집(1)
    • /
    • pp.581-586
    • /
    • 1997
  • 중대사고시 노심의 손상에 의한 노심용융물이 원자로 용기 하부 반구로 재배치될 때 고온의 노심용융물에 의한 열적 부하로 원자로 용기의 파손을 일으키게 된다. 원자로 용기하부 반구 내에서의 노심용융물의 열적 거동 및 하부 반구에 대한 열적 부하에 대한 분석은 용융물의 성분 및 재배치 과정의 복잡성 등으로 인한 실험적 모사의 한계성 및 현상 분석의 난이함에도 불구하고 기존 원자로의 중대사고에 대한 안전 여유도의 제고와 이에 따른 노내외 사고 관리 전략의 수립을 위하여 연구의 필요성이 제기된다. 본 연구에서는 노심용융물 냉각연구(SONATA-IV)의 예비 실험으로 노심용융물의 상사물로 $Al_2$O$_3$/Fe Thermite 용융물을 이용하여 실제 원자로 용기 하부 반구를 1/8 로 선형 축소한 반구형 실험 용기로 주입하는 실험을 수행하였다. 아울러 원자로 용기 하부 반구로 재배치된 노심용융물에 의한 열적, 기계적 부하에 대한 분석을 수행하기 개발된 유한 요소 프로그램인 CALF (Computer Analysis for Lower Head Failure ) 코드를 이용한 하부 반구의 열적 거동에 대한 해석 결과를 정리하였다. 용융물 주입 실험 결과 용융물 주입과 동시에 하부 반구에 직경 5cm 크기의 하부 반구 파손이 발생하였다. 이는 고온 용융물에 의한 제트류(Jet Impingement)의 효과로 생각된다 동일한 조건에서 CALF 코드로 하부 반구의 열적 거동을 분석하였는데, 실험과는 달리 하부 반구의 파손이 발생하지 않았다 이같은 해석 결과는 용융물의 제트류 효과가 존재하지 않는다면 고온의 용융물이 하부 반구 내로 재배치되더라도 하부 반구의 파손이 발생하지 않는다는 것을 보여준다.>$_3$ 흡착제 제조시 TiO$_2$ 함량에 따른 Co$^{2+}$ 흡착량과 25$0^{\circ}C$의 고온에서 ZrO$_2$$Al_2$O$_3$의 표면에 생성된 코발트 화합물을 XPS와 EPMA로 부터 확인하였다.인을 명시적으로 설명할 수 있다. 둘째, 오류의 시발점을 정확히 포착하여 동기가 분명한 수정대책을 강구할 수 있다. 셋째, 음운 과 정의 분석 모델은 새로운 언어 학습시에 관련된 언어 상호간의 구조적 마찰을 설명해 줄 수 있다. 넷째, 불규칙적이며 종잡기 힘들고 단편적인 것으로만 보이던 중간언어도 일정한 체계 속에서 변화한다는 사실을 알 수 있다. 다섯째, 종전의 오류 분석에서는 지나치게 모국어의 영향만 강조하고 다른 요인들에 대해서는 다분히 추상적인 언급으로 끝났지만 이 분석을 통 해서 배경어, 목표어, 특히 중간규칙의 역할이 괄목할 만한 것임을 가시적으로 관찰할 수 있 다. 이와 같은 오류분석 방법은 학습자의 모국어 및 관련 외국어의 음운규칙만 알면 어느 학습대상 외국어에라도 적용할 수 있는 보편성을 지니는 것으로 사료된다.없다. 그렇다면 겹의문사를 [-wh]의리를 지 닌 의문사의 병렬로 분석할 수 없다. 예를 들어 누구누구를 [주구-이-ν가] [누구누구-이- ν가]로부터 생성되었다고 볼 수 없다. 그러므로 [-wh] 겹의문사는 복수 의미를 지닐 수 없 다. 그러면 단수 의미는 어떻게 생성되는가\ulcorner 본 논문에서는 표면적 형태에도 불구하고 [-wh]의미의 겹의문사는 병렬적 관계의 합성어가 아니라 내부구조를 지니지 않은 단순한 단어(minim

  • PDF

한국 학생들의 영어 철자 인지와 발화에 대한 훈련효과 (Training Effect on the Perception and Production of English Grapheme by Korean Learners of English)

  • 초미희
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.226-233
    • /
    • 2019
  • 다섯 가지 미국 영어 모음 [ʌ, ju, ʊ, u, ə]으로 실현되는 영어 철자 를 어떻게 듣고 발음하는지 그리고 훈련의 효과는 어떠한지 살펴보기 위해서 31명의 한국 대학생들을 대상으로 철자 를 포함한 24개의 영어 단어들에 대하여 사전 시험-훈련-사후 시험의 형태로 인지와 발화 시험을 실시하였다. 전체적 결과를 살펴보면, 사후 시험에서 인지와 발화 점수가 모두 사전 시험보다 유의하게 향상되었으나 다섯 가지 모음 소리가 모두 향상된 것은 아니었다. 인지에서는 긴장 모음 [u]와 이완 모음 [ʊ]을 제외한 모음 소리들의 점수가 유의하게 상승되어서 훈련의 효과를 보였으며 발화에서는 [ʌ], [u], [ʊ]를 제외한 모음들이 훈련의 효과를 보였다. 이는 인지와 발화에서 모두 한국 학생들이 영어의 긴장 모음과 이완 모음의 차이를 구별하기 어려워 한다는 것을 보여주고 있다. 특히 발화에서 이완 모음 [ʊ]를 한국어 [우]와 가장 비슷한 음향적 성질을 가진 긴장 모음 [u]로 대치하여 발음하는 오류를 우세하게 보였으며 [ʌ]의 경우에는 [u]-비슷한 소리들로 대치함으로써 철자의 영향을 실증적으로 보여주었다. 또한 인지와 발화 시험의 오류 유형을 통해서 목표 모음이 [t, d, n, s]같은 혀끝소리 뒤에서는 미국 영어에서 [j]-탈락이 일어난다는 것을 한국 학생들이 모르고 [j] 삽입하는 경우가 기회 수준이상으로 발생하였다. 반대로, 입술소리 ([p, b, f, v, m])나 연구개소리 ([k, g]) 뒤에서는 [j] 소리가 있지만 철자에는 구현되지 않아서 [j]를 탈락시키는 오류도 보였다. 본 연구의 발견점들을 바탕으로 교실 현장에서 학생들에게 지도해야 할 교육적인 함축점도 논의하였다.

서버 클러스터에서의 인터넷 서비스를 위한 효율적인 연결 스케줄링 기법 (Round Robin(RR) ONE-IP: Efficient Connection Scheduling Technique for Hosting Internet Services on a Cluster of Servers)

  • 최재웅;김성천
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.736-738
    • /
    • 2001
  • 웹을 사용하는 사용자들의 급속도로 증가하는 서비스 요청을 신속하고 저렴한 비용으로 처리하기 위한 대응책으로, LAN 환경의 웹 서버 클러스터 구조가 각광을 받고 있다. 높은 가용성 및 확장성을 보장하는 웹 서비스를 제공하기 위해 많은 부하의 서비스 요구를 여러 서버에게 효과적으로 나누어 처리할 수 있어야 하며, 따라서 서비스 요청 패킷을 고르게 분배할 수 있는 합리적인 스케줄링 기법을 필요로 한다. ONE-IP 스케줄링 기법은 이더넷의 브로드케스트 메시지에 의해 스케줄링이 분산되도록 하는 전략을 사용함으로써, 클러스터에 유입되는 패킷의 집중화로 인해 발생할 수 있는 병목 현상(bottleneck)과 치명적인 오류(Single-point of Failure) 문제를 효과적으로 해결하였다. 그러나, 서비스를 요청하는 패킷의 발신지 주소만을 이용하는 단순한 패킷 스케줄링을 사용하기 때문에 클러스터를 구성하는 서버들 간의 부하 불균형을 가중시키며, 결과적으로 클러스터의 효율성을 저하시키는 문제점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 RR ONE-IP 기법을 제안하였다. 제안한 기법은 서버에 할당되는 부하간에 불균형이 발생하는 문제점을 해결하기 위해 TCP 연결 단위의 스케줄링 전략을 사용하였으며, 서버의 부하 정보를 이용하지 않는 RR 스케줄링 기법을 도입함으로써, ONE-IP 기법의 장점을 그대로 유지하면서 보다 나은 부하의 균등한 분배로 시스템의 처리 능력을 향상시키도록 하였다. 또한, 실험을 수행한 결과 제안한 기법이 기존의 기법에 비해 평균 3.84%의 시스템의 성능 향상을 보였으며, 과부하 발생율에서는 평균 23.5%의 감소를 가져왔음을 보였다.우 단어 인식률이 43.21%인 반면 표제어간 음운변화 현상을 반영한 1-Best 사전의 경우 48.99%, Multi 사전의 경우 50.19%로 인식률이 5~6%정도 향상되었음을 볼 수 있었고, 수작업에 의한 표준발음사전의 단어 인식률 45.90% 보다도 약 3~4% 좋은 성능을 보였다.으로서 hemicellulose구조가 polyuronic acid의 형태인 것으로 사료된다. 추출획분의 구성단당은 여러 곡물연구의 보고와 유사하게 glucose, arabinose, xylose 함량이 대체로 높게 나타났다. 점미가 수가용성분에서 goucose대비 용출함량이 고르게 나타나는 경향을 보였고 흑미는 알칼리가용분에서 glucose가 상당량(0.68%) 포함되고 있음을 보여주었고 arabinose(0.68%), xylose(0.05%)도 다른 종류에 비해서 다량 함유한 것으로 나타났다. 흑미는 총식이섬유 함량이 높고 pectic substances, hemicellulose, uronic acid 함량이 높아서 콜레스테롤 저하 등의 효과가 기대되며 고섬유식품으로서 조리 특성 연구가 필요한 것으로 사료된다.리하였다. 얻어진 소견(所見)은 다음과 같았다. 1. 모년령(母年齡), 임신회수(姙娠回數), 임신기간(姙娠其間), 출산시체중등(出産時體重等)의 제요인(諸要因)은 주산기사망(周産基死亡)에 대(對)하여 통계적(統計的)으로 유의(有意)한 영향을 미치고 있어 $25{\sim}29$세(歲)의 연령군에서, 2번째 임신과 2번째의 출산에서 그리고 만삭의 임신 기간에, 출산시체중(出産時體重) $3.50{\sim}3.99kg$사이의 아이에서 그 주산기사망률(周産基死亡率)

  • PDF

SNA를 이용한 AI 스피커 지속적 사용에 영향을 미치는 요인 분석 연구: 아마존 에코 리뷰 중심으로 (A Study on the Factors Affecting Continuous Use of AI Speaker Using SNA)

  • 김영범;차경진
    • 한국전자거래학회지
    • /
    • 제26권4호
    • /
    • pp.95-118
    • /
    • 2021
  • 최근 AI 스피커 시장의 규모가 급속도 커지면서 AI 스피커의 다양한 활용 가능성이 크게 주목받고 있다. 소비자들이 다양한 채널을 통해 제품을 사용한 경험을 표현하고 공유하는 환경을 만들어 졌고, 그로 인하여 소비자가 제품을 이용한 경험에 대한 다양하고 솔직한 생각을 남긴 리뷰들의 양이 방대해졌는데, 이러한 리뷰데이터는 소비자의 생각을 분석하는 데에 매우 유용하다고 할 수 있다. 본 연구에서는 이 리뷰데이터를 활용하여 AI 스피커 지속적인 사용에 영향을 미치는 요인에 대하여 분석하고자 하였다. 무엇보다 선행연구를 통하여 도출된 AI 사용의도에 영향을 미치는 7가지 요인들이 실제로 소비자들이 남기는 리뷰에서도 나타나는 요인인지를 확인하고자 하였다. 이를 위해, Amazon.com의 아마존 에코 제품에 대한 고객 리뷰데이터를 기반으로 하여 텍스트마이닝과 사회관계망 분석을 활용하여 분석하였다. 리뷰데이터를 긍정리뷰와 부정리뷰로 분류하고 전처리하여 도출된 단어들 간 연결성을 중심으로 AI 스피커의 지속적인 사용에 영향을 미치는 요인을 분류하고자 연결 중심성 분석을 하였으며, 이를 통해 연결성의 위치가 비슷한 단어들 간 분류를 하기 위하여 CONCOR 분석을 하였다. 긍정 리뷰 연구 결과, 소비자들은 AI 스피커 지속적 사용에 영향을 미치는 요인으로 의인화와 친밀성을 가장 중요하게 보았다. 이 두 요인들은 다른 요인들과도 강한 연결 관계를 보여주었고, 선행연구에서 도출된 요인 외에 연결성도 중요한 요인임을 도출하였다. 또한 추가적으로 부정적인 리뷰 분석 결과, 인식오류와 호환성이 AI 스피커 사용에 있어서 소비자들에게 부정적인 영향을 주는 주요 요인들로 도출되었다. 이러한 연구 결과를 토대로 본 연구에서는 소비자들이 아마존 에코 제품을 지속적으로 사용하게 하는 구체적인 방법에 대하여 제시하고자 한다.