• 제목/요약/키워드: 의미 오류

검색결과 392건 처리시간 0.032초

XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지 (Detecting Errors in POS-Tagged Corpus on XGBoost and Cross Validation)

  • 최민석;김창현;박호민;천민아;윤호;남궁영;김재균;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권7호
    • /
    • pp.221-228
    • /
    • 2020
  • 품사부착말뭉치는 품사정보를 부착한 말뭉치를 말하며 자연언어처리 분야에서 다양한 학습말뭉치로 사용된다. 학습말뭉치는 일반적으로 오류가 없다고 가정하지만, 실상은 다양한 오류를 포함하고 있으며, 이러한 오류들은 학습된 시스템의 성능을 저하시키는 요인이 된다. 이러한 문제를 다소 완화시키기 위해서 본 논문에서는 XGBoost와 교차 검증을 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 제안된 방법은 먼저 오류가 포함된 품사부착말뭉치와 XGBoost를 사용해서 품사부착기를 학습하고, 교차검증을 이용해서 품사오류를 검출한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류기로서 오류를 검출할 수 없다. 따라서 본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의 출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기 위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. 이 말뭉치는 오류 검출 대상의 전체 말뭉치로부터 임의로 추출된 것을 전문가에 의해서 오류가 부착된 것이다. 본 논문에서는 성능 평가의 척도로 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 또한 모집단의 모든 오류 후보를 수작업으로 확인할 수 없으므로 표본 집단과 모집단의 오류 분포를 비교하여 본 논문의 타당성을 보였다. 앞으로 의존구조부착 말뭉치와 의미역 부착말뭉치에서 적용할 계획이다.

대용량 멀티미디어 데이터의 효율적인 검색엔진 설계

  • 이광형;민소연
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 춘계학술발표논문집
    • /
    • pp.503-506
    • /
    • 2009
  • 본 논문에서는 대용량 멀티미디어 데이터에 대한 사용자의 다양한 의미검색을 지원하는 비디오 검색 시스템의 설계를 제안한다. 제안하는 시스템은 주석기반검색과 특징기반 검색을 각각의 에이전트를 통하여 자동으로 처리하였다. 먼저 주석기반검색은 사용자의 검색어를 입력하게 되면 가중치를 적용하여 의미를 더욱 구체화 하여 오류율을 최소화 하였으며, 특징기반검색은 주석기반검색에서 선택된 키프레임에 의해 데이터베이스의 영상들과 유사도를 검사하여 검색하였다. 시스템의 구현결과 기본시스템보다 0.5%의 재현율의 향상과 97.8%의 정확률을 나타내었다.

  • PDF

설비 오류 유형 구조화를 위한 인공신경망 기반 구절 네트워크 구축 방법 (An Artificial Neural Network Based Phrase Network Construction Method for Structuring Facility Error Types)

  • 노영훈;최은영;최예림
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.21-29
    • /
    • 2018
  • 4차 산업혁명 시대의 도래와 함께 스마트 팩토리의 개념이 대두되면서 설비가동률과 생산성에 악영향을 미치는 설비 오류의 발생을 데이터 분석 기법을 통해 예측하고자 하는 노력이 이루어지고 있다. 데이터 분석 기법을 활용하여 설비 오류를 예측하기 위해서는 설비 오류가 발생한 상황과 설비 오류 유형을 명시한 데이터인 설비 오류 이력이 필요하다. 하지만 많은 제조 현장에서는 설비 오류 유형이 정확하게 정의/분류가 되지 않아 설비를 운영하는 작업자가 자신의 경험적 판단에 의거하여 정형화되지 않은 텍스트의 형태로 설비 오류 유형을 작성하고, 이에 따라 데이터 분석 기법의 적용이 어렵다. 따라서 본 논문에서는 수기로 작성된 설비 오류 이력을 활용하여 설비 오류 유형을 파악하고 구조화하기 위한 구절 네트워크 구축 방법을 제안하고자 한다. 구체적으로, 단어를 쓰임새에 따라 분류한 용도 딕셔너리를 활용하여 비정형의 텍스트 데이터로부터 설비 오류 유형을 의미하는 구절을 추출하고, 추출된 구절 간의 유사도를 계산하여 네트워크를 구축한다. 제안하는 방법의 성능을 실제 제조 기업의 설비 오류 이력 데이터를 활용하여 검증하였으며, 본 연구의 결과는 텍스트 데이터에 기반한 설비 오류 유형 구조화와 나아가서는 설비 오류 발생 예측에 이용할 수 있을 것을 기대한다.

순환 신경망 병렬화를 사용한 의존 구문 분석 및 의미역 결정 통합 모델 (Joint Model for Dependency Parser and Semantic Role Labeling using Recurrent Neural Network Parallelism)

  • 박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.276-279
    • /
    • 2019
  • 의존 구문 분석은 문장을 구성하는 성분들 간의 의존 관계를 분석하고 문장의 구조적 정보를 얻기 위한 기술이다. 의미역 결정은 문장에서 서술어에 해당하는 어절을 찾고 해당 서술어의 논항들을 찾는 자연어 처리의 한 분야이다. 두 기술은 서로 밀접한 상관관계가 존재하며 기존 연구들은 이 상관관계를 이용하기 위해 의존 구문 분석의 결과를 의미역 결정의 자질로써 사용한다. 그러나 이런 방법은 의미역 결정 모델의 오류가 의존 구문 분석에 역전파 되지 않으므로 두 기술의 상관관계를 효과적으로 사용한다고 보기 어렵다. 본 논문은 포인터 네트워크 기반의 의존 구문 분석 모델과 병렬화 순환 신경망 기반의 의미역 결정 모델을 멀티 태스크 방식으로 학습시키는 통합 모델을 제안한다. 제안 모델은 의존 구문 분석 및 의미역 결정 말뭉치인 UProbBank를 실험에 사용하여 의존 구문 분석에서 UAS 0.9327, 의미역 결정에서 PIC F1 0.9952, AIC F1 0.7312의 성능 보였다.

  • PDF

자산가격의 오류는 인플레이션의 착각 때문인가? (Is Mispricing in Asset Prices Due to the Inflation Illusion?)

  • 이봉수
    • KDI Journal of Economic Policy
    • /
    • 제36권3호
    • /
    • pp.25-60
    • /
    • 2014
  • 본 논문에서는 주식수익률과 인플레이션 그리고 주택수익률과 인플레이션의 음의 관계가 인플레이션의 착각에 기인하는 것인가를 연구하고자 한다. 우선 자산가격의(즉, 주식가격과 주택가격의) 오류 부분을 선형 또는 비선형 현재가치 모델에 기인해 구해 내고 인플레이션이 이러한 오류 부분을 설명할 수 있는지를 세 개의 국가(즉, 미국, 영국 그리고 한국)의 데이터를 통해서 살펴보고자 한다. 다음에는 양의 인플레이션과 음의 인플레이션이 오류 부분에 비대칭적인 영향을 미치는지를 조사하고자 한다. 그 결과 양의 인플레이션과 음의 인플레이션이 모두 음의 효과를 가지지는 않는다는 사실을 발견하였는데, 이는 인플레이션이 이러한 오류 부분을 설명하지는 않는다는 것을 의미한다. 대신 소비자 심리에 기인한 행동적 요소가 자산가격의 오류에 크게 기여함을 발견하였다.

  • PDF

온톨로지를 이용한 eBook Annotation 시스템의 설계 및 구현 (Design and Implementation of eBook Annotation System using Ontology)

  • 신성욱;김종석;고승규;임순범;최윤철
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.211-215
    • /
    • 2002
  • 본 연구에서는 온라인 다중 사용자 환경의 eBook annotation 시스템 개발에서 데이터를 의미 기반으로 관리하고, 데이터에 대하여 상호 공통적인 이해를 표현하며, 그리고 데이터에 대한 무결성 검사 등을 지원하기 위해서 eBook annotation 온톨로지를 설계하였다. eBook annotation 데이터에 대한 상호 공통적인 이해의 표현을 위해서 한국 전자책 문서 표준인 EBKS(Electronic Book of Korea Standard)를 기반으로 설계 하였으며 설계 된 온톨로지는 Conceptual Graph(CG)를 사용하여 표현하였다. 의미 기반의 처리를 위해서 본 온톨로지에서는 동의어(synonym) 관계와 다국어(multilingua) 관계를 고려하였으며 또한 annotation 데이터 생성시 오류 방지와 중요도를 표현 하기 위해서 무결성 검사, 중요성 axiom을 고려 했다. 제안된 온톨로지는 annotation 데이터의 재사용성을 높일 수 있고 의미 정보를 활용함으로써 eLearning, cyberclass과 같은 다중사용자 환경에서 효과적인 협업을 가능하게 한다. 본 연구에서 구현한 eBook annotation 시스템은 설계한 온톨로지를 이용함으로써 의미 기반의 데이터 관리가 가능하다. 또한 annotation 생성 시 온톨로지 구조를 모르더라도 annotation을 생성할 수 있는 인터페이스를 구현하였다.

  • PDF

LDPC 부호와 RA 부호의 최소 거리 검색 알고리즘 (Minimum Distance Search Algorithms of LDPC Codes and RA Codes)

  • 정규혁
    • 한국통신학회논문지
    • /
    • 제31권3A호
    • /
    • pp.207-213
    • /
    • 2006
  • 본 논문은 반복 부분을 이용하여 단지 유효한 부호어만을 검색함으로서 RA 부호의 최소 거리를 구하기 위한 계산량을 줄인다. LDPC 부호도 RA 부호와 같이 반복 부분을 가지므로 제안된 알고리즘은 LDPC 부호의 최소거리 계산에도 적응된다. 최소 거리는 높은 신호대 잡음비에서 부호의 성능을 결정한다. 따라서 오류 마루를 추정하는 것을 가능하게 한다. 제안된 알고리즘은 부호 구조에 어떠한 제한도 두지 않고 최소 거리를 구할 수 있다. 실제적 의미가 있는 큰 길이의 인터리버를 가진 LDPC 부호와 RA 부호의 최소 거리가 본 논문에서 구해지며 이에 따른 오류 마루를 구하며 또한 이 오류 마루는 반복 복호의 성능과 비교된다.

시각과 청각 정보의 의미적 일치성에 따른 시각 우세성 효과의 변화 (The Changes of the Visual Dominance Effect due to Semantic Congruence of Visual and Auditory Information)

  • 김보성;민윤기
    • 인지과학
    • /
    • 제20권2호
    • /
    • pp.109-124
    • /
    • 2009
  • 시각 정보와 청각 정보가 동시에 제시될 때, 두 정보가 모두 지각되기 보다는 시각 정보가 더 우세하게 지각되는 현상을 보게 된다. 이러한 현상을 시각 우세성 효과라고 한다. 이러한 시각 우세성 효과에 각 정보의 의미적 일치여부의 속성이 어떠한 영향을 주는 지를 살펴보고자 하는 것이 본 연구의 목적이다. 이에 목표자극이 되는 시각 정보와 청각 정보의 의미적 속성이 서로 일치하는 조건과 불일치하는 조건으로 구분하여 살펴보았다. 그 결과, 오류율의 분석에서는 의미적 일치 여부에 따라 시각 우세성 효과의 변화는 나타나지 않았으나, 반응시간의 분석에서는 의미적 일치 여부에 따라 시각 우세성 효과의 변화가 나타났다. 이는 과제의 특성에 따라 의미적 일치성이 시각 우세성에 미치는 효과가 달라질 수 있음을 시사하는 것이다.

  • PDF

kahp 칼럼 - 아침밥을 굶으면 살 찌는 음식을 찾게 된다

  • Dallas, Mary Elizabeth
    • 건강소식
    • /
    • 제36권11호
    • /
    • pp.42-43
    • /
    • 2012
  • 하루 세 끼 중 아침밥이라도 줄이면 다이어트에 좀 더 도움이 되지 않을까. 이 같은 생각은 다이어트를 하는 사람들이 범하기 쉬운 오류 중 하나다. 아침밥은 하루세 끼 중 한 끼가 아니라 하루 중 가장 중요한 식사라는 의견에도 힘이 실린다. 때마침 지난 10월 개최된 신경과학 연례회의에서 의미 있는 연구 결과가 발표됐다.

  • PDF

의미 프레임과 유의어 클러스터를 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Semantic Frames and Synonym Clusters)

  • 임수종;임준호;이충희;김현기
    • 정보과학회 논문지
    • /
    • 제43권7호
    • /
    • pp.773-780
    • /
    • 2016
  • 기계학습 기반의 의미역 인식에서 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 의미 정보 또한 매우 유용한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 의미 정보를 활용하는 방안으로 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 의미 프레임 정보 확장, 구문-의미 정보 연동 규칙, 필수 의미역 오류 보정 등을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.77, 위키피디아 문서 기반의 Exobrain GS 3.0 평가셋에서는 8.05의 성능 향상을 보였다.