• 제목/요약/키워드: 데이터생성

검색결과 7,110건 처리시간 0.04초

연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견 (Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

텐서 기반 데이터 생성 모델을 이용한 생체데이터 분류 (Bio-Data Classification Using Tensor-based Data Generation Model)

  • 윤동우;박혜영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.7-8
    • /
    • 2007
  • 생체데이터란 인간개체로부터 얻을 수 있는 고유의 생체신호를 통틀어 일컫는 것이다. 본 연구에서는 생체데이터를 위한 팩터 분석 모델에 텐서 개념을 적용하여, 2차 텐서로 표현된 데이터를 위한 생성모델을 제안한다. 이 모델을 바탕으로 데이터로부터 분류에 핵심이 되는 정보를 안정적으로 추출하여 유사도 함수를 만들고 분류를 수행하는 방법을 제안한다. 실험을 통해 제안하는 방법이 기존의 벡터형태의 데이터에 대한 생성 모델을 사용한 경우보다 우수한 성능을 가짐을 확인할 수 있었다.

LSTM을 이용한 한국어 이미지 캡션 생성 (Generate Korean image captions using LSTM)

  • 박성재;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

데이터 생성의미를 활용한 정보공유구조의 효과성 비교 연구 (An Evaluation of an Information Sharing Workflow Using Data Provenance Semantics)

  • 이춘열
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.175-185
    • /
    • 2013
  • 본 연구는 효과적인 정보공유를 위한 방안으로서 생성의미종속성을 소개하고, 데이터의 생성의미에 대한 이해가 정보공유에 미치는 영향을 측정하는 정보공유비용모형을 제시한다. 정보공유비용모형은 복수의 사용자집단 또는 부서들 사이에서 데이터의 생성의미 차이로 인한 정보공유 오류비용을 측정한다. 정보공유 오류비용은 정보공유오류의 발생확률과 비용에 의하여 결정되는데, 오류 발생확률은 사용자집단들 사이의 생성의미 차이를 나타내는 정보공유 거리로 측정된다. 본 연구는 대표적인 정보공유아키텍처인 부서별 데이터관리구조, 허브형 구조, 계층형 구조, 독립형 구조를 대상으로 정보공유비용을 측정함으로써 정보공유구조가 정보공유에 미치는 영향을 분석하였다. 정보공유비용의 관점에서 허브형이 가장 우수한 것으로 분석되었다. 그러나 데이터의 생성의미에 대한 표준화가 이루어지지 않을 경우, 허브형 정보공유구조는 부서별 데이터관리구조와 같은 특성을 보였다. 그리고 모든 정보공유구조가 독립형 구조보다 낮은 정보공유비용을 보임으로써 비록 표준화가 이루어지지 않아도 데이터를 공유하는 것이 공유하지 않는 경우보다 우수한 것으로 분석되었다.

공간 데이터 웨어하우스에서 해쉬 테이블을 이용한 데이터큐브의 생성 기법 (Data Cube Generation Method Using Hash Table in Spatial Data Warehouse)

  • 이연;김형선;유병섭;이재동;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권11호
    • /
    • pp.1381-1394
    • /
    • 2006
  • 축적된 데이터를 기반으로 의사결정을 지원하는 데이터 웨어하우스에서 빠른 응답을 제공하기 위하여 데이터큐브 생성기법에 대한 많은 연구가 진행되었다. 대표적으로 다차원 배열을 사용한 기법과 hyper-tree를 기반으로 하는 H-cubing 기법이 연구되었다. 하지만 전자는 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하여 데이터의 양이 많아질수록 메모리 사용이 증가하였으며 후자는 hyper-tree를 기반으로 모든 튜플을 트리로 구축하여 트리 구축비용이 증가하였다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터큐브 생성 기법을 제안한다. 제안 기법은 데이터큐브 생성 시 가중치 맵핑 테이블과 레코드 해쉬 테이블을 사용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장한다. 따라서 데이터큐브의 생성속도가 향상되며 해쉬 테이블 만을 유지하여 메모리 사용량이 감소한다. 이는 성능평가를 통해 기존 기법보다 데이터의 빠른 검색과 데이터큐브 생성 요청에 빠른 응답을 보였다.

  • PDF

삼각 부등식을 이용한 빠른 벡터 양자화 코드북 생성 (An Efficient Vector Quantization Codebook generation using a Triangle Inequality)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제13권3호
    • /
    • pp.309-315
    • /
    • 2012
  • 액티브 데이터는 벡터 양자화 코드북이 생성될 때 소속된 군집이 변경되는 입력 데이터이다. 벡터 양자화 코드북 생성 알고리즘의 수행 과정을 살펴보면, 전체 입력 데이터 중 실제 액티브 데이터는 알고리즘이 반복될 수록 감소된다. 따라서 액티브 데이터를 정확히 추정하여, 추정된 액티브 데이터에 대해서 코드북 생성을 수행하면, 전체 코드북 생성 시간을 크게 단축할 수 있다. 본 논문에서는 삼각 부등식을 이용하여 액티브 데이터를 선택하는 방법을 제안한다. 실험결과 액티브 데이터들을 빠른 시간에 추정할 할 수 있었고, 이를 통해 전체 벡터 양자화 코드북 생성 시간 측면에서 우수한 성능을 보였다.

도로 네트워크에서 이동 객체 궤적 생성 방안 (Generating Trajectories on Road Networks)

  • 백지행;원정임;장민희;이상철;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.69-70
    • /
    • 2007
  • 최근, 궤적 정보를 이용한 많은 연구들이 진행되고 있다. 그러나 이동 객체의 실제 궤적 데이터를 획득하기는 어렵기 때문에 대부분의 연구들은 궤적 생성기에 의해 생성된 데이터를 이용하고 있다. 그러나 기존의 궤적 생성기들은 대부분 유클리디언 공간을 바탕으로 궤적을 생성하기 때문에 도로 네트워크 공간에서는 적용될 수 없다. 본 논문에서는 도로 네트워크 공간을 바탕으로 한 이동 객체의 궤적 생성 방안을 제안한다. 실제 이동 객체의 움직임과 비슷한 궤적을 생성하기 위하여 이동 객체는 출발지에서 목적지까지의 최단 경로에 근접하여 움직인다는 현실세계의 특징을 반영한다. 제안하는 기법을 이용하여 생성된 궤적 데이터는 현실 세계를 반영하면서 사용자가 원하는 궤적 데이터를 제공할 수 있기 때문에 다양한 연구에 사용될 수 있다.

  • PDF

2차원 캐드자료를 이용한 웹기반 가상공간 모델링 (A Web-based Virtual Space Modeling Using 2D CAD Data)

  • 이장경;이성기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.443-446
    • /
    • 2002
  • 인터넷과 컴퓨터 기술이 발달함에 따라 가상공간에 대한 관심은 커져가고 있다. 그러나 가상공간을 생성하는 작업은 많은 시간과 노력이 필요하다. 그래서 가상공간 모델링에 관련된 연구들이 많이 이루어지고 있다. 본 논문에서는 2차원 CAD 데이터로부터 가상공간을 모델링하는 방법을 제시한다. CAD 파일에서 2차원 지형정보를 추출하여 웹에서 볼 수 있는 3차원 가상공간을 생성한다. 가상공간생성 과정은 전처리, 데이터 추출, 모델생성, 렌더링으로 이루어진다. 전처리는 CAD 파일에서 도로경계선을 분리하며 데이터 추출은 등고선, 도로경계선, 건물 정보를 CAD 파일로부터 추출하는 과정이다. 모델 생성은 추출한 지형정보들을 이용해서 3차원 공간모형 데이터를 생성하는 과정이다. 본 논문에서 제시한 방법은 실세계에 근접한 가상공간을 생성하며 가상공간을 생성하는데 드는 시간과 노력을 줄일 수 있다.

  • PDF

감성적 광고 카피 자동 생성을 위한 데이터 구축 방법론 (Methodology for Constructing Data for Automatic Generation of Emotional Copywrite)

  • 성지민;신하은;강지윤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.336-341
    • /
    • 2023
  • 초대규모 언어모델의 뛰어난 생성 기술이 실질적인 부분에서 많은 도움을 주고 있음에도 불구하고 사람들의 마음을 움직일 수 있는 매력적인 광고 카피를 생성하기에는 아쉬운 점이 많다. 이 연구는 효과적인 광고 카피 자동생성을 위한 데이터 구축 방법론 연구로, 데이터에 일관적으로 학습시킬 수 있는 감성적 카피의 문체적 특징을 프레임워크로 정의하고 이를 모델에 적용한 결과를 보여 데이터 설계 방법론의 유효성을 검증하고자 하였다. 실험 결과 문체 적합성 측면에서 성공적인 결과를 확인한 것에 비해, 한국어 보조사와 같이 미세한 어감 차이를 발생시키는 요소나 의미적 중의성 해석 등의 고차원적인 한국어 구사능력을 필요로 하는 부분에서 생성모델의 개선 여지를 발견할 수 있었다. 본 연구에서 보인 감성형 카피 생성을 위한 프레임워크는 마케팅 실무에서도 유용하게 사용될 수 있을 뿐만 아니라, 고객 세그멘테이션 분석이 이루어진다면 타깃 고객의 취향을 고려한 효과적이고 맞춤화된 광고 카피를 생성에 기여할 수 있을 것으로 기대된다.

  • PDF

적대적 학습 기반 오토인코더(ATAE)를 이용한 다차원 상수도관망 데이터 생성 (Multidimensional data generation of water distribution systems using adversarially trained autoencoder)

  • 김세형;전상훈;정동휘
    • 한국수자원학회논문집
    • /
    • 제56권7호
    • /
    • pp.439-449
    • /
    • 2023
  • 최근 계측 기술의 발전으로 압력계와 유량계 등 다양한 센서를 설치하여 상수도관망의 상태를 효과적으로 파악할 수 있게 되었으나, 도시가 광범위하게 개발됨에 따라 계측 신뢰도에 영향을 미치는 변수는 다양해지고 있다. 특히 상수도관망 분석에 중요한 영향력을 가지는 수요 데이터의 경우 직접 계측의 난이도가 높고 결측이 발생하기 쉬운 것으로 알려져 데이터 생성의 중요도가 증가하고 있다. 본 논문에서는 상수도관망에서 누락된 데이터를 정확하게 생성하기 위해 생성적 딥러닝 모델에 기반한 적대적 학습 기반 오토인코더(ATAE) 모델을 제안한다. 제안된 모델은 판별 신경망과 생성 신경망의 두 가지 신경망의 적대적 학습을 사용하여 압력 데이터로부터 수요 데이터를 생성한다. 학습이 완료된 ATAE 모델의 생성 신경망은 관망의 계측되는 압력 데이터가 존재하는 경우, 그로부터 추정된 관망 수요 데이터를 제공할 수 있다. ATAE 모델은 미국 텍사스주 오스틴의 실제 상수도망에 적용되어 성능이 검증되었다. 수요 및 압력 시계열 데이터의 불확실성 정도에 따른 ATAE 예측 결과의 정확도를 비교하여 데이터 불확실성의 영향을 분석하였으며, 또한 수요 수준에 따른 데이터 수집 기간별 생성 결과를 비교하여 이에 따른 데이터 생성 성능을 검토하였다.