• 제목/요약/키워드: Web Based Learning System

검색결과 716건 처리시간 0.022초

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

  • 최석재;이중원;권오병
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.119-138
    • /
    • 2017
  • 최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.

미국 프로농구(NBA)의 플레이오프 진출에 영향을 미치는 주요 변수 예측: 3점과 턴오버 속성을 중심으로 (Prediction of Key Variables Affecting NBA Playoffs Advancement: Focusing on 3 Points and Turnover Features)

  • 안세환;김영민
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.263-286
    • /
    • 2022
  • 본 연구는 웹 크롤링을 이용하여 1990년부터 2022년까지 총 32개년에 해당하는 NBA 통계 정보를 획득하고, 탐색적 데이터 분석을 통해 관심 변수를 관찰하고 관련된 파생변수를 생성한다. 입력 데이터에 대한 정제 과정을 거쳐 무의미한 변수들을 제거하고, 남은 변수에 대한 상관관계 분석, t 검정 및 분산분석을 수행하였다. 관심 변수에 대해 플레이오프 진출/미진출 그룹 간 평균의 차이를 검정하였고, 이를 보완하기 위해 순위를 기준으로 하는 3개 집단(상위/중위/하위) 간 평균 차이를 재확인하였다. 입력 데이터 중 올해 시즌 데이터만을 테스트 세트로 활용하였고, 모델 훈련을 위해서는 훈련 세트와 검증 세트를 분할하여 5-fold 교차검증을 수행하였다. 교차검증 결과와 시험 세트를 이용한 최종 분석 결과를 비교하여 성능 지표에서 차이가 없음을 확인함으로써 과적합 문제를 해결하였다. 원시 데이터의 품질 수준이 높고, 통계적 가정을 만족하기 때문에 적은 수준의 데이터 세트임에도 불구하고 대부분 모델에서 좋은 결과를 나타냈다. 본 연구는 단순히 머신러닝을 이용하여 NBA의 경기 결과를 예측하거나 플레이오프 진출 여부만을 분류하는 것에서 그치지 않고, 입력 특성의 중요도를 파악하여 높은 중요도를 갖는 주요 변수에 본 연구의 관심 대상 변수가 포함되는지를 확인하였다. Shap value의 시각화를 통해 특성 중요도의 결과만으로 해석할 수 없었던 한계를 극복하고, 변수의 진입/제거 과정에서 중요도 산출에 일관성이 부족하다는 점을 보완할 수 있었다. 본 연구에서 관심 대상으로 분류했던 3점 및 실책과 관련된 다수의 변수가 미국 프로농구에서의 플레이오프 진출에 영향을 미치는 주요 변수에 포함되는 것으로 나타났다. 본 연구는 기존의 스포츠 데이터 분석 분야에서 다루었던 경기 결과, 플레이오프 및 우승 예측 등의 주제를 포함하고 분석을 위해 여러 머신러닝 모델을 비교 분석했다는 점에서 유사성이 있지만, 사전에 관심 속성을 설정하고, 이를 통계적으로 검증함으로써 머신러닝 분석 결과와 비교하였다는 측면에서 차이가 있다. 또한 XAI 모델 중 하나인 SHAP를 이용하여 설명 가능한 시각화 결과를 제시함으로써 기존 연구와 차별화하였다.

관심 문자열 인식 기술을 이용한 가스계량기 자동 검침 시스템 (Automatic gasometer reading system using selective optical character recognition)

  • 이교혁;김태연;김우주
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.1-25
    • /
    • 2020
  • 본 연구에서는 모바일 기기를 이용하여 획득한 가스계량기 사진을 서버로 전송하고, 이를 분석하여 가스 사용량 및 계량기 기물 번호를 인식함으로써 가스 사용량에 대한 과금을 자동으로 처리할 수 있는 응용 시스템 구조를 제안하고자 한다. 모바일 기기는 일반인들이 사용하는 스마트 폰에 준하는 기기를 사용하였으며, 획득한 이미지는 가스 공급사의 사설 LTE 망을 통해 서버로 전송된다. 서버에서는 전송받은 이미지를 분석하여 가스계량기 기물 번호 및 가스 사용량 정보를 추출하고, 사설 LTE 망을 통해 분석 결과를 모바일 기기로 회신한다. 일반적으로 이미지 내에는 많은 종류의 문자 정보가 포함되어 있으나, 본 연구의 응용분야인 가스계량기 자동 검침과 같이 많은 종류의 문자 정보 중 특정 형태의 문자 정보만이 유용한 분야가 존재한다. 본 연구의 응용분야 적용을 위해서는 가스계량기 사진 내의 많은 문자 정보 중에서 관심 대상인 기물 번호 및 가스 사용량 정보만을 선별적으로 검출하고 인식하는 관심 문자열 인식 기술이 필요하다. 관심 문자열 인식을 위해 CNN (Convolutional Neural Network) 심층 신경망 기반의 객체 검출 기술을 적용하여 이미지 내에서 가스 사용량 및 계량기 기물번호의 영역 정보를 추출하고, 추출된 문자열 영역 각각에 CRNN (Convolutional Recurrent Neural Network) 심층 신경망 기술을 적용하여 문자열 전체를 한 번에 인식하였다. 본 연구에서 제안하는 관심문자열 기술 구조는 총 3개의 심층 신경망으로 구성되어 있다. 첫 번째는 관심 문자열 영역을 검출하는 합성곱신경망이고, 두 번째는 관심 문자열 영역 내의 문자열 인식을 위해 영역 내의 이미지를 세로 열 별로 특징 추출하는 합성곱 신경망이며, 마지막 세 번째는 세로 열 별로 추출된 특징 벡터 나열을 문자열로 변환하는 시계열 분석 신경망이다. 관심 문자열은 12자리 기물번호 및 4 ~ 5 자리 사용량이며, 인식 정확도는 각각 0.960, 0.864 이다. 전체 시스템은 Amazon Web Service 에서 제공하는 클라우드 환경에서 구현하였으며 인텔 제온 E5-2686 v4 CPU 및 Nvidia TESLA V100 GPU를 사용하였다. 1일 70만 건의 검침 요청을 고속 병렬 처리하기 위해 마스터-슬레이브 처리 구조를 채용하였다. 마스터 프로세스는 CPU 에서 구동되며, 모바일 기기로 부터의 검침 요청을 입력 큐에 저장한다. 슬레이브 프로세스는 문자열 인식을 수행하는 심층 신경망으로써, GPU에서 구동된다. 슬레이브 프로세스는 입력 큐에 저장된 이미지를 기물번호 문자열, 기물번호 위치, 사용량 문자열, 사용량 위치 등으로 변환하여 출력 큐에 저장한다. 마스터 프로세스는 출력 큐에 저장된 검침 정보를 모바일 기기로 전달한다.

2020 한국인 영양소 섭취기준 활용 자료 개발 (The development of resources for the application of 2020 Dietary Reference Intakes for Koreans)

  • 황지윤;김양하;이행신;박은주;김정선;신상아;김기남;배윤정;김기랑;우태정;윤미옥;이명숙
    • Journal of Nutrition and Health
    • /
    • 제55권1호
    • /
    • pp.21-35
    • /
    • 2022
  • 본 연구 결과, 식품군별 대표식품과 1인 1회 분량이 설정되었으며 생애주기별, 성별 1일 에너지필요추정량에 따른 식품군별 섭취횟수를 계산하여 제시한 권장식사패턴 및 이를 활용한 권장식사구성안 12종이 제시되었다. 지속적으로 증가하고 있는 유지·당류 섭취량의 감소를 위한 인지를 높이기 위해 1인 1회분량과 식품구성자전거에 유지·당류 식품군을 포함하였다. 자료 분석과 일반인 및 전문가 대상 설문조사를 실시하여 2020 KDRIs 기반 생애주기별 영양문제 범주화 및 대국민 메시지에 기반한 사용자 맞춤형 웹기반 영양 콘텐츠 개발 및 홍보를 위한 근거를 마련하였다. 이를 근거로 일반국민과 청소년 대상 카드뉴스 2종, 새로운 2020 식품구성자전거와 권장식사패턴을 홍보하기 위한 카드뉴스 2종과 5개 언어 (한국어, 영어, 일본어, 베트남어, 중국어) 포스터가 제작되었다. 또한 영양교육주제의 우선순위 선정 후 단계별 교육프로그램 설계 후 교육목표에 따른 교수학습안과 교수자료, 평가도구 등이 개발되었다. 이와 같은 자료는 모두 보건복지부와 한국영양학회 누리집을 통해 배포되었으니 다양한 분야에서 다각적인 측면에서 활용되기를 기대한다.

쇼핑 웹사이트 탐색 유형과 방문 패턴 분석 (Analysis of shopping website visit types and shopping pattern)

  • 최경빈;남기환
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.85-107
    • /
    • 2019
  • 온라인 소비자는 쇼핑 웹사이트에서 특정 제품군이나 브랜드에 속한 제품들을 둘러보고 구매를 진행할 수 있고, 혹은 단순히 넓은 범위의 탐색 반경을 보이며 여러 페이지들을 돌아보다 구매를 진행하지 않고 이탈할 수 있다. 이러한 온라인 소비자의 행동과 구매에 관련된 연구는 꾸준히 진행되어왔으며, 실무에서도 소비자들의 행동 데이터를 바탕으로 한 서비스 및 어플리케이션이 개발되고 있다. 최근에는 빅데이터 기술의 발달로 소비자 개인 단위의 맞춤화 전략 및 추천 시스템이 활용되고 있으며 사용자의 쇼핑 경험을 최적화하기 위한 시도가 진행되고 있다. 하지만 이와 같은 시도에도 온라인 소비자가 실제로 웹사이트를 방문해 제품 구매 단계까지 전환될 확률은 매우 낮은 실정이다. 이는 온라인 소비자들이 단지 제품 구매를 위해 웹사이트를 방문하는 것이 아니라 그들의 쇼핑 동기 및 목적에 따라 웹사이트를 다르게 활용하고 탐색하기 때문이다. 따라서 단지 구매가 진행되는 방문 외에도 다양한 방문 형태를 분석하는 것은 온라인 소비자들의 행동을 이해하는데 중요하다고 할 수 있다. 이러한 관점에서 본 연구에서는 온라인 소비자의 탐색 행동의 다양성과 복잡성을 설명하기 위해 실제 E-commerce 기업의 클릭스트림 데이터를 기반으로 세션 단위의 클러스터링 분석을 진행해 탐색 행동을 유형화하였다. 이를 통해 각 유형별로 상세 단위의 탐색 행동과 구매 여부가 차이가 있음을 확인하였다. 또한 소비자 개인이 여러 방문에 걸친 일련의 탐색 유형에 대한 패턴을 분석하기 위해 순차 패턴 마이닝 기법을 활용하였으며, 같은 기간 내에 제품 구매까지 완료한 소비자와 구매를 진행하지 않은 채 방문만 진행한 소비자들의 탐색패턴에 대한 차이를 확인할 수 있었다. 본 연구의 시사점은 대규모의 클릭스트림 데이터를 활용해 온라인 소비자의 탐색 유형을 분석하고 이에 대한 패턴을 분석해 구매 과정 상의 행동을 데이터 기반으로 설명하였다는 점에 있다. 또한 온라인 소매 기업은 다양한 형태의 탐색 유형에 맞는 마케팅 전략 및 추천을 통해 구매 전환 개선을 시도할 수 있으며, 소비자의 탐색 패턴의 변화를 통해 전략의 효과를 평가할 수 있을 것이다.