• 제목/요약/키워드: 의미 기반 정보 추출

검색결과 676건 처리시간 0.024초

속성선택방법을 이용한 전기자동차 소셜미디어 데이터의 감성분석 연구 (Exploring the Sentiment Analysis of Electric Vehicles Social Media Data by Using Feature Selection Methods)

  • 프란시스 조셉 코스텔로;이건창
    • 디지털융복합연구
    • /
    • 제18권2호
    • /
    • pp.249-259
    • /
    • 2020
  • 본 연구는 전기자동차(EV)에 대한 소셜미디어 데이터를 기반으로 감성분석 (SA)과 속성선택 (FS)방법을 적용하여 전기자동차에 대한 일반 사람들의 의견을 보다 효과적이고 정확히 예측할 수 있는 새로운 방법론을 제안한다. 구체적인 방법은 다음과 같다. 첫째, 유튜브에 있는 전기자동차에 대한 일반 사람들의 의견을 추출하였다. 둘째, 분석의 효과성을 증대하기 위하여 카이 스퀘어, 정보획득량, 릴리프에프 등 세가지 속성선택 방법을 적용하였다. 그 결과 로지스틱 회귀분석 및 서포트 벡터 머신 분류 기법에서 가장 의미있는 결과를 얻을 수 있다는 것이 확인되었다.

LDA와 BERTopic을 이용한 토픽모델링의 증강과 확장 기법 연구 (Topic Model Augmentation and Extension Method using LDA and BERTopic)

  • 김선욱;양기덕
    • 정보관리학회지
    • /
    • 제39권3호
    • /
    • pp.99-132
    • /
    • 2022
  • 본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

TV 시청률과 마이크로블로그 내용어와의 시간대별 관계 분석 (Analysis of the Time-dependent Relation between TV Ratings and the Content of Microblogs)

  • 최준연;백혜득;최진호
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.163-176
    • /
    • 2014
  • 소셜미디어 확산으로 많은 사용자들이 SNS를 통해 자신의 생각과 의견을 표출하며 다른 사용자들과 상호작용하고 있다. 특히 트위터와 같은 마이크로블로그는 짧은 문장을 통해 영화, TV, 사회 현상 등과 같은 공통의 주제에 대해 많은 사람이 즉각적으로 의견을 표출하고 교환하는 플랫폼의 역할을 수행하고 있다. TV방송 프로그램에 대해서도 의견과 감정을 마이크로블로그를 통해 표출하고 있는데, 본 연구에서는 마이크로블로그의 내용과 시청률과의 관계를 살펴보기 위해, 지난 공중파 방송 프로그램에 대한 트윗을 수집하고 부적절한 트윗들을 제거한 후 형태소 분석을 수행하였다. 추출된 형태소뿐 아니라 이모티콘, 신조어 등 사용자가 입력한 모든 단어들을 후보 자질로 삼아 시청률과의 상관관계를 분석하였다. 실험을 위해 2013년 1월부터 10개월간의 예능프로그램 트윗의 데이터를 수집하여 전국 시청률 데이터와 비교 분석을 수행하였다. 트윗의 발생량은 일주일 중 방송된 요일에 가장 많았으며, 특히 방송시간 부근에서 급격히 증가하는 모습을 보였다. 이것은 전국에 동시간에 방송되는 공중파 프로그램의 특성상 공통된 관심 주제를 제공하기 때문에 나타나는 현상으로 여겨진다. 횟수 기반 자질로 방송 일의 총 트윗 수와 리트윗 수, 방송시간 중의 트윗 수와 리트윗 수와 시청률과의 상관 관계를 분석하였으나 모두 낮은 상관 계수를 나타냈다. 이것은 단순한 트윗 발생 빈도는 방송 프로그램의 만족도 또는 시청률을 제대로 반영하고 있지 못함을 의미한다. 내용 기반 자질로 추출한 단어들 중에는 높은 상관관계를 보여주는 단어들이 발견되었으며, 표준어가 아닌 이모티콘과 신조어 중에도 높은 상관관계를 보여주는 자질이 나타났다. 또한 방송시작 전과 후에 따라 상관계수가 높은 단어가 상이함을 발견하였다. 매주 같은 시간에 방송되는 TV 프로그램의 특성상, 방송을 기다리고 기대하는 내용의 트윗과 방송 후 소감을 표현하는 트윗의 내용에 차이가 존재하였다. 이러한 분석결과는 단어에 따라 시청률과 연관성이 높은 시간대가 달라짐을 의미하며, 시청률을 측정하고자 할 때 각 단어들의 시간대를 고려해서 사용해야 함을 의미한다. 본 연구에서 제안한 방법은 기존의 표본 추출을 통해 이루어지는 TV 시청률 측정을 보완할 수 있는 방법에 활용할 수 있으리라 기대된다.

빅데이터 기반의 출산율 변동 예측 (Forecasting Birthrate Change based on Big Data)

  • 주세민;옥성환;황경태
    • 정보화정책
    • /
    • 제26권4호
    • /
    • pp.20-35
    • /
    • 2019
  • 본 연구에서는 육아에 대한 공포 등 심리적 요인이 출산율에 미치는 영향을 실증적으로 분석하였다. 2000년~2018년까지 육아에 대한 부정적인 기사가 전체 사회 기사에서 차지하는 비중을 바탕으로 지표를 산출하였다. 지표 분석 결과, 지표가 증가하면 3년 뒤의 출산율은 떨어지는 것으로 나타났다. 이러한 결과는 상관관계 분석, 단순 회귀분석, VAR 분석에서도 일관적으로 나타났다. 그랜져 인과관계 분석 결과, 지표와 3년 뒤 출산율의 관계는 단순 상관관계가 아닌 인과관계에 있음을 알 수 있었다. 연령대별로도 차이를 보였는데, 20~30대 여성의 출산율은 지표에 유의한 반응을 보였으나, 40대 출산율은 반응을 보이지 않았다. 또한 지표가 상승하면 1아 출산율에는 영향을 미치지만, 2아/3아 이상의 출산율에는 영향을 미치지 않는 것으로 나타났다. 이것은 여성의 나이가 어릴수록 육아에 대한 부정적인 기사에 영향을 많이 받지만, 이미 출산/육아를 경험해본 사람들에게는 큰 영향을 미치지 못한다는 직관과도 일치한다. 본 연구는 뉴스 빅데이터를 단순한 키워드 언급량 변화 모니터링이라는 한정된 용도를 벗어나, 사회 현상을 예측하는데 유의미한 지표를 추출해 냈다는데 의미가 있다. 또한 이러한 빅데이터 기반의 지표는 출산율에 대한 3년의 선행성이 있기 때문에 미리 감지할 수 정보를 제공한다는 장점이 있다.

진동수주 파력발전장치를 위한 머신러닝 기반 압력 예측모델 설계 및 분석 (A Design and Analysis of Pressure Predictive Model for Oscillating Water Column Wave Energy Converters Based on Machine Learning)

  • 서동우;허태상;김명일;오재원;조수길
    • 한국산학기술학회논문지
    • /
    • 제21권11호
    • /
    • pp.672-682
    • /
    • 2020
  • 최근 다양한 산업/제조 현장에서 운영 효율화를 위한 디지털 트윈(digital twin) 기술 연구가 활발하게 수행 중이고, 화석 연료의 점진적 고갈과 환경오염 문제는 파력발전소와 같은 신재생/친환경 발전방식을 요구한다. 하지만, 파도의 에너지에 의해서 전기를 생산하는 파력발전에서 변동성이 높은 파도에너지에 의해서 발전량과 고장 등의 운영효율화 요소가 밀접하게 관련되어 있어 이들 사이의 관계를 이해하고 예측하는 것이 매우 중요하다. 따라서 첫 번째로 파고 데이터, 진동수주(OWC: Oscillating Water Column, 이하 OWC) 챔버의 센서 데이터 등과 같은 변동성이 높은 데이터 간에 의미 있는 상관관계 도출이 필요하다. 두 번째로 도출된 상관관계를 기반으로 추출된 데이터로 예측 상황을 학습함으로써 원하는 정보를 예측할 수 있는 방법론 연구가 이루어져야 한다. 본 연구에서는 파력발전 시스템의 디지털 트윈으로 스마트 운용 및 유지보수가 가능하도록 실제 파력발전소의 IoT 센서 데이터를 이용하여 OWC의 압력 예측을 위해 머신러닝 프레임워크를 활용한 워크플로우 기반의 학습모델을 설계하고, 검증 및 평가 데이터셋을 통한 압력 예측분석의 유효성을 확인한다.

소비자 감성 분석 기반의 음악 추천 알고리즘 개발 (Development of Music Recommendation System based on Customer Sentiment Analysis)

  • 이승준;서봉군;박도형
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.197-217
    • /
    • 2018
  • 음악은 인간의 감성을 소리로 표현하는 창조적 예술 행위이다. 음악은 사람들의 기분을 우울하게 혹은 기쁘게 변화시킬 수 있다. 따라서 음악을 감상하는 데 있어 감성은 소비자에게 적합한 음악을 찾고 들려주는 데 매우 중요한 요소인데, 다양한 음원 서비스에서 제공하는 추천 알고리즘은 사용자의 기본적인 정보(성별, 나이, 감상 횟수 등)와 사용자의 플레이 기록에 기반한 음악 추천 방식을 주로 사용하고 있다. 본 연구에서는 음악을 감상하는 개인의 감성을 고려하여 각 음원이 가지는 고유의 감성을 기본으로 한 음악 추천 알고리즘을 제안해 보고자 한다. 구체적으로, 사용자들이 자주 듣는 음악과 그렇지 않은 음악을 기준으로 '감정 패턴'을 추출 후 상관관계를 확인하고자 하며, 앞선 결과를 기반으로 사용자들이 원하는 노래에 대한 검색과 사용자 감성 기반 추천 방법을 도출해내보고자 한다. 이를 위해 본 연구에서는 사례기반추론 기법을 이용하여 사람들이 주로 듣는 음악과 비슷한 '감성 패턴'을 갖는 특정한 곡을 추천해주는 알고리즘을 개발하였다. 먼저, 분석에 필요한 감정 형용사를 정리하여 변수화 시키고, 의미 있는 것끼리 묶어 음악 감성지수를 개발하였고, 분석의 대상이 될 음원에 대해 고유의 감성지수 점수를 측정하였다. 마지막으로 도출된 점수의 결과를 통해 유사한 감정 패턴이 나오는 곡들을 유사 곡 리스트로 분류하고 사용자들에게 추천하는 과정을 거친다. 앞선 일련의 과정을 거처 도출된 결과는 음원 추천 시스템뿐만 아니라, 인기 있는 곡과 아닌 곡에 영향을 미치는 변수 도출 및 음원 출시 전, 해당 곡의 스트리밍 수 예측 모형 구축 등 다양한 용도로 사용될 수 있을 것으로 기대한다.

위성영상과 음영기복도를 이용한 오대산 지역 진앙의 위치와 선구조선의 관계 분석 (The Relationship Analysis between the Epicenter and Lineaments in the Odaesan Area using Satellite Images and Shaded Relief Maps)

  • 차성은;지광훈;조현우;김은지;이우균
    • 한국지리정보학회지
    • /
    • 제19권3호
    • /
    • pp.61-74
    • /
    • 2016
  • 본 연구에서는 LANDSAT 8호, KOMPSAT 2호 위성영상과 1/25,000 수치지형도를 기반으로 작성된 음영기복도를 이용하여 2007년 1월 20일 오대산 지역에서 발생한 약 4.8의 중규모 지진과 선구조선의 관계를 분석하였다. 대부분의 선행연구는 지체구조와 관련된 선구조선 분석 연구를 하였으며, 주로 2차원의 위성영상과 음영기복도를 활용하였기에 지형의 기복 등에 대한 판독이 어려워 선구조선 추출이 제한적이었다. 본 연구에서는 이를 보완하기 위해 수치표고모델(Digital Elevation Model; DEM)을 기반으로 작성한 3차원 입체 영상과 수계망 분석을 통해 지형의 기복, 수계의 연결성 등을 판독해 선구조선을 추출하여, 2차원 영상에서 나타나는 시각적인 판독에 의한 오류를 최소화한 선구조선 판독도를 작성하였다. 또한 진앙에 대한 선구조선의 통계 요소별 밀도를 추정하기 위해 spline 내삽법을 이용하여 선구조선의 빈도, 교차점, 길이에 대한 밀도를 계산하였다. 그리고 진앙에서의 선구조선 밀도가 얼마나 밀집되어 있는지 정량적으로 표현하기 위하여 각 격자 내의 선구조선 밀도에 대해 최대 선구조선 밀도로 나누는 상대밀도 값(Value of the Relative Density; VRD)을 계산하는 알고리즘을 개발하여 밀도도(density map)를 작성하였다. 각 영상의 진앙에서의 VRD는 최소 약 0.60에서 최대 약 0.90으로 나타났지만, 각 영상별 광원의 고도각과 방위각이 차이가 있어 영상별 VRD보다 통계 요소별 VRD의 평균치를 사용하였다. 그 결과, 빈도의 평균 VRD는 약 0.85로 교차점과 길이의 평균 VRD보다 약 21% 높게 나타나, 선구조선의 빈도 요소가 진앙의 위치와의 관계가 가장 밀접함을 확인하였다. 이와 같이 3차원 영상의 선구조선 추출을 통한 밀도 분석 기술은 향후 지진 발생 가능 지역 분석에 기초자료로써의 의미가 있을 것으로 기대된다.

사례 기반 지능형 수출통제 시스템 : 설계와 평가 (Export Control System based on Case Based Reasoning: Design and Evaluation)

  • 홍원의;김의현;조신희;김산성;이문용;신동훈
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.109-131
    • /
    • 2014
  • 최근 전 세계적인 원전 설비의 수요 증가로 원자력 전략물자 취급의 중요성이 높아지는 가운데, 국외 수출을 위한 원전 관련 물품 및 기술의 신청 또한 급증하는 추세이다. 전략물자 사전판정 업무는 통상 원자력 물자 관리에 해박한 전문가의 경험 및 지식에 근거하여 수행되어 왔지만, 급증하는 수요에 상응하는 전문 인력의 공급이 부족한 실정이다. 이러한 문제를 극복하기 위하여, 본 연구진은 전략물자 수출 통제를 위한 사례 기반 지능형 수출 통제 시스템을 설계 및 개발하였다. 이 시스템은 현장 전문가의 전담 업무이던 신규 사례에 대한 전략물자 사전판정 과정 업무의 주요 맥락을 자동화 하여 전문가 및 관계 기관이 감당해야 할 업무 부담을 줄이며, 빠르고 정확한 판정을 돕는 의사결정 지원 시스템의 역할을 맡는다. 개발된 시스템은 사례 기반 추론 (Case Based Reasoning) 방식에 기반을 두어 설계되었는데, 이는 과거 사례의 특성을 활용하여 신규 사례의 해법을 유추하는 추론 방법이다. 본 연구에서는 자연어로 작성된 전자문서 처리에 널리 사용되는 텍스트 마이닝 분석 기법을 원자력 분야에 특화된 형태로 응용하여 전략물자 수출통제 시스템을 설계하였다. 시스템 설계의 근거로 선행 연구에서 제안된 반자동식 핵심어 추출 방안의 성능을 보다 엄밀히 검증하였고, 추출된 핵심어로 신규 사례와 유사한 과거 사례를 추출하는 알고리즘을 제안하였다. 제안된 방안은 텍스트 마이닝 분야의 TF-IDF 방법 및 코사인 유사도 점수를 활용한 결과(${\alpha}$)와 원자력 분야에서 통용되는 개념적 지식을 계통으로 분류하여 도출한 결과(${\beta}$)를 조합하여 최종 결과 (${\gamma}$) 를 생성하게 된다. 세부 요소 기술의 성능 검증은 임상 데이터를 활용한 실험 및 실무 전문가의 의견수렴을 통해 이루어졌다. 개발된 시스템은 사전판정 전문 인력을 다수 양성하는 데 드는 비용을 절감하는 데 일조할 것이며, 지식서비스 산업의 의미 있는 응용 사례로서 관련 산업의 성장에 기여할 수 있을 것으로 보인다.

다크넷 트래픽의 목적지 포트를 활용한 블랙 IP 탐지에 관한 연구 (A Study on Detecting Black IPs for Using Destination Ports of Darknet Traffic)

  • 박진학;권태웅;이윤수;최상수;송중석
    • 정보보호학회논문지
    • /
    • 제27권4호
    • /
    • pp.821-830
    • /
    • 2017
  • 인터넷은 우리나라의 경제 사회를 움직이는 중요한 인프라 자원이며 일상생활의 편리성 효율성을 제공하고 있다. 하지만, 인터넷 인프라 자원의 취약점을 이용하여 사용자를 위협하는 경우가 발생한다. 최근에 지속적으로 지능적이고 고도화된 새로운 공격 패턴이나 악성 코드들이 늘어나고 있는 추세이다. 현재 신 변종 공격을 막기 위한 연구로 다크넷이라는 기술이 주목받고 있다. 다크넷은 미사용 중인 IP 주소들의 집합을 의미하며, 실제 시스템이 존재하지 않는 다크넷으로 유입된 패킷들은 신규 악성코드에 감염된 시스템이나 해커에 의한 공격행위로 간주 될 수 있다. 따라서 본 연구는 다크넷에 수집된 트래픽의 포트 정보를 기반한 통계 데이터를 추출하고 알려지거나 알려지지 않은 블랙 IP를 찾기 위한 알고리즘을 제시하였다. 국내 미사용 중인 IP 주소 8,192개(C클래스 32개) 다크넷 IP에서 3개월간(2016. 6 ~ 2016. 8) 총 827,254,121건의 패킷을 수집하였다. 수집된 데이터를 제시한 알고리즘 적용 결과, 블랙 IP는 6월 19건, 7월 21건, 8월 17건이 탐지되었다. 본 연구의 분석을 통해 얻어진 결과는 기존 알려진 공격들의 블랙 IP 탐지 빈도를 알 수 있고 잠재적인 위협을 유발할 수 있는 새로운 블랙 IP를 찾아낼 수 있다.

Support Vector Machine 기법을 이용한 고객의 구매의도 예측 (Forecasting of Customer's Purchasing Intention Using Support Vector Machine)

  • 김진화;남기찬;이상종
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.137-158
    • /
    • 2008
  • 기업 경쟁력 강화의 중요한 이슈인 대량 개별화(mass-customization)의 실행을 위하여 통합 고객관계 관리 프로세스로서의 CRM(customer relationship management)에 대한 관심과 활용에 대한 필요성은 점점 더 높아지고 있다. 특히, 기존 고객들의 구매 정보를 기반으로 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘날 실질적인 판매 전략을 수립하는 마케팅 분야에서 상당히 큰 비중을 차지하고 있다. 고객의 구매의도 예측에는 대량의 데이터로부터 과거에 인지하지 못했던 의미 있고, 근거 있는 정보를 추출하는 데이터마이닝(datamining)이 주로 사용되고 있다. 기존의 구매의도 예측에 사용된 데이터마이닝 기법들은 주로 신경망(neural networks)과 로지스틱 회귀분석(logistic regression analysis)이었는데, 예측 정확성 및 모형 구축의 어려움으로 인한 다양한 문제점들이 제기되고 있는 실정이다. 따라서, 본 논문에서는 기존의 기법들이 가지고 있는 단점들을 개선하기 위하여 신경망과 로지스틱 회귀분석 외에 연관규칙(association rule), 연관성 매트릭스(association matrix), 의사결정 나무(decision tree), 베이지안 망(bayesian network), SVM(support vector machine) 기법들을 추가로 제안하였다. 본 연구의 목적은 고객의 특정 상품에 대한 구매의도 예측을 위하여 새로운 알고리즘을 제시하기보다는 기존의 다양한 데이터마이닝 기법들을 적용시켜 봄으로써, 가장 우수한 예측성과를 나타내는 기법을 발견하는 것이다. 연구에 사용된 자료는 기존의 연구에서는 적용되지 않았던 편의점의 영수증 데이터이다. 예측 목표상품은 카테고리화 된 '우유'와 '냉동식품'이며, 제안된 기법들의 신뢰성을 위하여 전체 데이터를 10개의 training과 test 셋으로 중복되지 않게 구분함과 동시에 10번의 교차 검증(cross validation)을 실시하였다. 실험 결과 SVM이 영수증 데이터를 이용한 고객의 특정 상품에 대한 구매의도 예측에서 가장 우수한 성과를 나타내는 것을 확인하였다.