• 제목/요약/키워드: 텍스트 데이터 분석

검색결과 1,103건 처리시간 0.031초

Liaohe National Park based on big data visualization Visitor Perception Study

  • Qi-Wei Jing;Zi-Yang Liu;Cheng-Kang Zheng
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.133-142
    • /
    • 2023
  • 국립공원은 세계 자연 보존 연맹(WWF)이 수립한 보호지역 관리 체계의 중요 유형 중 하나이며, 또한 자연 및 문화 유산의 효과적인 보호와 지속적인 이용을 실현하는 세계 각국의 관리 모델이다. 이러한 공원은 보호, 과학 연구, 교육, 레크리에이션 및 지역 개발을 비롯한 중요한 역할을 담당하다. 대용량 데이터의 배경 아래, 본 연구는 전 세계 연안 습지의 대표적인 대상인 중국 랴오하 국립공원을 사례 지역으로 삼아 파이썬 기술을 사용하여 중국의 주요 관광 OTA 사이트 중 하나인 망픈웨이 (Mafengwo), 셰어이(Gonglve), 큐난우(Chujingyou), 메이툰(Meituan) 및 대중점평넷(Dianping)의 관광객 여행기와 댓글을 데이터 소스로 수집하였다. 텍스트 시간 범위는 2015년부터 2022년까지이며, 총 2,998개의 댓글과 166,588개의 단어를 포함하다. ROST 콘텐츠 마이닝 및 Gephi 소프트웨어를 사용하여 랴오하 국립공원 방문객의 만족도, 인지 과정, 공선 네트워크, 감정 성향 등을 시각적 분석하였다. 결과는 다음과 같다. 야생 동물 및 식물 자원, 강과 바다가 결합 된 자연 경관, 습지 생태는 랴오하 국립공원 방문객의 인식에서 충분히 반영되었다. 방문객은 랴오하 국립공원에 대해 강한 긍정적인 감정을 가지고 있지만, 시설 서비스, 대중교육, 방문객 참여 경험 등에서 여전히 개선할 여지가 있다.

이미지 객체 및 메타정보 기반 GPT 활용 SNS 문장 작성 보조 시스템 (GPT-enabled SNS Sentence writing support system Based on Image Object and Meta Information)

  • 이동희;문미경;최봉준
    • 융합신호처리학회논문지
    • /
    • 제24권3호
    • /
    • pp.160-165
    • /
    • 2023
  • 본 연구에서는 SNS와 같이 이미지와 함께 글을 작성하는 활동을 보조하기 위해 YOLO와 GPT를 활용한 SNS 문장 작성 보조 시스템을 제안한다. YOLO 모델을 활용하여 글 작성 시 삽입되는 이미지에서 객체를 추출하고 메타정보인 GPS 정보, 생성 시간 정보도 추출하여 함께 GPT의 프롬프트 값으로 사용한다. YOLO 모델을 사용하기 위해 양식 이미지 데이터로 학습하여 사용했으며 해당 모델의 mAP score는 평균 약 0.25이다. GPT는 '맛집 리뷰' 주제의 1,000개의 블로그 텍스트 데이터를 학습하였으며, 본 연구에서 학습된 모델을 사용하여 이미지에서 추출한 2가지 타입의 키워드로 문장을 생성하였다. 생성된 문장의 실용성을 평가하기 위해 설문을 진행하였으며 설문 결과의 명확한 분석을 위해 폐쇄형 설문을 진행하였다. 삽입한 이미지와 키워드 문장을 제공하여 질문에 대해 3가지 평가 항목을 두어 진행하였다. 설문 결과 이미지의 핵심 키워드 경우 유의미한 문장을 생성한다는 결과를 얻을 수 있었다. 본 연구를 통해서 이미지 기반 문장 생성 시 이미지 키워드와 GPT 학습 내용과의 관계에 따라 결과물의 정확성이 달라진다는 결과를 얻을 수 있었다.

국내 연구자 커뮤니티 구성원의 부실 학술지 인식에 대한 연구 (A Study on the Perception of Predatory Journals among Members of the Korea Researcher Communities)

  • 홍명아;심원식
    • 정보관리학회지
    • /
    • 제41권2호
    • /
    • pp.97-130
    • /
    • 2024
  • 최근 학술 생태계의 새로운 이슈 중 하나인 부실 학술지를 두고 판별 기준의 모호성에 대한 논쟁이 불거지고 있다. 이러한 논란은 연구자들에게 부실 학술지의 부실성이 무엇인지에 대해 혼란을 주고 있다. 이에 본 연구는 국내 연구자들이 부실 학술지를 어떻게 인식하고, 또 어떻게 판별하고 있는지를 파악하고자 했다. 이를 위해 한국의 대표적인 연구자 커뮤니티인 생물학연구정보센터(BRIC), 하이브레인넷, 김박사넷, 건전학술활동지원시스템(SAFE)을 대상으로, 2023년 11월까지 작성된 관련 게시글과 댓글 총 2,484건을 수집하였다. 수집된 텍스트 데이터에 대한 주제 분석을 위해 먼저 데이터를 3개의 큰 범주인 학술지, 출판사, 연구자로 구분하였고, 해당 범주에 따라 11가지의 세부 주제 태그로 분류하였다. 이후 세부 주제 태그의 조합에 근거하여 다음과 같은 부실학술지 관련 6개의 주요 논쟁점을 도출하였다. 첫째, 부실 학술지에 대한 연구자들의 혼란과 연구 실적에 대한 논란이다. 둘째, 부실 학술지에 대해 부정적인 인식을 가진 연구자들의 견해이다. 셋째, 부실 학술지에 대해 긍정적인 인식을 가진 연구자들의 견해이다. 넷째, 학술지 수준에 대한 평가 기준과 국내 학술지 수준에 대한 문제 제기이다. 다섯째, OA 확산에 따른 출판 관행의 변화와 이에 따른 문제 제기이다. 여섯째, 학술 생태계의 전반적인 문제에 대한 논의이다. 본 연구는 국내의 연구자들의 부실 학술지에 대한 인식을 정성적 측면에서 고려한 연구로서, 국내의 부실 학술지 논란에 대한 근본적인 이해를 형성하는 데 도움이 될 것으로 기대한다.

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측 (Online news-based stock price forecasting considering homogeneity in the industrial sector)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.1-19
    • /
    • 2018
  • 주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

한국, 중국, 일본 철도연구기관 특허 및 논문실적 비교분석 (The Comparative Analysis of Outcomes on Patents and Papers of Railway Research Institutes in Korea, China and Japan)

  • 백승현;이윤주
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.455-460
    • /
    • 2020
  • 한국, 중국, 일본 정부는 철도에 대한 종합연구기관을 설립하여 운영하고 있다. 한국철도기술연구원, 중국철도과학연구원, 일본철도종합기술연구소는 각 국가의 대표적인 철도종합연구기관으로서, 철도원천기술 및 시스템기술개발에 집중하고 있다. 이 기관들은 특허와 논문 실적을 지속적으로 도출하고 있으며, 특허 및 논문을 통해 각 기관들의 연구성과를 비교 분석할 수 있다. 윈텔립스 DB를 이용하여 2000년 이후 공개특허를 비교한 결과, 특허의 양적 경쟁력에서는 한국철도기술연구원이 1,923건으로 가장 앞서는 것으로 나타났고, 질적 경쟁력에서는 한국철도기술연구원이 토목분야의 특허시장지수가 1.04, 특허영향력지수가 1.33으로 높게 나타났으며 일본철도종합기술연구소가 철도전력분야 특허시장지수가 1.16, 특허영향력지수가 1.32로 높게 나타났다. 세 기관 모두 자국 특허출원 비중이 매우 높게 나타났으나, 한국철도기술연구원이 상대적으로 PCT 출원 108건 등 해외 지식재산권 경쟁력 확보노력을 가장 많이 하는 것으로 나타났다. Scopus DB를 이용하여 논문발표를 비교한 결과, 중국철도과학연구원이 1,527건으로 가장 많은 논문을 발표하였지만, 2015년부터는 한국철도기술연구원이 매년 100건 이상의 논문을 발표하며 가장 많은 실적을 나타냈다. 피인용도를 중심으로 논문영향력을 살펴본 결과, 한국철도기술연구원의 논문영향력지수가 0.45로서 두 기관보다 높은 경쟁력을 갖고 있었다. 향후 세 기관의 특허·논문 정보에 대한 텍스트마이닝 등 빅데이터분석을 활용하여, 기관별 중점연구영역 및 유망기술분야를 도출하고, 과학적 증거에 기반한 철도기술개발 중장기발전계획 등의 수립이 필요할 것으로 판단된다.

퍼스널 헬스케어 디바이스 사용자 경험 연구 (Explicating Personal Health Informatics Experience)

  • 신동희;조호연
    • 한국콘텐츠학회논문지
    • /
    • 제17권1호
    • /
    • pp.550-566
    • /
    • 2017
  • 최근 헬스케어 산업의 증가와 웨어러블 디바이스 및 건강 관련 모니터링 기술의 발전은 자신의 행동을 측정하고 계량화하는 자아정량화 운동의 부흥을 촉진시키고 있다. 퍼스널 헬스케어를 통해 사용자들은 자신의 건강관련 행동을 정량적으로 인지하고 건강관련 인식을 향상할 수 있게 되었다. 본 연구는 사용자에게 전달되는 건강정보를 보다 효과적으로 전달하는 방법을 찾고 제안하고자 한다. 이를 위해 어플리케이션에서 피드백 유형(feedback type)의 비교반응과 정보 제공형태(presentation mode)의 심리적 효과에 대한 실험연구를 진행하였으며 이를 위해 피험자들의 건강 자가보존 성향을 측정하였다. 실험연구 결과, 비교조건과 텍스트 조건에서 사용자의 개인정량화 정보를 효과적으로 전달하는 것으로 나타났다. 또한 피험자의 건강 관련 자가 인지에 따라 건강 자가보존 성향 역시 증가하였다. 이러한 연구 결과 분석은 사용자의 건강 관련 행동 변화 유도의 관점에서 건강정보학 분야 연구의 사용자 행동유도성에 관한 학술적 방법론에 기여할 수 있으며 개인정보학 어플리케이션 설계 및 개발에 의미있는 기여를 할 수 있다. 또한 연구결과는 향후 웨어러블 디바이스의 지속적인 사용을 위한 요인 분석과 개인 트래킹 데이터 분석을 통한 효율적인 건강관리 등 헬스케어 산업에 새로운 통찰을 제공할 것이다.

코로나 이전과 이후의 4차 산업혁명과 광고의 뉴스기사 분석 : LDA와 Word2vec을 중심으로 (News Article Analysis of the 4th Industrial Revolution and Advertising before and after COVID-19: Focusing on LDA and Word2vec)

  • 차영란
    • 한국콘텐츠학회논문지
    • /
    • 제21권9호
    • /
    • pp.149-163
    • /
    • 2021
  • 4차 산업혁명이란 인공지능(AI), 사물인터넷(IoT), 로봇기술, 드론, 자율주행과 가상현실(VR) 등 정보통신 기술이 주도하는 차세대 산업혁명을 말하는 것으로, 광고 산업 발전에도 큰 영향을 미쳤다. 그러나 지금 전세계는 코로나 확산 방지를 위하여, 비접촉, 비대면 생활환경으로 급속도로 빠르게 변화하고 있다. 이에 따라 4차 산업혁명과 광고의 역할도 변화하고 있다. 따라서 본 연구에서는 코로나 19 이전과 이후의 4차산업 혁명과 광고의 변화를 살펴보기 위해 빅카인즈를 활용해서 텍스트 분석을 하였다. 코로나 19 이전인 2019년과 코로나 19 이후인 2020년을 비교하였다. LDA토픽 모형 분석과 딥러닝 기법인 Word2vec을 통해 주요 토픽과 문서분류를 하였다. 연구결과 코로나19 이전에는 정책, 콘텐츠, AI 등이 나타났으나, 코로나 이후에는 데이터를 활용한 금융, 광고, 배달 등으로 점차 영역이 확장되며, 더불어 인재양성 교육이 중요한 이슈로 나타난 것을 알 수 있었다. 또한, 코로나 19 이전에는 4차 산업혁명 기술과 관련된 광고를 활용하는 것이 주류를 이루었다면, 코로나 19 이후에는 참여, 협력, 일상 필요 등 좀 더 적극적으로 첨단기술 자체에 대한 교육과 인재양성 등에 대한 키워드가 두드러지게 나타나고 있다. 따라서 이러한 연구결과는 코로나 19 이후에 4차 산업혁명에서 광고의 나아갈 방향을 제시하면서, 이에 필요한 이론적, 실무적으로 적용할 수 있는 다각적인 전략을 제시하는 데 의의가 있다.

MZ세대에 대한 대중감성 연구: 소셜미디어(SNS) 감성 분석을 통해 (A Study on Popular Sentiment for Generation MZ: Through social media (SNS) sentiment analysis)

  • 안명숙
    • 문화기술의 융합
    • /
    • 제9권1호
    • /
    • pp.19-26
    • /
    • 2023
  • 본 연구에서는 소셜 미디어 빅데이터 감성분석 방법을 통해 'MZ세대'에 대한 대중 감성을 살펴보았다. 분석을 위해 소비자 계정 SNS 텍스트를 살펴보고 내용상 외부 감성과 MZ세대 본인들의 감성을 분류하여 긍정 및 부정 감성 요인들을 제시하였다. 이에 따른 결론은 'MZ세대' 관련하여 호감과 흥미의 긍정정서가 72.1%로, 부정적인 감성비율 27.9 % 보다 높았다. 긍정감성에서 기성세대들은 'MZ세대의 개성과 당당함에 대한 호감', '새로운 가치관을 가진 MZ세대에 대한 흥미'를 보였다. 이에 비해 MZ세대들은 '자신들의 당당함, 발랄함 및 개성 세대라는 점'과 '소소한 성장주의'에 대한 호감을 갖고 있다. MZ세대 외부의 부정감성은 'MZ세대의 결혼기피, 취업난, 빚투자 및 퇴사 트랜드에 대해 걱정', '꼰대 취급하는 MZ 세대 미움', 'MZ세대와 대화하기 힘듦'으로 나타났다. 한편, MZ세대 본인들이 느끼는 부정감성은 '일반화에 대한 거부감', '세대 및 젠더 갈등과 기성세대보다 심한 경쟁에 대한 거부감', '풍요로운 시대의 상대적 실패감', '예고된 기후재앙 속에서 살아야하는 슬픔'으로 나타났다. 따라서 기성세대는 MZ세대를 일반화하여 바라볼 것이 아니라 개인으로 보아야 하며, 세대간 이해와 공감으로 갈등을 완화해야한다. 세대 갈등, 젠더 갈등 및 환경문제 해결을 위한 공동체적인 고민의 필요성도 있다.

지방자치단체의 스마트시티 조례 분석: 토픽모델링을 활용하여 (Analysis of Municipal Ordinances for Smart Cities of Municipal Governments: Using Topic Modeling)

  • 서형준
    • 정보화정책
    • /
    • 제30권1호
    • /
    • pp.41-66
    • /
    • 2023
  • 본 연구는 72개 지자체의 74개 스마트시티 조례를 대상으로, 지자체 스마트시티 조례의 방향성을 확인하고자 토픽모델링을 활용하여 조례의 주요 키워드를 확인하고, 조례의 키워드에 따른 주제분류를 진행하였다. 분석결과 주요 키워드는 스마트도시위원회의 구성 및 운영에 관한 키워드가 조례 내에서 높은 빈도를 보였다. 조례에 대한 토픽모델링 Latent Dirichlet Allocation(LDA) 분석결과 관련 키워드에 따라 총 8개의 주제로 분류할 수 있었다. 구체적으로 주제-1(스마트시티 추진사항 보안), 주제-2(스마트시티 산업진흥), 주제-3(스마트시티 주민협의체 구성), 주제-4(스마트시티 추진체계 지원), 주제-5(개인정보 관리), 주제-6(스마트시티 데이터 활용), 주제-7(지능정보화 행정구현), 주제-8(스마트시티 홍보) 등으로, 주제의 비중은 주제-6, 주제-4, 주제-1 등의 순으로 나타났다. 권역별 주제분류는 수도권은 주제-5, 주제-6, 주제-8 의 비중이 높았고, 지방권은 주제-2, 주제-3, 주제-4의 비중이 높아 수도권은 스마트시티의 실질 운영 관련 주제가 높았고, 지방권은 스마트시티 추진을 위한 준비단계 관련 주제 비중이 높았다.