• 제목/요약/키워드: 텍스트 데이터 분석

검색결과 1,111건 처리시간 0.026초

국내 연구자 커뮤니티 구성원의 부실 학술지 인식에 대한 연구 (A Study on the Perception of Predatory Journals among Members of the Korea Researcher Communities)

  • 홍명아;심원식
    • 정보관리학회지
    • /
    • 제41권2호
    • /
    • pp.97-130
    • /
    • 2024
  • 최근 학술 생태계의 새로운 이슈 중 하나인 부실 학술지를 두고 판별 기준의 모호성에 대한 논쟁이 불거지고 있다. 이러한 논란은 연구자들에게 부실 학술지의 부실성이 무엇인지에 대해 혼란을 주고 있다. 이에 본 연구는 국내 연구자들이 부실 학술지를 어떻게 인식하고, 또 어떻게 판별하고 있는지를 파악하고자 했다. 이를 위해 한국의 대표적인 연구자 커뮤니티인 생물학연구정보센터(BRIC), 하이브레인넷, 김박사넷, 건전학술활동지원시스템(SAFE)을 대상으로, 2023년 11월까지 작성된 관련 게시글과 댓글 총 2,484건을 수집하였다. 수집된 텍스트 데이터에 대한 주제 분석을 위해 먼저 데이터를 3개의 큰 범주인 학술지, 출판사, 연구자로 구분하였고, 해당 범주에 따라 11가지의 세부 주제 태그로 분류하였다. 이후 세부 주제 태그의 조합에 근거하여 다음과 같은 부실학술지 관련 6개의 주요 논쟁점을 도출하였다. 첫째, 부실 학술지에 대한 연구자들의 혼란과 연구 실적에 대한 논란이다. 둘째, 부실 학술지에 대해 부정적인 인식을 가진 연구자들의 견해이다. 셋째, 부실 학술지에 대해 긍정적인 인식을 가진 연구자들의 견해이다. 넷째, 학술지 수준에 대한 평가 기준과 국내 학술지 수준에 대한 문제 제기이다. 다섯째, OA 확산에 따른 출판 관행의 변화와 이에 따른 문제 제기이다. 여섯째, 학술 생태계의 전반적인 문제에 대한 논의이다. 본 연구는 국내의 연구자들의 부실 학술지에 대한 인식을 정성적 측면에서 고려한 연구로서, 국내의 부실 학술지 논란에 대한 근본적인 이해를 형성하는 데 도움이 될 것으로 기대한다.

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측 (Online news-based stock price forecasting considering homogeneity in the industrial sector)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.1-19
    • /
    • 2018
  • 주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.

한국, 중국, 일본 철도연구기관 특허 및 논문실적 비교분석 (The Comparative Analysis of Outcomes on Patents and Papers of Railway Research Institutes in Korea, China and Japan)

  • 백승현;이윤주
    • 한국산학기술학회논문지
    • /
    • 제21권6호
    • /
    • pp.455-460
    • /
    • 2020
  • 한국, 중국, 일본 정부는 철도에 대한 종합연구기관을 설립하여 운영하고 있다. 한국철도기술연구원, 중국철도과학연구원, 일본철도종합기술연구소는 각 국가의 대표적인 철도종합연구기관으로서, 철도원천기술 및 시스템기술개발에 집중하고 있다. 이 기관들은 특허와 논문 실적을 지속적으로 도출하고 있으며, 특허 및 논문을 통해 각 기관들의 연구성과를 비교 분석할 수 있다. 윈텔립스 DB를 이용하여 2000년 이후 공개특허를 비교한 결과, 특허의 양적 경쟁력에서는 한국철도기술연구원이 1,923건으로 가장 앞서는 것으로 나타났고, 질적 경쟁력에서는 한국철도기술연구원이 토목분야의 특허시장지수가 1.04, 특허영향력지수가 1.33으로 높게 나타났으며 일본철도종합기술연구소가 철도전력분야 특허시장지수가 1.16, 특허영향력지수가 1.32로 높게 나타났다. 세 기관 모두 자국 특허출원 비중이 매우 높게 나타났으나, 한국철도기술연구원이 상대적으로 PCT 출원 108건 등 해외 지식재산권 경쟁력 확보노력을 가장 많이 하는 것으로 나타났다. Scopus DB를 이용하여 논문발표를 비교한 결과, 중국철도과학연구원이 1,527건으로 가장 많은 논문을 발표하였지만, 2015년부터는 한국철도기술연구원이 매년 100건 이상의 논문을 발표하며 가장 많은 실적을 나타냈다. 피인용도를 중심으로 논문영향력을 살펴본 결과, 한국철도기술연구원의 논문영향력지수가 0.45로서 두 기관보다 높은 경쟁력을 갖고 있었다. 향후 세 기관의 특허·논문 정보에 대한 텍스트마이닝 등 빅데이터분석을 활용하여, 기관별 중점연구영역 및 유망기술분야를 도출하고, 과학적 증거에 기반한 철도기술개발 중장기발전계획 등의 수립이 필요할 것으로 판단된다.

퍼스널 헬스케어 디바이스 사용자 경험 연구 (Explicating Personal Health Informatics Experience)

  • 신동희;조호연
    • 한국콘텐츠학회논문지
    • /
    • 제17권1호
    • /
    • pp.550-566
    • /
    • 2017
  • 최근 헬스케어 산업의 증가와 웨어러블 디바이스 및 건강 관련 모니터링 기술의 발전은 자신의 행동을 측정하고 계량화하는 자아정량화 운동의 부흥을 촉진시키고 있다. 퍼스널 헬스케어를 통해 사용자들은 자신의 건강관련 행동을 정량적으로 인지하고 건강관련 인식을 향상할 수 있게 되었다. 본 연구는 사용자에게 전달되는 건강정보를 보다 효과적으로 전달하는 방법을 찾고 제안하고자 한다. 이를 위해 어플리케이션에서 피드백 유형(feedback type)의 비교반응과 정보 제공형태(presentation mode)의 심리적 효과에 대한 실험연구를 진행하였으며 이를 위해 피험자들의 건강 자가보존 성향을 측정하였다. 실험연구 결과, 비교조건과 텍스트 조건에서 사용자의 개인정량화 정보를 효과적으로 전달하는 것으로 나타났다. 또한 피험자의 건강 관련 자가 인지에 따라 건강 자가보존 성향 역시 증가하였다. 이러한 연구 결과 분석은 사용자의 건강 관련 행동 변화 유도의 관점에서 건강정보학 분야 연구의 사용자 행동유도성에 관한 학술적 방법론에 기여할 수 있으며 개인정보학 어플리케이션 설계 및 개발에 의미있는 기여를 할 수 있다. 또한 연구결과는 향후 웨어러블 디바이스의 지속적인 사용을 위한 요인 분석과 개인 트래킹 데이터 분석을 통한 효율적인 건강관리 등 헬스케어 산업에 새로운 통찰을 제공할 것이다.

코로나 이전과 이후의 4차 산업혁명과 광고의 뉴스기사 분석 : LDA와 Word2vec을 중심으로 (News Article Analysis of the 4th Industrial Revolution and Advertising before and after COVID-19: Focusing on LDA and Word2vec)

  • 차영란
    • 한국콘텐츠학회논문지
    • /
    • 제21권9호
    • /
    • pp.149-163
    • /
    • 2021
  • 4차 산업혁명이란 인공지능(AI), 사물인터넷(IoT), 로봇기술, 드론, 자율주행과 가상현실(VR) 등 정보통신 기술이 주도하는 차세대 산업혁명을 말하는 것으로, 광고 산업 발전에도 큰 영향을 미쳤다. 그러나 지금 전세계는 코로나 확산 방지를 위하여, 비접촉, 비대면 생활환경으로 급속도로 빠르게 변화하고 있다. 이에 따라 4차 산업혁명과 광고의 역할도 변화하고 있다. 따라서 본 연구에서는 코로나 19 이전과 이후의 4차산업 혁명과 광고의 변화를 살펴보기 위해 빅카인즈를 활용해서 텍스트 분석을 하였다. 코로나 19 이전인 2019년과 코로나 19 이후인 2020년을 비교하였다. LDA토픽 모형 분석과 딥러닝 기법인 Word2vec을 통해 주요 토픽과 문서분류를 하였다. 연구결과 코로나19 이전에는 정책, 콘텐츠, AI 등이 나타났으나, 코로나 이후에는 데이터를 활용한 금융, 광고, 배달 등으로 점차 영역이 확장되며, 더불어 인재양성 교육이 중요한 이슈로 나타난 것을 알 수 있었다. 또한, 코로나 19 이전에는 4차 산업혁명 기술과 관련된 광고를 활용하는 것이 주류를 이루었다면, 코로나 19 이후에는 참여, 협력, 일상 필요 등 좀 더 적극적으로 첨단기술 자체에 대한 교육과 인재양성 등에 대한 키워드가 두드러지게 나타나고 있다. 따라서 이러한 연구결과는 코로나 19 이후에 4차 산업혁명에서 광고의 나아갈 방향을 제시하면서, 이에 필요한 이론적, 실무적으로 적용할 수 있는 다각적인 전략을 제시하는 데 의의가 있다.

MZ세대에 대한 대중감성 연구: 소셜미디어(SNS) 감성 분석을 통해 (A Study on Popular Sentiment for Generation MZ: Through social media (SNS) sentiment analysis)

  • 안명숙
    • 문화기술의 융합
    • /
    • 제9권1호
    • /
    • pp.19-26
    • /
    • 2023
  • 본 연구에서는 소셜 미디어 빅데이터 감성분석 방법을 통해 'MZ세대'에 대한 대중 감성을 살펴보았다. 분석을 위해 소비자 계정 SNS 텍스트를 살펴보고 내용상 외부 감성과 MZ세대 본인들의 감성을 분류하여 긍정 및 부정 감성 요인들을 제시하였다. 이에 따른 결론은 'MZ세대' 관련하여 호감과 흥미의 긍정정서가 72.1%로, 부정적인 감성비율 27.9 % 보다 높았다. 긍정감성에서 기성세대들은 'MZ세대의 개성과 당당함에 대한 호감', '새로운 가치관을 가진 MZ세대에 대한 흥미'를 보였다. 이에 비해 MZ세대들은 '자신들의 당당함, 발랄함 및 개성 세대라는 점'과 '소소한 성장주의'에 대한 호감을 갖고 있다. MZ세대 외부의 부정감성은 'MZ세대의 결혼기피, 취업난, 빚투자 및 퇴사 트랜드에 대해 걱정', '꼰대 취급하는 MZ 세대 미움', 'MZ세대와 대화하기 힘듦'으로 나타났다. 한편, MZ세대 본인들이 느끼는 부정감성은 '일반화에 대한 거부감', '세대 및 젠더 갈등과 기성세대보다 심한 경쟁에 대한 거부감', '풍요로운 시대의 상대적 실패감', '예고된 기후재앙 속에서 살아야하는 슬픔'으로 나타났다. 따라서 기성세대는 MZ세대를 일반화하여 바라볼 것이 아니라 개인으로 보아야 하며, 세대간 이해와 공감으로 갈등을 완화해야한다. 세대 갈등, 젠더 갈등 및 환경문제 해결을 위한 공동체적인 고민의 필요성도 있다.

지방자치단체의 스마트시티 조례 분석: 토픽모델링을 활용하여 (Analysis of Municipal Ordinances for Smart Cities of Municipal Governments: Using Topic Modeling)

  • 서형준
    • 정보화정책
    • /
    • 제30권1호
    • /
    • pp.41-66
    • /
    • 2023
  • 본 연구는 72개 지자체의 74개 스마트시티 조례를 대상으로, 지자체 스마트시티 조례의 방향성을 확인하고자 토픽모델링을 활용하여 조례의 주요 키워드를 확인하고, 조례의 키워드에 따른 주제분류를 진행하였다. 분석결과 주요 키워드는 스마트도시위원회의 구성 및 운영에 관한 키워드가 조례 내에서 높은 빈도를 보였다. 조례에 대한 토픽모델링 Latent Dirichlet Allocation(LDA) 분석결과 관련 키워드에 따라 총 8개의 주제로 분류할 수 있었다. 구체적으로 주제-1(스마트시티 추진사항 보안), 주제-2(스마트시티 산업진흥), 주제-3(스마트시티 주민협의체 구성), 주제-4(스마트시티 추진체계 지원), 주제-5(개인정보 관리), 주제-6(스마트시티 데이터 활용), 주제-7(지능정보화 행정구현), 주제-8(스마트시티 홍보) 등으로, 주제의 비중은 주제-6, 주제-4, 주제-1 등의 순으로 나타났다. 권역별 주제분류는 수도권은 주제-5, 주제-6, 주제-8 의 비중이 높았고, 지방권은 주제-2, 주제-3, 주제-4의 비중이 높아 수도권은 스마트시티의 실질 운영 관련 주제가 높았고, 지방권은 스마트시티 추진을 위한 준비단계 관련 주제 비중이 높았다.

Investigating the Influence of ESG Information on Funding Success in Online Crowdfunding Platform by Using Text Mining Technique and Logistic Regression

  • Kyu Sung Kim;Min Gyeong Kim;Francis Joseph Costello;Kun Chang Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권7호
    • /
    • pp.155-164
    • /
    • 2023
  • 본 논문은 온라인 크라우드펀딩 플랫폼에서 환경, 사회 및 지배구조 (ESG) 관련 내용이 자금 조달의 성공에 미치는 영향에 대해 조사한다. 최근, 산업에서 ESG의 중요성이 증가하고 있으며 ESG와 관련된 내용을 포함한 투자 제안도 증가하고 있다. 이에 따라, ESG 개념을 포함한 대부분의 투자 제안은 이러한 사회적 현상으로 인해 더 높은 펀딩 성공률을 보일 것이라는 관행적인 믿음이 존재한다. 우리는 투자 제안서의 어떤 특성이 투자의 증가와 관련이 있는지를 알아보기 위해 Kickstarter 데이터셋에서 9000개 이상의 온라인 사업 제안을 분석하여 조사했다. 먼저, 우리는 어휘 기반 측정과 특성 공학을 사용하여 환경과 사회 점수가 재무 지표와 어떻게 관련되는지를 결정했다. 다음 단계에서는 로지스틱 회귀분석을 사용하여 프로젝트 설명에 환경 및 사회적인 단어를 포함하는 것이 자금 조달에 미치는 영향을 연구했다. 일반적인 믿음과는 달리, ESG 문제를 중심으로 한 투자 제안이 소규모 사업가들에게는 성공할 가능성이 더 낮다는 것을 발견했다. 본 연구는 온라인 소규모 사업가의 환경에 대한 새로운 통찰력을 제공하며, 정보과학 및 크라우드펀딩 연구 분야에서의 새로운 연구 기회를 창출할 것이다.