• 제목/요약/키워드: 리뷰데이터

검색결과 313건 처리시간 0.025초

한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안 (Measurement of Political Polarization in Korean Language Model by Quantitative Indicator)

  • 김정욱;김경민;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

Filtering Clinical BERT (FC-BERT): 증상과 약물 이상 반응 구분을 위한 약물 이상 반응 탐지 모델 (Filtering Clinical BERT (FC-BERT): An ADR Detection Model for distinguishing symptoms from adverse drug reactions)

  • 이채연;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.549-552
    • /
    • 2022
  • 최근 소셜미디어 리뷰 데이터를 활용한 약물 이상 반응 탐지 연구가 활발히 진행되고 있지만, 약물을 복용하기 전 증상과 약물 이상 반응을 구분하지 못한다는 한계가 있다. 본 논문에서는 약물 이상 반응 탐지에서 약물 복용 전의 증상을 구분할 수 있는 Filtering Clinical BERT(FC-BERT) 모델을 제안하였다. FC-BERT 는 약물 복용 전 증상과 다른 약물에 대한 부작용 표현을 제거하기 위해 약물명이 나오기 전 모든 문장을 제거하는 필터링과 약물-부작용 쌍을 추출하는 모델을 사용했다. 성능 평가 실험을 위해 문장에 대한 ADE(Adverse Drug Event) 여부가 들어있는 ADE Corpus V2 데이터를 활용하였고 SPARK NLP 라이브러리에서 제공하는 ADE Pipeline 모델과 비교하여 성능 평가를 실시하였다. 실험 결과 필터링을 활용한 FC-BERT 모델이 기존 모델보다 정확도, 평균 정밀도, 평균 재현율, 평균 F1-score 가 모두 높은 결과를 보여주었다. 본 논문에서 제시한 모델은 기존 연구의 한계점을 보완하여 보다 정확한 약물 부작용 시그널을 탐지하는데 기여할 수 있을 것이다.

K-POP 연관 해시태그 크롤링을 이용한 맛집 추천 시스템 개발 (Development of Restaurant Recommendation System Using K-Pop Hashtag Crawling)

  • 김화선;이채연;조서윤;나정은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.878-880
    • /
    • 2022
  • COVID-19 상황 속에서도 전 세계 Twitter K-POP 콘텐츠 관련 트윗 양은 78억 건 이상으로 매년 성장세를 보인다. Twitter 내 K-POP 팬들은 아티스트 관련 해시태그를 포함한 트윗을 작성하여 같은 팬덤끼리 실시간으로 정보를 전달하고 생산한다. 이러한 맛집 트윗들은 K-POP 팬들이 Twitter 내에서 신뢰도 있는 맛집 정보를 얻는 용도로 사용된다. 하지만 팬들이 정보를 얻기 위해서는 여러 맛집 해시태그로 검색하고 리트윗 수가 많은 트윗을 직접 찾아야 한다. 기존의 맛집 추천 시스템은 서비스 제공자 중심의 구조를 띤다. 서비스 제공자가 일방적으로 정보를 전달하거나, 사용자 리뷰 갱신 간격이 길다는 한계가 존재한다. 본 논문에서는 Twitter 내 K-POP 맛집 해시태그가 포함된 트윗을 Twitter API와 Tweepy를 사용하여 크롤링하였다. 수집한 데이터의 좋아요 수와 리트윗 수를 바탕으로 데이터 필터링을 진행하여 bot user와 광고 계정이 제외된 맛집 관련 트윗을 추출한다. 최종적으로는 추출한 트윗의 정보를 마커로 표시하여 웹 사이트를 제작하였다. K-POP 팬들은 맛집 해시태그를 검색하여 일일이 찾을 필요 없이 웹 사이트에 방문하여 맛집 위치를 확인할 수 있다. 웹 사이트 사용자의 위치가 지도상에 표시되어 가까운 맛집을 찾기도 편리하다. 본 논문에서는 맛집의 위치를 서대문구로 한정하여 진행했다.

메가 OA 학술지 국내 저자의 오픈 피어 리뷰 인식에 관한 연구 (A Study on Open Peer Review Perception of Korean Authors in a Mega OA Journal)

  • 김지영;김현수;심원식
    • 정보관리학회지
    • /
    • 제37권4호
    • /
    • pp.131-150
    • /
    • 2020
  • 본 연구는 최근 학술지 출판에 있어 전통적인 동료 심사 방식의 문제점을 개선하기 위해 새롭게 시도되고 있는 오픈 피어 리뷰(OPR)에 대한 연구자의 인식을 파악하고자 대표적인 메가 오픈 액세스(OA) 학술지의 국내 저자를 대상으로 설문조사를 실시하고 그 결과를 분석하였다. 설문조사 대상은 국제적인 OA 학술지이며 메가학술지인 PLOS 학술지에 논문을 출판한 국내 교신 저자로 선정하였고, 설문조사는 온라인 설문으로 진행하였으며, 총 238명이 응답하였고 202개의 유효 설문을 대상으로 분석을 수행하였다. 수집된 설문 데이터에 대해 빈도 분석, 집단 간 평균 비교를 수행하여 통계분석을 하였다. 연구자의 연령, 연구경력, OPR 경험 유무 등에 따라 OPR에 대한 인식에 차이가 나타나는지 분석한 결과 44세 이하 연구자, 9년 이하의 연구경력을 갖는 연구자, OPR 참여 경험이 있는 연구자의 경우 OPR 인식에서 몇 가지 차이를 보였다. 44세 이하 연구자의 경우 현재 동료 심사 방식의 변화를 바라지만 OPR에 대해서는 적극적으로 수용하지 않고 있는 것으로 나타났다. 연구자가 OPR에 동의하지 않는 이유를 분석한 결과 객관성 결여, 심사자 부담 증가, 감정 및 관계 문제를 제기하였고, 잊혀질 권리도 필요하다고 응답하였다.

영화의 흥행 성과와 리뷰 감정어휘와의 관계 분석 (Relationship Analysis between the Box Office Performance and Sentimental Words in Movie Review)

  • 문성민;하효지;이경원
    • 디자인융복합연구
    • /
    • 제14권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 본 연구는 영화 리뷰 값이 1000개 이상인 673개의 영화를 대상으로 영화 장르별로 관객들이 느끼는 감정 어휘의 분포를 탐색하고 영화 흥행도와 감정 어휘의 관계를 파악하는데 목적이 있다. 분석을 위해 네이버 영화 리뷰를 크롤링하고 감정 어휘 사전을 활용하여 7개의 대표 감정 어휘, 영화 티켓 판매액, 영화 관람 관객 수, 상영 스크린 수, 한 스크린 당 영화 관람 관객 수, 영화의 장르, 영화의 영문 이름으로 구성된 데이터를 생성하였다. 연구 목적을 위한 분석은 상관관계 분석 방법과 Parallel coordinates 시각화 분석 방법을 사용하였다. 연구 결과로는 첫째, 장르에 따른 영화 흥행도를 분석하여 영화 흥행도가 가장 높은 장르는 코미디이고 가장 낮은 장르는 호러라는 결과를 확인하였다. 둘째, 모든 장르에서 'Happy'와 'Surprise'의 값이 높게 나오지만 다른 장르들에 비해 판타지 장르의 영화는 지루한 감정이 많이 느껴지고, SF장르의 영화는 화나는 감정이 많이 느껴진다는 결과를 확인 하였다. 셋째, 모든 장르의 감정 어휘 별 상관관계를 분석하여 Disgust'의 값이 높아질 때 'Anger'의 값도 높아지고, 'Happy'의 값이 높아질 때 'Surprise'의 값은 낮아진다라는 결과를 확인하였다. 넷째, 영화 흥행도에 따른 감정 어휘를 분석하여 영화 흥행도와 'Happy'는 선형 관계이지만 영화 흥행도와 'Fear'는 비선형 관계인 것을 확인 하였다.

Causal Impact 분석 기법을 접목한 COVID-19 팬데믹 전·후 메타버스 애플리케이션 리뷰의 토픽 변화 분석 (Analysis of Topic Changes in Metaverse Application Reviews Before and After the COVID-19 Pandemic Using Causal Impact Analysis Techniques)

  • 이소원;노미진;한무명초;김양석
    • 스마트미디어저널
    • /
    • 제13권1호
    • /
    • pp.36-44
    • /
    • 2024
  • 가상환경 기술의 발전과 COVID-19 팬데믹으로 언택트 문화가 부상함에 따라 메타버스(Metaverse)가 주목받고 있다. 본 연구에서는 최근 메타버스 서비스로 주목받는 "제페토" 애플리케이션에 대한 사용자들의 리뷰를 분석하여, COVID-19 팬데믹 이후 메타버스에 대한 요구사항의 변화를 확인하고자 하였다. 이를 위해 2018년 9월부터 2023년 3월까지 구글플레이스토어에 작성된 "제페토" 애플리케이션 리뷰 109,662건을 수집하였으며, LDA 토픽모델링 기법을 활용하여 토픽을 추출하고, COVID-19 팬데믹이 선언된 "2020년 3월 11일"을 기준으로 전·후로 토픽이 어떻게 변화했는지 Causal Impact 기법을 사용하여 분석하였다. 분석 결과 애플리케이션 기능적 문제(토픽1), 보안 문제(토픽2), 애플리케이션 내 가상화폐(Zem)에 대한 불만 사항(토픽3), 애플리케이션 성능(토픽4), 개인정보 관련 문제(토픽5) 등 5가지 토픽이 추출되었으며, 이들 중 보안 문제(토픽2)가 COVID-19 팬데믹에 가장 큰 영향을 받았음이 확인하였다.

텍스트마이닝을 활용한 브랜드 플랫폼 사용자 감성 분석: 나이키 및 아디다스 러닝 앱 리뷰 비교분석을 중심으로 (Brand Platformization and User Sentiment: A Text Mining Analysis of Nike Run Club with Comparative Insights from Adidas Runtastic)

  • 박한나;맹윤호;김효근
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.43-66
    • /
    • 2024
  • 디지털 기술의 발전으로 브랜드와 소비자 간 커뮤니케이션 방식이 혁신적으로 변화하고 있다. 이러한 변화의 일환으로, 나이키와 아디다스와 같은 스포츠 브랜드들은 자체 러닝 앱을 통해 소비자들과 상호작용을 강화하고, 브랜드 경험을 통한 충성도 강화에 노력하고 있다. 하지만 이러한 브랜드 자체 플랫폼이 충성도 및 옹호도에 미치는 직접적 영향과 개선점에 대한 심도 깊은 연구는 더 많이 필요한 상황이다. 이에 본 연구는 2020년 1월부터 2023년 10월까지의 나이키 런 클럽(NRC)과 아디다스 런타스틱 앱 영어 리뷰 3,715건을 텍스트 마이닝 기법으로 분석하고, 브랜드 플랫폼이 소비자 충성도와 옹호에 끼치는 영향을 살펴보고자 하였다. 특히 '추천 리뷰' 155건에 대해 감성 분석 및 토픽모델링으로 심층 비교 분석하여, '핫 로열티'를 일으키는 이유와 두 브랜드에 대한 소비자 인식의 차이점을 찾고자 하였다. 그 결과 NRC는 개인화된 코칭과 감성적 교류를 제공하는 '동반자'로, 아디다스 런타스틱은 기능적 신뢰성에 초점을 맞춘 '도구'로 인식되는 차이를 발견했다. 이는 유사 기능의 앱에 대해서도 브랜드 별 소비자 인식과 성향은 다양할 수 있음을 시사하며, 브랜드 관리자는 이러한 차이를 플랫폼 디자인 및 기획에 세심하게 반영해야 함을 강조한다. 더불어, 기술적 오류가 브랜드에 대한 부정적 인식으로 직접 이어지는 경향이 공통적으로 확인되어, 앱 성능 개선과 관리의 중요성을 부각시킨다. 본 연구는 브랜드별 소비자 성향 파악과 그에 따른 맞춤 기술 도입이 브랜드 충성도와 옹호에 영향을 끼친다는 점을 실질적 데이터를 기반으로 보였다는 점에서 기존 연구 및 실무에 새로운 통찰과 실행 가이드 제공으로 기여한다.

On The Full-Text Database Retrieval and Indexing Language

  • Chang, Hye-Rhan
    • 정보관리학회지
    • /
    • 제4권1호
    • /
    • pp.24-46
    • /
    • 1987
  • 최근 원문 데이타베이스의 증가는 주제접근의 새로운 가능성을 제시하였다. 온라인 정보검색은 근본적으로 색인언어와 컴퓨터 기술의 문제이다. 본 연구의 목적은 전통적인 서지 데이타베이스 검색과 비교하여 원문 데이터 베이스 검색의 특징과 성능을 규명하는데 있다. 색인언어에 따른 검색효율, 현재 응용되고 있는 원문 데이타베이스 탐색 시스템, 통제어휘의 새로운 역할 등을 살펴보았다. 이 논문은 또한 원문 데이타베이스의 검색성능 실험에 대한 리뷰를 포함한다.

  • PDF

금융상품 만족도에 영향을 미치는 요인 -온라인 금융상품 비교/추천 플랫폼을 중심으로-

  • 황창희
    • 한국벤처창업학회:학술대회논문집
    • /
    • 한국벤처창업학회 2017년도 춘계학술대회
    • /
    • pp.52-52
    • /
    • 2017
  • 글로벌 금융위기 이후 다양한 형태로 등장한 금융상품과 ICT의 결합은 그 동안 생각하지 못한 방식으로 전 세계에 다양한 수요를 충족시키면서 폭발적으로 성장했다. 하지만 IT강국이라고 자부하는 대한민국은 다양한 규제와 시스템의 복잡성 때문에 은행상품이 온라인에서 거래되는 것은 아직까지 익숙하지 않다. 다행히 이러한 규제가 조금씩 완화되어 가면서 2016년은 모바일 송금, 금융상품 추천 플랫폼 등 비 금융업체 주도의 금융시장 온라인화가 소극적으로 이루어지는 과도기로 볼 수 있다. 이러한 시점에서 기존 오프라인 채널이 아닌 온라인 채널을 통해 금융상품을 구매하거나 가입하는 고객의 만족요인에 대해 연구하는 것은 향후 폭발적으로 증가할 수요에 앞서 연구하고, 현상을 주도할 기업에서도 소비자의 만족요인을 미리 파악한다는 점에서 시기적으로 적절하다. 해당 연구는 신용대출, 정기예금, 전세대출, 주택담보대출, 정기적금, 그리고 P2P투자 상품 별 만족도에 영향을 미치는 요인과 영향력을 SERVPERF 모델을 이용하여 분석한 뒤, 회귀분석과 텍스트간의 공동 출현단어에 대해 파이선을 통해 메트릭스를 형성하고, 사회연결망 분석으로 네트워크 중심성을 분석하여 단어간의 관계를 살펴보았다. 해당 연구는 국내 최초 온라인 금융상품 비교 추천 플랫폼인 "Finda"의 리뷰/평점데이터를 이용하였다.

  • PDF

그래프 기반의 이상 행위 탐지 시스템: 설계 및 이슈 (Graph-based Fraud Detection System: Design and Issue Review)

  • 이정훈;김동원;채송이
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.820-821
    • /
    • 2017
  • 최근 전자상거래의 활성화로 인해 전자금융거래에서 불법/이상 행위로 인한 피해규모가 증가하고 그 수법이 다양해지고 있다. 본 논문에서는 동적 그래프 처리 기술인 스트리밍 그래프 데이터에 대한 서브그래프 매칭 기술과 그래프 가시화 기술을 활용하여 불법/이상 행위를 탐지하는 클라이언트-서버 아키텍처 기반의 프레임워크를 설계한다. 그리고 불법/이상 행위를 탐지하는데 활용될 수 있는 기반 기술인 동적 그래프 매칭 기술과 그래프 가시화 기술의 최신 동향을 리뷰하고 최신 기술이 가진 한계 및 이슈를 제시한다.