• 제목/요약/키워드: 편향된 데이터

검색결과 160건 처리시간 0.021초

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석 (Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization)

  • 조단비;이현영;정원섭;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

위치기반 서비스(Location-based Service)의 프라이버시 위험 대응에 있어 사용자 감정(Affect)의 역할 (An Investigation of a Role of Affective factors in Users' Coping with Privacy Risk from Location-based Services)

  • 박종화;정윤혁
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.201-213
    • /
    • 2020
  • 위험에 대한 인간의 반응은 인지적 요인뿐만 아니라 정서적 요인에도 유의미한 영향을 받는다는 경험적 연구에도 불구하고, 정보 프라이버시 연구에서는 감정적 요인의 역할이 제대로 규명되지 않고 있다. 본 연구는 정서적 관점에서 위치기반 서비스(Location-based service) 사용자의 프라이버시 위험에 대한 대응행위를 탐색하고자 한다. 구체적으로, 본 연구는 세 가지 유형의 개인정보 위협(수집, 해킹, 2차 사용), 두 가지 감정적 반응(걱정, 분노) 및 대응행위(지속적인 사용의도)의 관계를 탐색하였다. 이를 위해 위치기반서비스(Location-based service) 사용자 552 명에 대해 설문조사를 실시하였다. 특정 개인정보 위협에 대한 인식과 특정 감정적 반응의 결합이 지속적 사용의도에 미치는 영향을 분석하기 위해 데이터마이닝 기법 중 하나인 연관규칙(association rule)을 활용하여 분석을 진행하였다. 그 결과 위험에 대한 인식과 정서적 반응의 결합에 따라 사용의도에 차이가 나타났으며, 대체로 개인정보의 2차 사용에 대해 분노의 감정이 유발될 경우 사용의도가 가장 크게 감소하는 것으로 나타났다. 본 연구는 정보 프라이버시 사용자 연구에 감정적 요인을 포함함으로써, 기존의 인지적 접근방식 편향을 보완하고 프라이버시 대응행위에 대한 포괄적 이해를 제공한다는 점에서 학문적 의의가 있다.

국제 및 국내 문헌정보학 분야의 연구성과 비교 분석 (Comparison of Research Performance Between Domestic and International Library and Information Science Scholars)

  • 양기덕;김선욱;이혜경
    • 한국문헌정보학회지
    • /
    • 제55권1호
    • /
    • pp.365-392
    • /
    • 2021
  • 본 연구는 최근의 국내 문헌정보학 분야의 연구성과 현황과 경향을 파악하기 위하여 지난 18년간의(2002-2020) 국내(KCI) 6,301편의 학술논문데이터, 인용 수 26,474건과 국제(WoS) 86,727편의 학술논문데이터, 인용 수 1,196,961건을 수집하여 연구의 생산성과 영향력, 공동연구 경향과 연구주제분야 등을 비교 분석하였다. 그 결과, 국제와 국내 모두 저자의 생산성이 높으나 영향력은 상대적으로 낮았으며, 이러한 차이는 국제에서 더 극명하게 나타났으며, 일부 최상위 저자와 기관, 학술지에 생산성과 영향력이 편향되어있었다. 공동연구는 국제와 국내 모두 지속해서 증가하고 있었는데, 이러한 현상은 현대의 문헌정보학 연구가 과거보다 간 학문적이며 연구범위가 다각화되고 있음을 시사한다. 키워드 분석을 통해 국제가 국내보다 훨씬 다양한 주제로의 연구가 진행중임이 나타났으며, 인기 있는 연구주제가 반드시 영향력이 높은 것은 아님이 밝혀졌다.

딥러닝 기반 지하공동구 화재 탐지 모델 개발 : 학습데이터 보강 및 편향 최적화 (Development of Fire Detection Model for Underground Utility Facilities Using Deep Learning : Training Data Supplement and Bias Optimization)

  • 김정수;이찬우;박승화;이종현;홍창희
    • 한국산학기술학회논문지
    • /
    • 제21권12호
    • /
    • pp.320-330
    • /
    • 2020
  • 화재는 높은 비정형성으로 인해 딥러닝 모델을 이용한 영상인식 분야에서도 좋은 성능을 내기가 어려운 대상 중 하나이다. 특히 지하공동구 내 화재는 딥러닝 모델의 학습을 위한 화재 데이터 확보가 어렵고 열약한 영상 조건 및 화재로 오인할 수 있는 객체가 많아 화재 검출이 어렵고 성능이 낮다. 이러한 이유로 본 연구는 딥러닝 기반의 지하공동구 내 화재 탐지 모델을 제안하고, 제안된 모델의 성능을 평가하였다. 기존 합성곱 인공신경망에 GoogleNet의 Inception block과 ResNet의 skip connection을 조합하여 어두운 환경에서 발생되는 화재 탐지를 위한 모델 구조를 제안하였으며, 제안된 모델을 효과적으로 학습시키기 위한 방법도 함께 제시하였다. 제안된 방법의 효과를 평가하기 위해 학습 후 모델을 지하공동구 및 유사환경 조건의 화재 문제와 화재로 오인할 수 있는 객체를 포함한 이미지에 적용해 결과를 분석하였다. 또한 기존 딥러닝 기반 화재 탐지 모델의 정밀도, 검출률 지표와 비교함으로써 모델의 화재 탐지 성능을 정량적으로 평가하였다. 제안된 모델의 결과는 어두운 환경에서 발생되는 화재 문제에 대해 높은 정밀도와 검출률을 나타내었으며, 유사 화재 객체에 대해 낮은 오탐 및 미탐 성능을 가지고 있음을 보여주었다.

소셜미디어의 ESG 감성과 기업성과에 관한 연구 (A Study on the Relationship between Social Media ESG Sentiment and Firm Performance)

  • 박수진;이상용
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.317-340
    • /
    • 2023
  • 경영학적 관점에서 ESG는 환경, 사회, 지배구조 지표를 이용하여 기업이 얼마나 지속 가능한 발전을 이룰 수 있는지 평가하는 것이다. 소셜미디어를 통해, 기업의 선행과 악행을 대중이 적극적으로 공유할 수 있게 되면서 ESG 경영에 대한 대중의 관심 또한 높아졌다. 이를 바탕으로, 본 연구의 목적은 기업 성과가 소셜미디어의 환경, 사회, 지배구조의 감성을 모두 포함한 종합적 ESG 감성과 환경, 사회, 지배구조 각각의 감성과 어떠한 관계가 있는지 분석하는 것이다. 패널회귀모델을 사용하여, 코스피 200 기업 중 143개 기업의 소셜미디어의 ESG 감성과 총자산이익률(ROA), 자기자본이익률(ROE) 간의 관계를 분석했다. 데이터 수집 기간은 2018년부터 2021년까지이고, 온라인 커뮤니티, 인스타그램, 블로그, 트위터, 뉴스를 포함한 소셜미디어 채널의 감성 데이터를 바탕으로 분석하였다. 본 연구 결과에 따르면, 기업 성과는 종합적 ESG 감성과 각각 환경, 사회, 지배구조의 감성은 유의미한 관련이 있음을 파악했다. 따라서 본 연구의 시사점은 다음과 같다. 본 연구는 평가기관의 영향을 받을 수 있는 ESG 등급이 아닌 다양한 소셜미디어 채널들을 활용하여 편향되지 않는 대중의 ESG 감성 지표를 갖고자 하였다. 또한, 본 연구의 결과를 바탕으로, ESG 경영의 방향성을 잡는 데 기여할 수 있다. 이에 본 연구는 ESG 경영에 관심이 있는 연구자들과 기업에게 이론적, 실무적 시사점을 제공한다.

동인종 범죄로 기소된 피고인에 대한 엄벌주의적 판단의 재고찰: 다른 문화에서의 적용 (Punitiveness Toward Defendants Accused of Same-Race Crimes Revisited: Replication in a Different Culture)

  • Lee, Jungwon;Khogali, Mawia;Despodova, Nikoleta M.;Penrod, Steven D.
    • 한국심리학회지:법
    • /
    • 제11권1호
    • /
    • pp.37-61
    • /
    • 2020
  • Lee, Khogali, Despodova, 와 Penrod의 연구(2019)에서는 관찰자가 피고인과 피해자의 인종과 다른 경우, 타인종 범죄(예: 백인 관찰자, 흑인 피고인, 히스패닉 피해자)보다 동인종 범죄(예: 백인 관찰자, 흑인 피고인, 흑인 피해자)에서 더 가혹한 판결이 내려지는 것을 밝혀내었다. Lee 등의 연구(2019)는 미국 피험자들을 대상으로 실시되었다는 점을 고려하여, 본 연구는 그러한 인종조합효과가 한국 피험자에게서도 나타나는지를 검증하였다. 연구1a는 한국에서 3개의 조절 변인(증거 강도, 피고인의 폭력사용 정도, 인종 특출성)과 함께 인종조합효과를 살펴보았으나, 그 효과의 재현에 실패하였다. 연구1b는 연구1a의 재현실패가 한국과 미국의 문화 차이 때문인지를 검증하기 위하여, 연구 1a와 동일한 실험설계를 사용하여 미국에서 시행되었다. 그러나 연구 1b 역시 인종조합효과를 재현하는 데 실패하였다. 연구2는 연구1a와 연구1b의 데이터와 함께 Lee 등(2019)의 데이터도 통합하여 메타분석적 검토를 시행하였다. 그 결과, 연구1a와 연구1b의 인종 특출성 조작이 그 재현실패의 원인일 수도 있음을 보여주었다. 따라서 본 연구는 피고인과 피해자의 인종과 다른 사람들은 타인종 범죄보다 동인종 범죄에서 더 가혹한 판결을 내리지만, 이러한 인종조합효과는 그 범죄사건에서 인종 관련 사안이 특출해지지 않을 때만 나타나는 것으로 결론지었다.

  • PDF

머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로 (Machine learning-based corporate default risk prediction model verification and policy recommendation: Focusing on improvement through stacking ensemble model)

  • 엄하늘;김재성;최상옥
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.105-129
    • /
    • 2020
  • 본 연구는 부도위험 예측을 위해 K-IFRS가 본격적으로 적용된 2012년부터 2018년까지의 기업데이터를 이용한다. 부도위험의 학습을 위해, 기존의 대부분 선행연구들이 부도발생 여부를 기준으로 사용했던 것과 다르게, 본 연구에서는 머튼 모형을 토대로 각 기업의 시가총액과 주가 변동성을 이용하여 부도위험을 산정했으며, 이를 통해 기존 방법론의 한계로 지적되어오던 부도사건 희소성에 따른 데이터 불균형 문제와 정상기업 내에서 존재하는 부도위험 차이 반영 문제를 해소할 수 있도록 하였다. 또한, 시장의 평가가 반영된 시가총액 및 주가 변동성을 기반으로 부도위험을 도출하되, 부도위험과 매칭될 입력데이터로는 비상장 기업에서 활용될 수 있는 기업 정보만을 활용하여 학습을 수행함으로써, 포스트 팬데믹 시대에서 주가 정보가 존재하지 않는 비상장 기업에게도 시장의 판단을 모사하여 부도위험을 적절하게 도출할 수 있도록 하였다. 기업의 부도위험 정보가 시장에서 매우 광범위하게 활용되고 있고, 부도위험 차이에 대한 민감도가 높다는 점에서 부도위험 산출 시 안정적이고 신뢰성 높은 평가방법론이 요구된다. 최근 머신러닝을 활용하여 기업의 부도위험을 예측하는 연구가 활발하게 이루어지고 있으나, 대부분 단일 모델을 기반으로 예측을 수행한다는 점에서 필연적인 모델 편향 문제가 존재하고, 이는 실무에서 활용하기 어려운 요인으로 작용하고 있다. 이에, 본 연구에서는 다양한 머신러닝 모델을 서브모델로 하는 스태킹 앙상블 기법을 활용하여 개별 모델이 갖는 편향을 경감시킬 수 있도록 하였다. 이를 통해 부도위험과 다양한 기업정보들 간의 복잡한 비선형적 관계들을 포착할 수 있으며, 산출에 소요되는 시간이 적다는 머신러닝 기반 부도위험 예측모델의 장점을 극대화할 수 있다. 본 연구가 기존 머신러닝 기반 모델의 한계를 극복 및 개선함으로써 실무에서의 활용도를 높일 수 있는 자료로 활용되기를 바라며, 머신러닝 기반 부도위험 예측 모형의 도입 기준 정립 및 정책적 활용에도 기여할 수 있기를 희망한다.

생성형 AI의 의료적 활용과 개인정보보호 (A Study on the Medical Application and Personal Information Protection of Generative AI)

  • 이수경
    • 의료법학
    • /
    • 제24권4호
    • /
    • pp.67-101
    • /
    • 2023
  • 생성형 AI의 활용은 교육계를 넘어서 이미 의료계에서도 의료 기기에 임상 소프트웨어 등의 도입 등으로 연구되고 있다. 생성형 AI는 대규모 대화형 언어모델을 활용하여 방대한 데이터를 이해하고 자료를 선별하는 시간과 에너지를 줄여주면서 사용자와 끊임없는 대화를 통한 정보의 전달이 가능하다. 바로 이러한 점이 인류에게 생성형 AI가 혁신적인 기술의 등장으로 인정받고 있는 점이기도 하다. 그러나 반면 사용자에게 제공되는 컨텐츠의 정합성은 출처나 근거 없이 사용자에게 판단의 영역으로 맡겨지고 있다. 그러나 이 글에서는 생성형 AI를 활용함에 있어서 가장 직접적으로 발생할 수 있는 쟁점을 우선적으로 살펴보기로 한다. 따라서 이 글에서는 생성형 AI의 대표적인 프로그램인 Chat GPT의 발전과 이용자의 활용에 대비하여 특히 개인정보 보호의 쟁점에 대하여 논의하였다. 이를 위하여 먼저 생성형 AI의 기술적인 특성을 살펴본 뒤에 발생 가능한 민사적 쟁점 가운데에서도 개인정보 보호에 관한 문제를 우선적으로 살펴보았다. 생성형 AI는 그 자체로서 학습 데이터의 편향이나 출처 없는 결과값의 제공 등 여러 문제점이 제기되고 있으나, 이러한 문제점은 윤리적 문제를 내포하는 것으로 당장 임상 소프트웨어로서 의료기기에서 활용될 경우 개인정보 보호법제와 보건의료데이터의 활용 가이드로 환자 혹은 이용자의 개인정보를 보호할 수 있을 것인가에 대한 의문에 대한 논의가 시급하다고 판단되었다. 우리나라의 개인정보 보호법제는 특히 보건의료데이터의 활용에서 특정 개인의 개인정보를 가명처리하고 비식별조치를 취하는 데에 적절한 프로세스를 갖추고 있는 것으로 보이나, 생성형 AI이 소프트웨어로서 의료기기에 적용되었을 경우에도 이 법제로서 개인정보 보호의 목적을 이루기에는 어려운 점이 있다. 임상 소프트웨어에서 활용될 생성형 AI의 기능을 대비하기 위해서는 생성형 AI에 걸맞는 개인정보 보호의 법제가 필요할 것으로 보인다.

고속도로 교통정보 수집을 위한 V2X 차량비율 추정연구 (A Study on the Estimation of the V2 X-Rate Ratio for the Collection of Highway Traffic Information)

  • 나성용;이승재;안상현;김주영
    • 한국ITS학회 논문지
    • /
    • 제17권1호
    • /
    • pp.71-78
    • /
    • 2018
  • 교통은 점차 V2X와 자율주행자동차의 시대로 변화하고 있다. 교통상황에 대한 정확한 판단은 경로선택 또는 자율주행에 있어 중요한 지표이다. 정확한 교통상황을 파악하기 위한 방법으로 택시와 같은 프로브 차량을 이용하는 방법이 많이 사용되고 있다. 이러한 방법은 프로브 차량의 특성에 따라 데이터가 편향될 수 있으며, 막대한 비용이 발생하는 문제점이 있다. V2X 차량은 이러한 문제점을 해결할 수 있으며, 무엇보다 실시간으로 교통정보를 수집하고, 배포가 가능할 것으로 판단된다. 모든 차량이 V2X 차량일 경우, 이러한 문제는 간단하게 해결될 것으로 기대된다. 하지만 일부만 V2X차량일 때는 대표성의 문제가 검토되어야 한다. 이를 위하여 가상의 네트워크와 교통류를 생성하였으며, SUMO 시뮬레이션을 통해 다양한 시나리오분석을 수행하였다. 교통량 수준에 따라 V2X 차량군과 Non-V2X 차량군 사이의 통행시간에 대한 통계적 검증을 수행하였다. 3~5% 이상으로 구성된 교통류 또는 110대/시이상으로 V2X 차량이 구성된 교통류에서는 V2X 차량의 통행정보가 대표성을 띌 수 있다는 것을 확인하였다. 향후 다양한 네트워크 및 실제 상황에 대하여 적용하고자 한다.

영 변환 모형 산포형태모수와 두 적합도 검정통계량 사이의 유사성 비교 (Similarity between the dispersion parameter in zero-altered model and the two goodness-of-fit statistics)

  • 윤유정;김홍기
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.493-504
    • /
    • 2017
  • 통계청 인구총조사의 출생아 수 자료는 우리가 쉽게 접할 수 있는 가산 자료이며 국가경쟁력 제고를 위한 정부의 출산정책 결정 및 그 기대효과 분석의 기반이 되는 자료이다. 출생아 수 자료 분석에 있어서 포아송 모형 등 가산 모형이 우월하다는 선행 연구결과에 의하여 가산 모형을 통한 자료 분석방법이 활용되고 있다. 이 때 가산 모형에서 가장 많이 사용하는 포아송 모형은 균등상포라는 제한적인 가정을 토대로 하기 때문에 출생아 수 자료 분석에 이 포아송 모형을 그대로 적용한다면 정보의 손실과 편향추정을 피할 수 없게 된다. 이러한 한계를 극복하기 위해 Ghosh 와 Kim (2007)은 영 과잉과 부족으로 인한 과대산포와 과소산포를 동시에 설명할 수 있는 영 변환 모형 (zero-altered model)을 제안하였다. 본 논문에서는 Ghosh 와 Kim (2007)의 영 변환 모형을 적용하여 실제 출생아수분포에서 영 변환 모형의 산포형태모수 ${\delta}$를 도출하고 그 역할에 대하여 분석한다. 그리고 관측분포에서의 산포형태모수 ${\delta}$와 이론적분포와의 차이를 비교하기 위한 적합도 검정통계량과의 유사성을 확인한다.