• 제목/요약/키워드: Biased dataset

검색결과 24건 처리시간 0.023초

Geometric and Semantic Improvement for Unbiased Scene Graph Generation

  • Ruhui Zhang;Pengcheng Xu;Kang Kang;You Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2643-2657
    • /
    • 2023
  • Scene graphs are structured representations that can clearly convey objects and the relationships between them, but are often heavily biased due to the highly skewed, long-tailed relational labeling in the dataset. Indeed, the visual world itself and its descriptions are biased. Therefore, Unbiased Scene Graph Generation (USGG) prefers to train models to eliminate long-tail effects as much as possible, rather than altering the dataset directly. To this end, we propose Geometric and Semantic Improvement (GSI) for USGG to mitigate this issue. First, to fully exploit the feature information in the images, geometric dimension and semantic dimension enhancement modules are designed. The geometric module is designed from the perspective that the position information between neighboring object pairs will affect each other, which can improve the recall rate of the overall relationship in the dataset. The semantic module further processes the embedded word vector, which can enhance the acquisition of semantic information. Then, to improve the recall rate of the tail data, the Class Balanced Seesaw Loss (CBSLoss) is designed for the tail data. The recall rate of the prediction is improved by penalizing the body or tail relations that are judged incorrectly in the dataset. The experimental findings demonstrate that the GSI method performs better than mainstream models in terms of the mean Recall@K (mR@K) metric in three tasks. The long-tailed imbalance in the Visual Genome 150 (VG150) dataset is addressed better using the GSI method than by most of the existing methods.

Predicting numeric ratings for Google apps using text features and ensemble learning

  • Umer, Muhammad;Ashraf, Imran;Mehmood, Arif;Ullah, Saleem;Choi, Gyu Sang
    • ETRI Journal
    • /
    • 제43권1호
    • /
    • pp.95-108
    • /
    • 2021
  • Application (app) ratings are feedback provided voluntarily by users and serve as important evaluation criteria for apps. However, these ratings can often be biased owing to insufficient or missing votes. Additionally, significant differences have been observed between numeric ratings and user reviews. This study aims to predict the numeric ratings of Google apps using machine learning classifiers. It exploits numeric app ratings provided by users as training data and returns authentic mobile app ratings by analyzing user reviews. An ensemble learning model is proposed for this purpose that considers term frequency/inverse document frequency (TF/IDF) features. Three TF/IDF features, including unigrams, bigrams, and trigrams, were used. The dataset was scraped from the Google Play store, extracting data from 14 different app categories. Biased and unbiased user ratings were discriminated using TextBlob analysis to formulate the ground truth, from which the classifier prediction accuracy was then evaluated. The results demonstrate the high potential for machine learning-based classifiers to predict authentic numeric ratings based on actual user reviews.

Multi-tissue observation of the long non-coding RNA effects on sexually biased gene expression in cattle

  • Yoon, Joon;Kim, Heebal
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제32권7호
    • /
    • pp.1044-1051
    • /
    • 2019
  • Objective: Recent studies have implied that gene expression has high tissue-specificity, and therefore it is essential to investigate gene expression in a variety of tissues when performing the transcriptomic analysis. In addition, the gradual increase of long non-coding RNA (lncRNA) annotation database has increased the importance and proportion of mapped reads accordingly. Methods: We employed simple statistical models to detect the sexually biased/dimorphic genes and their conjugate lncRNAs in 40 RNA-seq samples across two factors: sex and tissue. We employed two quantification pipeline: mRNA annotation only and mRNA+lncRNA annotation. Results: As a result, the tissue-specific sexually dimorphic genes are affected by the addition of lncRNA annotation at a non-negligible level. In addition, many lncRNAs are expressed in a more tissue-specific fashion and with greater variation between tissues compared to protein-coding genes. Due to the genic region lncRNAs, the differentially expressed gene list changes, which results in certain sexually biased genes to become ambiguous across the tissues. Conclusion: In a past study, it has been reported that tissue-specific patterns can be seen throughout the differentially expressed genes between sexes in cattle. Using the same dataset, this study used a more recent reference, and the addition of conjugate lncRNA information, which revealed alterations of differentially expressed gene lists that result in an apparent distinction in the downstream analysis and interpretation. We firmly believe such misquantification of genic lncRNAs can be vital in both future and past studies.

인공지능 기반 화자 식별 기술의 불공정성 분석 (Analysis of unfairness of artificial intelligence-based speaker identification technology)

  • 신나연;이진민;노현;이일구
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.27-33
    • /
    • 2023
  • Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.

편향된 의견 문서 검출을 위한 이상치 탐지 기법 (Outlier Detection Techniques for Biased Opinion Discovery)

  • 연종흠;심준호;이상구
    • 한국전자거래학회지
    • /
    • 제18권4호
    • /
    • pp.315-326
    • /
    • 2013
  • 소셜 미디어에서는 상품평, 영화평 등의 다양한 종류의 의견이 표현되고 있으며, 사용자들이 물품 구매 등에 있어 이러한 의견을 참고로 하여 결정을 내리는 것은 일반적이 되었다. 하지만 의견 정보의 활용도가 높아질수록 이를 부적절하게 왜곡하는 사례 또한 증가하고 있다. 예를 들어, 홍보를 목적으로 과도하게 긍정적인 의견이 포함된 리뷰를 작성하거나, 반대로 일반적인 평가에서 벗어나 과도하게 부정적인 의견을 게시하는 경우 등이다. 편향된 의견은 소셜 미디어의 신뢰성과 연결 되기 때문에 이를 검출하는 것은 점차 중요한 문제로 대두되고 있다. 기존의 오피니언 마이닝 혹은 감성 분석은 문서를 분석하여 그 문서가 가지고 있는 의견의 성향을 판단하는 기법이다. 하지만 기존의 연구는 의견을 단순히 긍정/부정으로만 분류하는 방향으로 연구가 이루어져 왔으며, 특히 사전에 의견 성향에 따라 분류된 충분한 양의 학습 데이터가 필요하다는 단점이 있다. 본 논문에서는 학습데이터가 없는 경우에, 전체 문서의 의견 성향 분포에서 벗어난 의견 문서를 검출하는 기법을 제안한다. 여기에는 각도기반 이상치 탐지와, 개인화된 페이지랭크 방법을 활용한다. 또한 영화 리뷰 문서를 대상으로 실험을 수행하여 제안한 방법들의 성능을 분석하였다.

Connectivity properties of real BitTorrent swarms

  • Ruben, Cuevas;Michal, Kryczka;Angel, Cuevas;Carmen, Guerrero;Arturo, Azcorra
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권9호
    • /
    • pp.2246-2267
    • /
    • 2013
  • BitTorrent is one of the most important applications in the current Internet. Despite of its interest, we still have little knowledge regarding the connectivity properties of real BitTorrent swarms. In this paper we leverage a dataset including the connectivity information of 250 real torrents and more than 150k peers to carefully study the connectivity properties of peers. The main topology parameters of the studied swarms suggest that they are significantly less resilient than random graphs. The analysis of the peer level connectivity properties reveals that peers continuously change more than half of their neighbours. Furthermore, we also find that a leecher typically keeps stable connections with a handful of neighbours with which it exchanges most of its traffic whereas seeders do not establish long-term connections with any peer so that they can homogeneously distribute chunks among leechers. Finally, we have discovered that a significant portion of the studied peers (45%) have an important locality-biased neighbourhood composition.

Association measure of doubly interval censored data using a Kendall's 𝜏 estimator

  • Kang, Seo-Hyun;Kim, Yang-Jin
    • Communications for Statistical Applications and Methods
    • /
    • 제28권2호
    • /
    • pp.151-159
    • /
    • 2021
  • In this article, our interest is to estimate the association between consecutive gap times which are subject to interval censoring. Such data are referred as doubly interval censored data (Sun, 2006). In a context of serial event, an induced dependent censoring frequently occurs, resulting in biased estimates. In this study, our goal is to propose a Kendall's 𝜏 based association measure for doubly interval censored data. For adjusting the impact of induced dependent censoring, the inverse probability censoring weighting (IPCW) technique is implemented. Furthermore, a multiple imputation technique is applied to recover unknown failure times owing to interval censoring. Simulation studies demonstrate that the suggested association estimator performs well with moderate sample sizes. The proposed method is applied to a dataset of children's dental records.

토픽 모델링과 이해관계자 요구 산출물을 이용한 요구사항 자동 우선순위화 (Automatic Prioritization of Requirements using Topic Modeling and Stakeholder Needs-Artifacts)

  • 장종인;백종문
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.196-203
    • /
    • 2016
  • 소프트웨어 개발에 투자되는 자원은 한정되어 있으므로 요구사항들을 우선순위화하여 중요한 요구사항부터 충족시켜야 한다. 기존 요구사항 우선순위화 기법들은 인간의 수동화된 판단에 의존하므로 요구사항의 수가 많은 경우에는 적용하기가 힘든 확장성 문제와 이해관계자 개개인의 편향된 가치판단에 노출되는 편향성 문제를 가지고 있다. 이 문제들을 해결하고자 본 논문은 요구사항 도출 단계에서 얻어지는 이해관계자 요구 산출물과 텍스트의 의미적 주제를 추리하는 토픽 모델링 기법을 이용한 자동 요구사항 우선순위화 기법, ToMSN(Topic Modeling Stakeholder Needs for requirements prioritization)을 제안한다. 이 기법을 사용자 30,000명 규모의 실제 소프트웨어 요구사항 데이터로 평가한 결과, 인간의 개입이 필요 없는 자동화 과정으로 확장성과 편향성 문제를 해결함과 더불어 우선순위화 정확도 또한 기존 수동화 기법들과 유사함을 확인할 수 있었다.

순환 신경망과 합성곱 신경망을 이용한 뉴스 기사 편향도 분석 (Analyzing Media Bias in News Articles Using RNN and CNN)

  • 오승빈;김현민;김승재
    • 한국정보통신학회논문지
    • /
    • 제24권8호
    • /
    • pp.999-1005
    • /
    • 2020
  • 오늘날의 검색 포털은 뉴스의 창구로서는 가장 큰 비율을 차지하지만, 중립성에 대해서는 의문이 제기되고 있다. 이는 포털 뉴스가 편향된 정보의 소비를 유도할 수 있기 때문이다. 본 논문은 뉴스 기사의 정치적 편향도를 딥러닝을 이용하여 측정하는 방법에 대하여 소개한다. 이는 기사를 비판적으로 바라보는 시각을 뉴스 독자에게 제공할 것이다. 구체적으로, 국회 회의록에서 추출한 키워드에 편향도를 부여하고, 이를 기반으로 기사의 편향도를 분석하여 머신러닝용 데이터를 구축하였다. 최종적으로 순환 신경망과 합성곱 신경망을 융합한 딥러닝을 통해 기사의 편향도를 계산하는 것을 목표로 하였다. 학습한 모델의 정확도를 분석한 결과 문장별 편향의 좌/우편향 판정은 95.6%의 정확도를 보였으나, 신문기사 전체에서는 46.0%의 정확도를 보였다. 이는 기존의 여러 편향성 연구와 다르게 특정 주제에 한정되지 않고 기사의 보수-진보 편향성을 분석할 수 있도록 한다.

머신러닝 편향성 관점에서 비식별화의 영향분석에 대한 연구 (A Study on Impacts of De-identification on Machine Learning's Biased Knowledge)

  • 하수현;김진송;손예은;원가은;최유진;박소연;김형종;강은성
    • 한국시뮬레이션학회논문지
    • /
    • 제33권2호
    • /
    • pp.27-35
    • /
    • 2024
  • 본고에서는 인공지능 모델 학습에 사용하는 데이터셋에 내재한 편향성이 인공지능 예측 결과에 미치는 영향을 분석함으로써, 위의 경우가 사회적 격차를 고착화시키는 문제를 조명하고자 하였다. 따라서 데이터 편향성이 인공지능 모델에 끼치는 영향을 분석하기 위해, 성별 임금 격차에 관한 편향이 포함된 원본 데이터셋을 제작하였으며 해당 데이터셋을 비식별 처리한 데이터셋을 만들었다. 또한 의사결정트리 알고리즘을 통해 원본 데이터셋과 비식별화 된 데이터셋을 학습한 각각의 인공지능 모델 간의 산출물을 비교함으로써, 데이터 비식별화가 인공지능 모델이 산출한 결과의 편향에 어떠한 영향을 미치는지 분석하였다. 이를 통해 데이터 비식별화가 개인정보 보호뿐만 아니라, 데이터의 편향에도 중요한 역할을 할 수 있음을 도출하고자 하였다.