La grande quantità di dati generati online ha permesso agli scienziati dei dati di analizzare queste informazioni e di trarre conclusioni in vari campi. Tuttavia, i dati in tempo reale sono spesso soggetti a squilibri, che possono degradare la qualità dei dati e rappresentano una sfida significativa nel campo dell'apprendimento automatico. Le tecniche basate sul campionamento e i modelli basati su algoritmi sono due metodi principali utilizzati per affrontare e bilanciare lo squilibrio dei dati. Questa tesi presenta tre tecniche distinte per gestire diversi livelli di squilibrio nei dati in tempo reale.L'approccio iniziale propone una tecnica basata sul campionamento integrata con il meccanismo del bagging per gestire lo squilibrio dei dati. Il modello identifica lo squilibrio dei dati basato sulle classi ed esegue un sovracampionamento per ogni classe disponibile. Il meccanismo di bagging prevede la creazione di sottoinsiemi dei dati di addestramento, con l'obiettivo di variare i livelli di squilibrio nei dati di addestramento per garantire una previsione efficace. Nonostante ciò, l'effetto dello sbilanciamento persiste nel meccanismo di previsione, portando alla classificazione errata di diverse classi minoritarie.
Bitte wählen Sie Ihr Anliegen aus.
Rechnungen
Retourenschein anfordern
Bestellstatus
Storno