Definieer basisregels voor gegevensintegriteit voor een gegeven dataset en schets hoe deze te valideren.
Taak: Stel basisregels voor gegevensintegriteit voor een dataset voor op basis van de beschrijving en stel methoden voor om deze te valideren. Context: Je werkt met een dataset die moet voldoen aan bepaalde kwaliteitsstandaarden. Geef details over de kolommen van je dataset en hun verwachte waarden, bijvoorbeeld: 'Kolom [kolomnaam] moet een [gegevenstype] zijn en waarden moeten tussen [minimumwaarde] en [maximumwaarde] liggen.' Te definiëren regels: - Consistentie van gegevenstypen - Bereikbeperkingen - Uniciteitsbeperkingen - Referentiële integriteit (indien van toepassing, bijv. externe sleutels) Voor te stellen validatiemethoden: - Eenvoudige controles (bijv. waarde.is_numeriek(), waarde in toegestane_lijst) - Aggregatiecontroles (bijv. som(kolom) == verwachte_som) - Kruiskolomcontroles Outputformaat: Geef een lijst van de voorgestelde regels en bijbehorende validatiemethoden.
Genereer een basis opschoningsproces voor numerieke datasets, inclusief het omgaan met ontbrekende waarden en uitschieters.
Voer een systematische root cause analyse uit voor geïdentificeerde data-anomalieën, wijs bijdragende factoren aan en stel corrigerende acties voor om herhaling te voorkomen.
Ontwerp een robuust plan voor het omgaan met ontbrekende data, inclusief imputatiemethoden, rechtvaardiging en impactanalyse op de integriteit van de dataset.