Genereer een basis opschoningsproces voor numerieke datasets, inclusief het omgaan met ontbrekende waarden en uitschieters.
Taak: Schets een stap-voor-stap proces om een numerieke dataset op te schonen voor voorlopige analyse. Context: Je hebt een dataset met numerieke kenmerken en je moet de kwaliteit ervan waarborgen voordat je gaat modelleren. Te volgen stappen: 1. Identificeer ontbrekende waarden. 2. Stel basisimputatiemethoden voor ontbrekende numerieke gegevens voor (bijv. gemiddelde, mediaan). 3. Identificeer potentiële uitschieters. 4. Stel eenvoudige methoden voor het omgaan met uitschieters voor (bijv. begrenzing, verwijdering). Outputformaat: Geef een beknopte, genummerde lijst met stappen.
Definieer basisregels voor gegevensintegriteit voor een gegeven dataset en schets hoe deze te valideren.
Voer een systematische root cause analyse uit voor geïdentificeerde data-anomalieën, wijs bijdragende factoren aan en stel corrigerende acties voor om herhaling te voorkomen.
Ontwikkel een uitgebreide strategie om datakwaliteitsproblemen te identificeren, te beoordelen en te verhelpen, zodat betrouwbare data beschikbaar is voor analyse en operaties.