Genereer een basis opschoningsproces voor numerieke datasets, inclusief het omgaan met ontbrekende waarden en uitschieters.
Taak: Schets een stap-voor-stap proces om een numerieke dataset op te schonen voor voorlopige analyse. Context: Je hebt een dataset met numerieke kenmerken en je moet de kwaliteit ervan waarborgen voordat je gaat modelleren. Te volgen stappen: 1. Identificeer ontbrekende waarden. 2. Stel basisimputatiemethoden voor ontbrekende numerieke gegevens voor (bijv. gemiddelde, mediaan). 3. Identificeer potentiële uitschieters. 4. Stel eenvoudige methoden voor het omgaan met uitschieters voor (bijv. begrenzing, verwijdering). Outputformaat: Geef een beknopte, genummerde lijst met stappen.
Formuleer fundamentele richtlijnen voor consistente en nauwkeurige gegevensinvoer tijdens veldonderzoek, geschikt voor basisstudies.
Ontwerp een robuust plan voor het omgaan met ontbrekende data, inclusief imputatiemethoden, rechtvaardiging en impactanalyse op de integriteit van de dataset.
Ontwikkel een uitgebreide strategie voor het opschonen van ongestructureerde tekstdata, inclusief normalisatie, ruisonderdrukking en het omgaan met ontbrekende waarden voor diverse NLP-taken.