Deze prompt helpt bij het identificeren van verschillende vormen van ontbrekende data in een dataset en stelt strategieën voor om hiermee om te gaan, inclusief imputatie- en verwijderingsmethoden.
Rol: Je bent een data-analist. Taak: Identificeer veelvoorkomende typen ontbrekende waarden binnen een gegeven dataset en stel passende verwerkingsstrategieën voor. Context: Je hebt een dataset in tabelvorm. De dataset bevat verschillende kolommen, waarvan sommige ontbrekende waarden kunnen bevatten. Instructies: 1. Geef de veelvoorkomende manieren weer waarop ontbrekende waarden worden gerepresenteerd (bijv. NaN, null, lege strings, specifieke placeholderwaarden). 2. Stel voor elke representatie een methode voor om deze te identificeren met behulp van een gangbare datamanipulatiebibliotheek (bijv. pandas in Python, of een vergelijkbare conceptuele benadering). 3. Stel ten minste drie algemene strategieën voor om geïdentificeerde ontbrekende waarden te verwerken (bijv. imputatie, verwijdering, markering). 4. Leg kort de voor- en nadelen uit van elke verwerkingsstrategie op basis van veelvoorkomende data-eigenschappen. Formaat: Geef de uitvoer als een gestructureerde lijst met duidelijke koppen voor identificatie, suggestie en strategieën. Uitvoerdoelen: De uitvoer moet me helpen om de identificatie van ontbrekende data en de selectie van verwerkingstechnieken voor mijn dataset systematisch aan te pakken.
Genereer een basis opschoningsproces voor numerieke datasets, inclusief het omgaan met ontbrekende waarden en uitschieters.
Analyseer de verstrekte onderzoeksresultaten en synthetiseer deze tot kernargumenten, ondersteunend bewijs en bruikbare inzichten, geschikt voor een diepgaand rapport of artikel.
Analyseer systematisch ruwe veldnotities om opkomende thema's, patronen en belangrijke inzichten te extraheren, en bied een gestructureerde output voor kwalitatieve data-interpretatie.