Définissez les règles d'intégrité de base pour un jeu de données donné et décrivez comment les valider.
Tâche: Proposez des règles d'intégrité de base pour un jeu de données en fonction de sa description et suggérez des méthodes pour les valider. Contexte: Vous travaillez avec un jeu de données qui doit respecter certaines normes de qualité. Fournissez des détails sur les colonnes de votre jeu de données et leurs valeurs attendues, par exemple: 'La colonne [nom_colonne] doit être de type [type_donnée] et les valeurs doivent être comprises entre [valeur_min] et [valeur_max].' Règles à définir: - Cohérence des types de données - Contraintes de plage - Contraintes d'unicité - Intégrité référentielle (si applicable, ex: clés étrangères) Méthodes de validation à suggérer: - Vérifications simples (ex: valeur.est_numérique(), valeur dans liste_autorisée) - Vérifications d'agrégation (ex: somme(colonne) == somme_attendue) - Vérifications inter-colonnes Format de sortie: Listez les règles proposées et les méthodes de validation correspondantes.
Générez un processus de nettoyage de base pour les jeux de données numériques, y compris la gestion des valeurs manquantes et des valeurs aberrantes.
Formuler des directives fondamentales pour une saisie de données cohérente et précise lors de la recherche sur le terrain, adaptées aux études de base.
Prendre un schéma relationnel existant et le normaliser à une forme normale spécifiée, en expliquant les étapes.