Expliquez les techniques courantes pour transformer les caractéristiques catégorielles en formats numériques pour l'apprentissage automatique.
Tâche: Décrivez les techniques courantes pour transformer les caractéristiques catégorielles d'un jeu de données en un format numérique adapté aux modèles d'apprentissage automatique. Contexte: Vous disposez d'un jeu de données contenant une ou plusieurs colonnes catégorielles (ex: 'couleur', 'ville', 'type_produit') et devez les préparer pour un algorithme qui nécessite une entrée numérique. Techniques à couvrir: 1. Encodage one-hot 2. Encodage par étiquettes (Label encoding) 3. Encodage ordinal 4. Encodage par cible (expliquer brièvement le concept) Pour chaque technique, expliquez: - Quand l'utiliser. - Ses avantages et inconvénients. - Un exemple conceptuel simple. Format de sortie: Fournissez une explication claire pour chaque technique dans une liste à puces.
Générer des idées pour créer de nouvelles caractéristiques numériques à partir de celles existantes dans un jeu de données, en se concentrant sur des transformations simples.
Générer une stratégie simple pour identifier et gérer les valeurs manquantes dans un jeu de données donné à l'aide de méthodes de base.
Développer une stratégie robuste pour identifier et gérer les valeurs aberrantes dans des ensembles de données complexes, garantissant l'intégrité des données et une analyse fiable pour divers objectifs commerciaux.