Prompt engineering avancé

Vous avez maîtrisé les bases, il est maintenant temps d'aller plus loin ! Le prompt engineering avancé implique des techniques plus sophistiquées pour obtenir un contrôle plus fin sur les réponses des LLM, aborder des tâches complexes, et améliorer la fiabilité et la créativité de vos outputs.

Élever vos prompts : techniques avancées

1. Prompting système, contextuel, et de rôle

Ces trois types de prompts travaillent ensemble pour fournir des orientations complètes au LLM :

Prompt système : définit l'objectif global, les instructions de haut niveau, ou le contexte général du comportement du LLM tout au long de la conversation (par exemple, "vous êtes un assistant utile spécialisé en astrophysique.").
Prompt contextuel : fournit des détails immédiats, spécifiques à la tâche, des données, ou des informations de fond dont le LLM a besoin pour le tour de conversation actuel. C'est crucial pour s'adapter aux inputs dynamiques.
Prompt de rôle (prompting de persona) : attribue une personne ou un personnage spécifique au LLM (par exemple, "agissez comme un guide de voyage expérimenté recommandant un itinéraire pour Paris."). Cela influence le ton, le style, et le type d'informations qu'il fournit.

Exemple : prompting combiné

Système : vous êtes un coach de fitness amical et encourageant.
Contexte : l'utilisateur a exprimé le désir de commencer un programme de course à pied pour débutants mais ne sait pas comment commencer. Il a accès à un parc à proximité.

Utilisateur (prompt de rôle implicite par système & contexte) :
"Je veux commencer à courir, mais je suis un débutant total. Pouvez-vous m'aider à créer un plan simple sur 4 semaines que je peux faire dans le parc ?"

Cette combinaison aide le LLM à fournir un plan de course adapté, motivant et pertinent.

2. Prompting Step-back

Le prompting step-back est une technique visant à atténuer les biais et à améliorer le raisonnement. Il consiste à inciter le LLM à d'abord considérer les principes généraux ou les concepts abstraits liés à la requête *avant* d'aborder la tâche spécifique. Cela encourage une pensée plus critique.

Exemple : step-back pour un conseil financier

Au lieu de demander directement :

"should I invest in tech stocks or real estate for long-term growth if I have a moderate risk tolerance?"

Essayez une approche step-back :

Prompt :
1. Tout d'abord, expliquez les principes généraux de l'investissement de croissance à long terme pour quelqu'un ayant une tolérance au risque modérée.
2. Sur la base de ces principes, discutez des avantages et inconvénients potentiels d'investir dans les actions technologiques par rapport à l'immobilier.
3. Enfin, proposez quelques éléments à considérer pour prendre une décision.

3. Prompting Chain-of-thought (CoT)

Le prompting Chain-of-thought (chaîne de pensée) améliore considérablement les capacités de raisonnement d'un LLM, en particulier pour les problèmes en plusieurs étapes (comme les problèmes de mathématiques ou de logique). Vous instruisez le modèle à "penser étape par étape" ou fournissez des exemples qui montrent explicitement les étapes de raisonnement intermédiaires pour atteindre une réponse finale.

Exemple : CoT pour un problème de mathématiques

Q: Natalia sold clips to 4 of her friends. She sold 8 clips to each friend. How many clips did she sell in total?

A: Natalia sold clips to 4 friends. She sold 8 clips to each friend. To find the total number of clips, we multiply the number of friends by the number of clips sold to each friend. 4 friends * 8 clips/friend = 32 clips. The answer is 32.

Q: John has 28 marbles. He lost 7 marbles in a game and then bought 15 more. How many marbles does John have now?

A:

En fournissant le raisonnement pour la première question, le LLM est guidé pour produire une réponse similaire, étape par étape, pour la seconde.

Bonnes pratiques CoT

Utilisez-le pour les tâches nécessitant un raisonnement, comme l'arithmétique, le raisonnement de bon sens et la manipulation symbolique.
Assurez-vous que vos exemples de chaînes de pensée sont logiques et faciles à suivre.

4. Auto-cohérence (Self-consistency)

L'auto-cohérence s'appuie sur le CoT. Au lieu d'une seule chaîne de pensée, vous demandez au LLM de générer plusieurs chemins de raisonnement différents pour le même problème (souvent en utilisant un réglage de température plus élevé pour des outputs plus diversifiés). Ensuite, vous prenez la réponse la plus courante parmi ces chemins comme réponse finale, plus fiable. C'est comme obtenir plusieurs "deuxièmes opinions" et choisir le consensus.

5. Tree of thoughts (ToT) & ReAct (en bref)

Tree of thoughts (Arbre de pensées) : c'est une technique encore plus avancée qui généralise le CoT. Elle permet aux LLM d'explorer plusieurs branches de raisonnement ou "pensées" simultanément, comme explorer différents chemins dans un labyrinthe. Elle peut évaluer les pensées intermédiaires et faire des choix plus globaux dans son processus de raisonnement.

ReAct (reason + act) : ce framework combine les capacités de raisonnement du LLM avec la capacité d'utiliser des outils externes ou des API. Le LLM peut "raisonner" sur les informations dont il a besoin, "agir" en appelant un outil (par exemple, un moteur de recherche, une calculatrice ou une base de données interne), puis incorporer l'output de l'outil dans son processus de raisonnement pour arriver à une réponse. Cela imite la façon dont les humains résolvent souvent les problèmes en recherchant des informations ou en effectuant des actions.

Maîtriser l'output du LLM : paramètres de configuration

Au-delà du prompt lui-même, vous pouvez influencer considérablement le comportement du LLM en ajustant ses paramètres de configuration. Ces réglages contrôlent des aspects tels que le caractère aléatoire, la longueur et la diversité du texte généré.

Paramètres de configuration clés

Longueur de l'output (max tokens) : définit le nombre maximum de tokens (mots/sous-mots) que le LLM générera. Le régler trop bas peut couper les réponses, tandis que le régler trop haut peut augmenter les coûts et le temps de calcul. Cela nécessite un équilibre prudent avec la conception du prompt.
Température : contrôle le caractère aléatoire de l'output.
- Basse température (par exemple, 0,0 - 0,2) : plus déterministe, ciblée et prévisible. Bon pour les réponses factuelles ou lorsque vous souhaitez moins de variation.
- Haute température (par exemple, 0,7 - 1,0) : plus créative, diversifiée et potentiellement surprenante. Bon pour le brainstorming ou l'écriture créative, mais peut parfois entraîner un output moins pertinent ou absurde.
Échantillonnage Top-K : à chaque étape de génération, le LLM ne considère que les 'K' tokens les plus probables. Un K plus élevé permet plus de diversité, tandis que K=1 (greedy decoding) signifie qu'il choisit toujours le token unique le plus probable.
Échantillonnage Top-P (nucleus) : sélectionne le plus petit ensemble de tokens dont la probabilité cumulée dépasse un seuil 'P'. C'est une alternative au Top-K qui peut adapter le nombre de choix en fonction de la distribution de probabilité. Par exemple, si P=0,9, il choisit parmi les tokens les plus probables qui totalisent 90% de probabilité.

Directives d'échantillonnage pratiques (points de départ généraux)

Output équilibré : température ~0,5, top-P ~0,95, top-K ~30-40.
Output créatif : température ~0,7-0,9, top-P ~0,99, top-K ~40-50.
Output factuel/déterministe : température ~0,1-0,2, top-P ~0,9, top-K ~20 (ou température=0).
Problèmes mathématiques/logiques : température ~0,0.

Interactions & avertissements sur les paramètres d'échantillonnage

Si la température est de 0, top-K et top-P n'ont généralement aucun effet car l'output est déterministe.
Si top-K est de 1, la température et top-P sont souvent ignorés car seul le token unique le plus probable est choisi.
Les valeurs extrêmes dans un seul paramètre d'échantillonnage peuvent annuler les effets des autres.
Boucles de répétition : une température, un top-K et un top-P mal réglés peuvent parfois amener les LLM à se bloquer en répétant des mots ou des phrases. Un réglage précis et l'expérimentation sont essentiels.

Appel API conceptuel avec paramètres

Voici comment vous pourriez imaginer définir ces paramètres dans un appel API hypothétique (la syntaxe varie selon le fournisseur) :

// Hypothetical API call structure
const response = await llmProvider.generate({
  model: "some-advanced-model",
  prompt: "Write a futuristic short story about AI discovering music.",
  max_tokens: 500,
  temperature: 0.85,
  top_p: 0.9,
  top_k: 40
});

console.log(response.text);

Bonnes pratiques avancées pour des prompts robustes

Utilisez des instructions, pas des contraintes (généralement)

Formulez vos prompts positivement, en disant au LLM ce que vous *voulez* qu'il fasse, plutôt que ce que vous ne *voulez pas*. Cependant, pour prévenir les contenus nuisibles, biaisés ou hors sujet, des contraintes explicites sont nécessaires et appropriées.

Contrôlez la longueur des tokens judicieusement

Trouvez un équilibre entre fournir suffisamment de détails pour que le LLM comprenne la tâche et garder les prompts concis pour éviter les générations trop longues et gérer les coûts. Soyez attentif à la fenêtre de contexte du LLM.

Utilisez des variables pour des prompts dynamiques

Pour les applications où des parties du prompt changent fréquemment (par exemple, input utilisateur, données d'une base de données), concevez vos prompts avec des placeholders ou des variables. Cela les rend réutilisables et adaptables.
Exemple : traduisez le texte suivant en Spanish : Your text here

Output structuré avec JSON

Lorsque vous avez besoin de données dans un format spécifique et cohérent, demandez au LLM de produire du JSON. C'est inestimable pour l'extraction de données et l'intégration avec d'autres systèmes.

Avantages : style cohérent garanti, focalisation sur l'extraction de données plutôt que l'analyse de texte désordonné.
Astuce : vous pouvez fournir un schéma JSON ou un exemple de la structure JSON souhaitée dans votre prompt pour guider le LLM.
Réparation JSON : sachez que les LLM peuvent parfois produire du JSON mal formé, surtout si l'output est tronqué. Envisagez d'utiliser des outils de réparation JSON ou des stratégies de prompting pour gérer cela.

Prompt :
extraire le nom, l'email et le produit d'intérêt de la requête client suivante. Afficher sous forme d'objet JSON avec les clés "name", "email" et "product".

Requête : "bonjour, je m'appelle Jane Doe et je suis intéressée par votre widget premium. mon email est jane.doe@example.com."

La règle d'or : expérimentez & documentez !

Le prompt engineering est une science empirique. La pratique la plus importante est d'expérimenter continuellement avec différentes formulations, structures, exemples et configurations de modèle.

Crucialement, documentez vos tentatives ! Tenez un journal incluant :

Nom/objectif du prompt
Modèle LLM utilisé
Paramètres de configuration (température, top-K, top-P, max tokens)
Le texte complet du prompt
L'output du LLM (et votre évaluation de celui-ci)

Cette documentation sera inestimable pour apprendre ce qui fonctionne, ce qui ne fonctionne pas, et itérer vers des prompts optimaux.

Avec ces techniques avancées et bonnes pratiques, vous êtes en bonne voie de devenir un expert en prompt engineering ! Ensuite, explorons quelques cas d'usage pratiques.

Chapitre suivant : Cas d'usage concrets