Supprimer les Doublons: Nettoyer
Supprimez les lignes en double du texte instantanément avec correspondance exacte ou floue. Outil navigateur avec contrôle de la casse et statistiques de suppression.
Qu'est-ce que le Duplicate Line Remover ?
Le Duplicate Line Remover est un outil basé sur le navigateur qui analyse un bloc de texte, identifie les lignes répétées et renvoie uniquement les lignes uniques tout en préservant leur ordre d'origine. Il propose deux modes de correspondance : correspondance exacte (avec alternance optionnelle de la sensibilité à la casse) et correspondance floue (qui regroupe les lignes similaires mais non identiques via Fuse.js). Un panneau de statistiques affiche le nombre de lignes d'origine, le nombre de lignes uniques et le nombre de lignes supprimées pour vous permettre de vérifier le résultat en un coup d'œil. Les analystes de données qui nettoient des listes exportées, les développeurs qui dédupliquent des entrées de configuration, et les rédacteurs qui suppriment des paragraphes répétés accidentellement utilisent cet outil lorsqu'ils ont besoin d'une sortie propre sans écrire de script. Tout le traitement s'effectue dans votre navigateur — rien n'est envoyé à un serveur — et l'outil fonctionne hors ligne une fois la page chargée.
Fonctionnalités principales
- Supprimer les lignes en double — supprime les lignes répétées et renvoie uniquement la première occurrence de chaque ligne.
- Comparaison sensible à la casse — activée par défaut ; « Apple » et « apple » sont traités comme des lignes différentes.
- Comparaison insensible à la casse — décochez l'option sensibilité à la casse pour traiter « Apple » et « apple » comme des doublons, en conservant uniquement la première rencontrée.
- Mode de correspondance exacte — les lignes doivent être identiques (selon le paramètre de casse) pour être considérées comme des doublons.
- Mode de correspondance floue — utilise Fuse.js pour regrouper les lignes similaires mais non identiques ; un curseur de seuil (0,1 à 0,9) contrôle l'agressivité du regroupement, avec les étiquettes « strict », « modéré » et « large ».
- Interface de révision des groupes flous — en mode flou, après avoir cliqué sur « Detect Fuzzy », chaque groupe de doublons s'affiche sous forme de carte. Vous cliquez sur la version de la ligne que vous souhaitez conserver, puis vous copiez le résultat dédupliqué.
- Statistiques de suppression — trois cartes de statistiques affichent Lignes d'origine, Lignes uniques et Supprimées en temps réel (mode exact) ou après la détection (mode flou).
- Mode par lots — fonction premium qui applique la déduplication à plusieurs blocs de texte indépendants soumis un par ligne.
- Boutons copier et effacer — copie en un clic dans le presse-papiers la sortie des lignes uniques et réinitialisation de la zone de texte.
- Support des préréglages et de l'historique — fonction premium qui enregistre votre préférence de sensibilité à la casse et conserve les travaux précédents.
Comment utiliser le Duplicate Line Remover
Étape 1 : Ouvrir l'outil
Accédez au Duplicate Line Remover. En haut, vous verrez la zone d'options avec une case à cocher « Case Sensitive » (cochée par défaut), trois cartes de statistiques (Lignes d'origine, Lignes uniques, Supprimées) et un sélecteur de mode entre Exact Match et Fuzzy Match.
Étape 2 : Choisir le mode de correspondance
Pour les doublons exacts : Laissez le mode sur « Exact Match ». Décidez si la casse est importante :
- Laissez « Case Sensitive » coché si
Erroreterrordoivent être conservés comme des lignes séparées. - Décochez-le si vous souhaitez que
Erroreterrorsoient traités comme la même ligne.
Pour les quasi-doublons : Cliquez sur « Fuzzy Match ». Un curseur de seuil apparaît. Les valeurs faibles (0,1–0,2, étiquetées « strict ») ne regroupent que les lignes différant par un seul caractère ou une légère faute de frappe. Les valeurs élevées (0,7–0,9, étiquetées « large ») regroupent les lignes ayant une similarité générale. La valeur par défaut est 0,3 (modéré).
Étape 3 : Coller le texte
Cliquez dans la zone de texte d'entrée et collez votre contenu. En mode de correspondance exacte, le panneau de sortie à droite et les trois cartes de statistiques se mettent à jour immédiatement. Vous pouvez observer le compteur Supprimées augmenter à mesure que l'outil identifie les doublons.
Exemple d'entrée (correspondance exacte, sensible à la casse) :
apple
banana
Apple
apple
cherry
banana
Sortie :
apple
banana
Apple
cherry
Cartes de statistiques : Lignes d'origine : 6, Lignes uniques : 4, Supprimées : 2
L'ordre d'origine est préservé. La première occurrence de chaque ligne est conservée.
Étape 4 : Réviser les groupes flous (mode flou uniquement)
En mode flou, collez votre texte, puis cliquez sur « Detect Fuzzy ». L'outil utilise Fuse.js pour regrouper les lignes dont la distance de chaîne est inférieure au seuil. Les groupes apparaissent sous forme de cartes à bordure ambrée. Chaque carte affiche toutes les lignes similaires ; celle mise en évidence en violet est marquée « conserver » tandis que les autres affichent « supprimer ». Cliquez sur n'importe quelle ligne du groupe pour changer la version que vous souhaitez conserver. Les lignes sans correspondance similaire apparaissent séparément comme déjà uniques.
Lorsque vous êtes satisfait de vos sélections, cliquez sur « Copy Deduplicated Text » pour copier le résultat dans votre presse-papiers.
Étape 5 : Copier le résultat (mode exact)
En mode de correspondance exacte, cliquez sur « Copy Result » pour copier la sortie des lignes uniques dans votre presse-papiers. Une notification toast confirme le succès. L'action de copie enregistre également le travail dans l'historique de l'outil si vous êtes un contributeur (affichant « Removed N duplicates » comme étiquette d'historique).
Exemples pratiques
Nettoyer une liste de courriels
Vous exportez une liste de diffusion de deux sources différentes et les concaténez. La liste fusionnée contient des centaines de doublons. Collez la liste complète dans l'outil, décochez « Case Sensitive » (car certaines adresses peuvent différer uniquement par la casse), et le panneau de sortie affiche immédiatement la liste dédupliquée. La carte de statistiques Supprimées vous indique exactement combien d'entrées ont été supprimées.
Dédupliquer des entrées de journal
Un fichier journal contient des lignes répétées car la même erreur s'est déclenchée plusieurs fois par seconde. Collez les lignes de journal pertinentes, laissez Case Sensitive activé (les lignes de journal sont exactes en termes de casse) et passez en correspondance exacte. La sortie conserve la première occurrence de chaque erreur répétée, vous donnant une liste compacte de messages d'erreur distincts à examiner.
Nettoyer des réponses d'enquête quasi-identiques
Les répondants soumettent des réponses texte libre similaires : « Bien », « bien. », « Bien ! », « Super », « super ». Passez en correspondance floue, réglez le seuil autour de 0,3 et cliquez sur « Detect Fuzzy ». L'outil regroupe « Bien », « bien. » et « Bien ! » comme similaires et vous laisse choisir quelle version conserver. « Super » et « super » peuvent être regroupés séparément. Vous révisez chaque cluster et copiez le résultat nettoyé.
Conseils et bonnes pratiques
Le mode exact préserve l'ordre d'origine. Les lignes sont renvoyées dans l'ordre où elles sont apparues pour la première fois dans l'entrée. Si l'ordre des lignes est important pour votre cas d'utilisation (une liste classée, une séquence d'étapes), le mode exact est sûr à utiliser sans se préoccuper des effets secondaires de tri.
La sensibilité à la casse est activée par défaut pour une bonne raison. La plupart des données techniques — chemins de fichiers, clés de configuration, URL — sont sensibles à la casse. La valeur par défaut vous protège de fusionner accidentellement des lignes qui semblent seulement similaires. Désactivez-la uniquement lorsque vous êtes certain que les différences de casse ne sont pas significatives.
Commencez par un seuil flou strict, puis relâchez-le. Avec un seuil de 0,1 (strict), seules les lignes quasi-identiques sont regroupées. Avec un seuil de 0,9 (large), vous pouvez voir des lignes non liées regroupées. Commencez à 0,1 ou 0,2, révisez les groupes et augmentez le seuil uniquement si vous souhaitez un regroupement plus large.
En mode flou, vous choisissez quelle version conserver. C'est la différence clé avec le mode exact. Le mode flou ne peut pas choisir automatiquement la « meilleure » version d'un quasi-doublon — il vous montre le cluster et vous laisse décider. Prenez le temps de lire chaque groupe avant de copier le résultat.
Les lignes vides sont significatives. Une ligne vide est une ligne distincte. Si votre entrée contient plusieurs lignes vides, elles seront dédupliquées en une seule ligne vide en mode de correspondance exacte. Si vous souhaitez supprimer toutes les lignes vides, utilisez d'abord un outil de nettoyage de texte.
Problèmes courants et dépannage
Le compteur Supprimées reste à zéro. Si aucun doublon n'est détecté, vérifiez si le paramètre de sensibilité à la casse est correct pour vos données. Si « apple » et « Apple » doivent être comptés comme des doublons, décochez « Case Sensitive ». Vérifiez également si des lignes qui semblent identiques peuvent contenir des espaces de fin ou des fins de ligne différentes — l'outil compare des séquences de caractères exactes en mode exact.
Le mode flou ne détecte pas les doublons attendus. Abaissez le curseur de seuil. Un seuil de 0,3 est modéré ; essayez 0,5 ou plus pour capturer des lignes avec une similarité plus générale. Notez que les lignes très courtes (un ou deux caractères) sont plus difficiles à faire correspondre de manière floue car les petits changements représentent une grande proportion de leur longueur.
La sortie est vide même si j'ai du texte. Cela ne devrait pas arriver en mode exact car au moins une occurrence de chaque ligne est toujours conservée. Si vous voyez une zone de sortie vide, vérifiez que la zone de texte d'entrée contient bien du texte et que vous êtes en mode de correspondance exacte (le mode flou ne remplit pas le panneau de sortie droit ; il affiche des cartes de groupe à la place).
Mode par lots : une seule ligne de résultat apparaît. Le mode par lots traite chaque ligne de l'entrée par lots comme un bloc de texte indépendant à dédupliquer. Si votre entrée par lots est une seule ligne, vous obtenez une ligne. Ajoutez des sauts de ligne entre les blocs indépendants pour traiter plusieurs blocs.
Le bouton « Detect Fuzzy » est grisé. Ce bouton n'est disponible qu'en mode flou et nécessite une entrée non vide. Basculez le sélecteur de mode sur « Fuzzy Match » et assurez-vous que la zone de texte d'entrée contient au moins une ligne sans espace.
Confidentialité et sécurité
Tout le traitement de déduplication s'exécute entièrement dans votre navigateur. En mode exact, la fonction removeDuplicateLines opère de manière synchrone sur le texte que vous collez, sans aucune activité réseau. En mode flou, la bibliothèque Fuse.js est chargée en tant qu'import dynamique la première fois que vous exécutez la détection floue — c'est un téléchargement unique du code de la bibliothèque, pas de votre texte. Votre texte n'est jamais transmis nulle part. L'outil fonctionne hors ligne (pour le mode exact) après le chargement initial de la page, et pour le mode flou après que Fuse.js a été téléchargé une fois.
Questions fréquentes
Le Duplicate Line Remover est-il gratuit ? Oui. La fonctionnalité principale de déduplication — correspondance exacte, alternance de la casse, statistiques et copie dans le presse-papiers — est entièrement gratuite sans compte requis.
Fonctionne-t-il hors ligne ? Oui pour le mode exact, une fois la page chargée. Le mode flou nécessite un téléchargement unique de la bibliothèque Fuse.js ; après ce téléchargement, il fonctionne également hors ligne.
Mon texte est-il stocké ou envoyé à un serveur ? Non. Votre texte ne quitte jamais votre navigateur. L'algorithme de déduplication s'exécute en JavaScript sur votre appareil. L'import dynamique pour Fuse.js ne télécharge que le code de la bibliothèque, pas votre texte.
Que signifie « préserver l'ordre d'origine » ? L'outil conserve les lignes dans l'ordre où elles sont apparues pour la première fois dans votre entrée. Si « banana » apparaît aux lignes 1, 5 et 12, la sortie le conserve à une position équivalente à la ligne 1 (par rapport aux autres lignes uniques). La sortie n'est pas triée alphabétiquement.
Quelle est la différence entre correspondance exacte et floue ? La correspondance exacte supprime les lignes qui sont identiques caractère par caractère (selon le paramètre de casse). La correspondance floue utilise un score de similarité de chaîne pour regrouper les lignes similaires mais non identiques — par exemple « colour » et « color », ou « John Smith » et « Jon Smith ».
Comment fonctionne le seuil flou ? Le seuil contrôle la sensibilité de Fuse.js. Une valeur de 0,0 signifie qu'une correspondance exacte est requise ; une valeur de 1,0 signifie que deux chaînes quelconques correspondent. Le curseur va de 0,1 à 0,9. À 0,1 (« strict »), seules des différences très mineures — une substitution ou transposition d'un seul caractère — résultent en un regroupement. À 0,7–0,9 (« large »), des chaînes généralement similaires sont regroupées. La valeur par défaut de 0,3 est un point de départ raisonnable pour les légères fautes de frappe et les différences de mise en forme.
Puis-je conserver la dernière occurrence d'un doublon plutôt que la première ? Non en mode exact — l'outil conserve toujours la première occurrence et supprime les suivantes. En mode flou, vous pouvez cliquer sur n'importe quelle ligne d'un groupe pour la marquer comme choix « conserver », vous pouvez donc effectivement choisir de retenir n'importe quelle occurrence.
Que se passe-t-il avec les lignes vides ? Les lignes vides sont traitées comme des lignes distinctes avec zéro caractère. Plusieurs lignes vides consécutives sont dédupliquées en une seule ligne vide en mode exact. Si vous souhaitez éliminer toutes les lignes vides, envisagez d'utiliser un outil de nettoyage de texte avant ou après la déduplication.
Y a-t-il une limite sur le nombre de lignes que je peux traiter ? Aucune limite imposée. Les très grandes entrées (des milliers de lignes) sont traitées rapidement en mode exact. Le mode flou a une complexité quadratique dans le pire cas (chaque ligne comparée à toutes les autres), donc les très grandes entrées — des dizaines de milliers de lignes — peuvent prendre plusieurs secondes selon votre appareil.
Outils associés
- Text Sorter — triez les lignes alphabétiquement, numériquement, par longueur ou par nombre de mots avant ou après la déduplication pour produire une liste propre et ordonnée.
- Word Counter — comptez les mots, phrases, paragraphes et temps de lecture après avoir nettoyé votre texte.
- Find and Replace — effectuez des substitutions de texte ciblées pour normaliser les variations avant d'exécuter la déduplication.
Essayez le Duplicate Line Remover maintenant : Duplicate Line Remover