
Analyse du vidage de données ALIEN TXTBASE : dangereux ou inutile ?
Table of Contents
Les chercheurs de Specops ont analysé en profondeur le vidage de données ALIEN TXTBASE, qui a récemment été intégré dans le jeu de données HaveIBeenPwned (HIBP) par Troy Hunt. Après analyse des plus de 200 millions de mots de passe de ce jeu de données, nous estimons qu’environ 20 millions sont nouveaux dans la base de données Specops Breached Password Protection – nous les avons donc ajoutés pour maintenir la protection de nos clients. La majorité semble déjà avoir été couverte par nos sources de renseignement sur les menaces, nos systèmes de pots de miel et la suppression des doublons.
Comment avons-nous obtenu ALIEN TXTBASE ?
En janvier 2025, une agence gouvernementale a contacté Troy Hunt (HIBP) concernant de gros fichiers (4 Go) proposés à la vente sur Telegram. Ces données ont été fournies à M. Hunt et il a commencé à les traiter pour les inclure dans HIBP (apparemment cela a pris environ un mois). Pendant ce temps, un tiers avait commencé à proposer le jeu de données via divers sites de partage tiers par le biais de publications sur Breached Forums. C’est là que nous (Specops) avons acquis le jeu de données ALIEN TXTBASE, et nous avons procédé à son analyse et à son traitement pour l’inclure dans notre propre base de données de mots de passe compromis.
Analyse du vidage de données ALIEN TXTBASE
Comme avec le vidage de données Rockyou2024, nos chercheurs ont découvert que ce n’était pas tout à fait la méga-fuite qui avait été initialement annoncée. Le vidage contenait une distribution assez standard de mots de base, de mots de passe et de longueurs – essentiellement beaucoup de magasins de mots de passe locaux de personnes. Il y avait aussi une quantité non négligeable de données inutiles, d’URL Telegram et d’autres éléments mélangés. Il est clair que c’est quelqu’un qui collecte et traite beaucoup de journaux de voleurs en un seul.
En raison de la taille du jeu de données, il n’était pas possible d’effectuer une analyse sur l’ensemble du vidage dans son intégralité. Ainsi, un échantillon aléatoire de 92 790 080 enregistrements a été pris (environ 30 % du total), et une analyse a été effectuée sur ce sous-ensemble.
Ce jeu de données avait également subi un premier passage initial par l’utilisateur qui le partageait, le réduisant d’un format de journal de voleur standard (json du URL, nom d’utilisateur, mot de passe et autres données) en deux des formats suivants :
- url:username:password
- url|nom_utilisateur|mot_de_passe
Et puis certains enregistrements avaient des formats cassés, ou d’autres données supplémentaires ajoutées. Tous les enregistrements n’étaient pas complets, ou n’étaient pas des ensembles propres et complets d’identifiants.
Occurrences de domaines
Le jeu de données est varié en raison de la nature des journaux de voleurs (logiciels malveillants extrayant des enregistrements stockés dans des magasins de mots de passe locaux, comme dans un navigateur Chrome). Nous pouvons voir qu’il semble tendre vers les réseaux sociaux et les comptes de messagerie grand public, plutôt que vers les comptes d’entreprise internes. Cependant, cela ne signifie pas que les comptes d’entreprise ne sont pas du tout représentés. Vous pouvez voir quelques domaines sélectionnés ci-dessous qui mettent en évidence cette différence.
Domaine | Nombre d’occurrences |
---|---|
x.com (anciennement Twitter) | 15 727 771 |
microsoft.com | 993 554 |
irs.gov | 108 944 |
Occurrences de mots de passe
Confirmant des résultats similaires à notre Rapport 2025 sur les mots de passe compromis concernant les identifiants volés par des logiciels malveillants, le jeu de données contient des millions d’occurrences de mots de passe faibles courants tels que 123456, admin et password. En dehors des données inutiles (surlignées en rouge dans le tableau ci-dessous), il est clair que ce jeu de données est constitué de journaux de voleurs nettoyés de leur format JSON brut en url:nom_utilisateur:mot_de_passe sans se soucier de savoir si les données sont bonnes ou non. Vous noterez également l’ajout du chat Telegram URL. C’est courant avec beaucoup de journaux de voleurs ; le ratio de données propres de qualité qui peuvent être immédiatement utilisées dans une attaque est souvent faible.
Cela nécessite généralement un certain travail d’analyse minutieuse pour qu’un attaquant puisse obtenir des données utilisables dans une attaque. S’ils recherchaient un domaine spécifique pour une attaque spécifique, cela pourrait être plus bénéfique. Mais si un attaquant voulait simplement essayer un grand nombre de domaines, il y a du travail à faire pour traiter le vidage en un ensemble propre de données qu’ils pourraient utiliser pour une attaque.
La prévalence de « Spy Hunter » est intéressante et possiblement liée à cet outil anti-malware – bien qu’il soit difficile de l’affirmer avec certitude.
Mot de passe | Nombre d’occurrences |
---|---|
123456 | 1 830 528 |
[UNKNOWN or V70] | 1 657 685 |
admin | 1 072 449 |
12345678 | 796 449 |
password | 602 910 |
123456789 | 602 315 |
//t.me/+hfTW5AYawTo4NG4Ji | 498 183 |
1234 | 428 201 |
Spy_Hunter4 | 358 011 |
[UNKNOWNorV70] | 347 099 |
Mots de base
Nous pouvons arriver à une conclusion similaire à celle ci-dessus en examinant les mots de base. Le jeu de données contient beaucoup de données inutiles et aussi un ensemble assez standard de mots de passe générés par des humains – principalement faibles et couramment utilisés. Cela suggère qu’il s’agit principalement d’un amalgame d’autres vidages de données, plutôt que d’un trésor d’identifiants compromis pour qu’un pirate s’y attaque.
Le lien Telegram mène à un Telegram qui vend des journaux de voleurs ; il est donc très probable que ce soit l’une des sources originales des données.
Terme de base | Nombre d’occurrences |
---|---|
password | 1 932 026 |
admin | 1 750 728 |
unknown or v | 1 673 231 |
qwerty | 1 111 319 |
spy_hunter | 652 888 |
daniel | 582 727 |
asdf | 507 033 |
t.me/+hftw5ayawto4ngji | 499 802 |
welcome | 469 636 |
gabriel | 465 572 |
Longueurs de mots de passe
Bien qu’il y ait quelques enregistrements plus longs en jeu, il est intéressant de noter qu’une politique de mots de passe imposant une longueur de plus de 15 caractères offrirait une protection contre >97 % des mots de passe de ce jeu de données. Encourager l’utilisation de phrases de passe longues et faciles à retenir est une mesure précieuse que les organisations peuvent prendre.
Longueur du mot de passe | Nombre d’occurrences et % |
---|---|
0 (nom d’utilisateur sans mot de passe) | 176 216 952 (18,99 %) |
8 | 129 699 005 (13,98 %) |
10 | 116 523 698 (12,56 %) |
9 | 109 960 521 (11,85 %) |
11 | 83 329 641 (8,98 %) |
12 | 68 409 023 (7,37 %) |
15 | 51 628 997 (5,56 %) |
13 | 44 164 784 (4,76 %) |
14 | 31 930 748 (3,44 %) |
6 | 26 910 038 (2,9 %) |
7 | 18 434 911 (1,99 %) |
16 | 16 932 733 (1,83 %) |
17 | 7 950 070 (0,86 %) |
4 | 6 504 890 (0,7 %) |
5 | 6 050 192 (0,65 %) |
18 | 6 000 837 (0,65 %) |
Que retenir d’ALIEN TXTBASE ?
Il ressort clairement de notre analyse qu’il n’y a pas beaucoup de nouvelles données inédites dans ce jeu de données. Il s’agit très probablement d’une compilation de journaux de voleurs précédents, qui ont été collectés et nettoyés dans un format url:nom_utilisateur:mot_de_passe. Une chose intéressante que nous pouvons noter est le passage des forums du dark web vers Telegram pour vendre ce type de vidages de données, grâce à sa facilité d’accès et à son anonymat.
Dans l’ensemble, ce vidage de données est volumineux mais pas différent des autres que notre équipe de renseignement sur les menaces découvre. Par exemple, la compilation ALIEN TXTBASE a été comparée à d’autres comme COMB et C1-5. Alors pourquoi a-t-elle été « commercialisée » comme une fuite de données sérieuse ? Rappelez-vous, les cybercriminels veulent soit gagner en notoriété soit tirer profit de la vente de ces éléments – ils ont donc tout intérêt à faire croire qu’ils détiennent une énorme fuite, même si en réalité une grande partie provient d’anciennes violations.
Pour les organisations, cela rappelle que les pirates continuent de recycler d’anciennes données compromises. Cela souligne le risque de permettre aux utilisateurs finaux de choisir les mots de passe faibles ou courants qui apparaissent toujours dans ces « fuites ». Il y a un besoin critique d’éduquer les utilisateurs finaux sur les risques de la réutilisation de mots de passe et d’ajouter l’authentification multifacteur. Les organisations devraient également améliorer leurs capacités de renseignement sur les menaces pour suivre les risques émergents provenant de plateformes alternatives comme Telegram.
Protégez votre organisation contre les attaques par mots de passe
L’utilisation de Specops Password Policy, ou d’un filtre de mots de passe équivalent pour appliquer des politiques de mots de passe solides, est la meilleure défense contre les attaques avec ces types de jeux de données. Notre fonctionnalité Breached Password Protection analyse en continu votre Active Directory pour détecter les mots de passe compromis et violés, notifiant aux utilisateurs finaux qu’ils doivent changer leur mot de passe immédiatement.
Specops travaille étroitement avec l’équipe KrakenLabs Threat Intelligence pour récolter des jeux de données tels qu’ALIEN TXTBASE depuis Telegram et le dark web, puis les ajouter à notre base de données de plus de quatre milliards d’identifiants compromis uniques. En plus de cela, Specops Password Policy analyse en continu votre Active Directory et alerte les utilisateurs finaux s’ils utilisent un mot de passe compromis qui a été récemment ajouté à la base de données.
Intéressé de voir comment cela fonctionne ? Essayez Specops Password Policy gratuitement.
(Last updated on 20/07/2025)