Free Active Directory Auditing Tool

Home / Blog / Actualités / Analyse du vidage de données ALIEN TXTBASE : dangereux ou inutile ?

dark ufo with red lights in the sky above the houses - alien txtbase featured image

Analyse du vidage de données ALIEN TXTBASE : dangereux ou inutile ?

Les chercheurs de Specops ont analysé en profondeur le vidage de données ALIEN TXTBASE, qui a récemment été intégré dans le jeu de données HaveIBeenPwned (HIBP) par Troy Hunt. Après analyse des plus de 200 millions de mots de passe de ce jeu de données, nous estimons qu’environ 20 millions sont nouveaux dans la base de données Specops Breached Password Protection – nous les avons donc ajoutés pour maintenir la protection de nos clients. La majorité semble déjà avoir été couverte par nos sources de renseignement sur les menaces, nos systèmes de pots de miel et la suppression des doublons.

Comment avons-nous obtenu ALIEN TXTBASE ?

En janvier 2025, une agence gouvernementale a contacté Troy Hunt (HIBP) concernant de gros fichiers (4 Go) proposés à la vente sur Telegram. Ces données ont été fournies à M. Hunt et il a commencé à les traiter pour les inclure dans HIBP (apparemment cela a pris environ un mois). Pendant ce temps, un tiers avait commencé à proposer le jeu de données via divers sites de partage tiers par le biais de publications sur Breached Forums. C’est là que nous (Specops) avons acquis le jeu de données ALIEN TXTBASE, et nous avons procédé à son analyse et à son traitement pour l’inclure dans notre propre base de données de mots de passe compromis.

*Publication sur les forums Breached faisant la publicité d’ALIEN TXTBASE*

*Canal Telegram mentionné dans la publication du forum Breached ci-dessus*

Analyse du vidage de données ALIEN TXTBASE

Comme avec le vidage de données Rockyou2024, nos chercheurs ont découvert que ce n’était pas tout à fait la méga-fuite qui avait été initialement annoncée. Le vidage contenait une distribution assez standard de mots de base, de mots de passe et de longueurs – essentiellement beaucoup de magasins de mots de passe locaux de personnes. Il y avait aussi une quantité non négligeable de données inutiles, d’URL Telegram et d’autres éléments mélangés. Il est clair que c’est quelqu’un qui collecte et traite beaucoup de journaux de voleurs en un seul.

En raison de la taille du jeu de données, il n’était pas possible d’effectuer une analyse sur l’ensemble du vidage dans son intégralité. Ainsi, un échantillon aléatoire de 92 790 080 enregistrements a été pris (environ 30 % du total), et une analyse a été effectuée sur ce sous-ensemble.

Ce jeu de données avait également subi un premier passage initial par l’utilisateur qui le partageait, le réduisant d’un format de journal de voleur standard (json du URL, nom d’utilisateur, mot de passe et autres données) en deux des formats suivants :

url:username:password
url|nom_utilisateur|mot_de_passe

Et puis certains enregistrements avaient des formats cassés, ou d’autres données supplémentaires ajoutées. Tous les enregistrements n’étaient pas complets, ou n’étaient pas des ensembles propres et complets d’identifiants.

Occurrences de domaines

Le jeu de données est varié en raison de la nature des journaux de voleurs (logiciels malveillants extrayant des enregistrements stockés dans des magasins de mots de passe locaux, comme dans un navigateur Chrome). Nous pouvons voir qu’il semble tendre vers les réseaux sociaux et les comptes de messagerie grand public, plutôt que vers les comptes d’entreprise internes. Cependant, cela ne signifie pas que les comptes d’entreprise ne sont pas du tout représentés. Vous pouvez voir quelques domaines sélectionnés ci-dessous qui mettent en évidence cette différence.

Domaine	Nombre d’occurrences
x.com (anciennement Twitter)	15 727 771
microsoft.com	993 554
irs.gov	108 944

Occurrences de mots de passe

Confirmant des résultats similaires à notre Rapport 2025 sur les mots de passe compromis concernant les identifiants volés par des logiciels malveillants, le jeu de données contient des millions d’occurrences de mots de passe faibles courants tels que 123456, admin et password. En dehors des données inutiles (surlignées en rouge dans le tableau ci-dessous), il est clair que ce jeu de données est constitué de journaux de voleurs nettoyés de leur format JSON brut en url:nom_utilisateur:mot_de_passe sans se soucier de savoir si les données sont bonnes ou non. Vous noterez également l’ajout du chat Telegram URL. C’est courant avec beaucoup de journaux de voleurs ; le ratio de données propres de qualité qui peuvent être immédiatement utilisées dans une attaque est souvent faible.

Cela nécessite généralement un certain travail d’analyse minutieuse pour qu’un attaquant puisse obtenir des données utilisables dans une attaque. S’ils recherchaient un domaine spécifique pour une attaque spécifique, cela pourrait être plus bénéfique. Mais si un attaquant voulait simplement essayer un grand nombre de domaines, il y a du travail à faire pour traiter le vidage en un ensemble propre de données qu’ils pourraient utiliser pour une attaque.

La prévalence de « Spy Hunter » est intéressante et possiblement liée à cet outil anti-malware – bien qu’il soit difficile de l’affirmer avec certitude.

Mot de passe	Nombre d’occurrences
123456	1 830 528
[UNKNOWN or V70]	1 657 685
admin	1 072 449
12345678	796 449
password	602 910
123456789	602 315
//t.me/+hfTW5AYawTo4NG4Ji	498 183
1234	428 201
Spy_Hunter4	358 011
[UNKNOWNorV70]	347 099

Mots de base

Nous pouvons arriver à une conclusion similaire à celle ci-dessus en examinant les mots de base. Le jeu de données contient beaucoup de données inutiles et aussi un ensemble assez standard de mots de passe générés par des humains – principalement faibles et couramment utilisés. Cela suggère qu’il s’agit principalement d’un amalgame d’autres vidages de données, plutôt que d’un trésor d’identifiants compromis pour qu’un pirate s’y attaque.

Le lien Telegram mène à un Telegram qui vend des journaux de voleurs ; il est donc très probable que ce soit l’une des sources originales des données.

Terme de base	Nombre d’occurrences
password	1 932 026
admin	1 750 728
unknown or v	1 673 231
qwerty	1 111 319
spy_hunter	652 888
daniel	582 727
asdf	507 033
t.me/+hftw5ayawto4ngji	499 802
welcome	469 636
gabriel	465 572

Longueurs de mots de passe

Bien qu’il y ait quelques enregistrements plus longs en jeu, il est intéressant de noter qu’une politique de mots de passe imposant une longueur de plus de 15 caractères offrirait une protection contre >97 % des mots de passe de ce jeu de données. Encourager l’utilisation de phrases de passe longues et faciles à retenir est une mesure précieuse que les organisations peuvent prendre.

Longueur du mot de passe	Nombre d’occurrences et %
0 (nom d’utilisateur sans mot de passe)	176 216 952 (18,99 %)
8	129 699 005 (13,98 %)
10	116 523 698 (12,56 %)
9	109 960 521 (11,85 %)
11	83 329 641 (8,98 %)
12	68 409 023 (7,37 %)
15	51 628 997 (5,56 %)
13	44 164 784 (4,76 %)
14	31 930 748 (3,44 %)
6	26 910 038 (2,9 %)
7	18 434 911 (1,99 %)
16	16 932 733 (1,83 %)
17	7 950 070 (0,86 %)
4	6 504 890 (0,7 %)
5	6 050 192 (0,65 %)
18	6 000 837 (0,65 %)

Que retenir d’ALIEN TXTBASE ?

Il ressort clairement de notre analyse qu’il n’y a pas beaucoup de nouvelles données inédites dans ce jeu de données. Il s’agit très probablement d’une compilation de journaux de voleurs précédents, qui ont été collectés et nettoyés dans un format url:nom_utilisateur:mot_de_passe. Une chose intéressante que nous pouvons noter est le passage des forums du dark web vers Telegram pour vendre ce type de vidages de données, grâce à sa facilité d’accès et à son anonymat.

Dans l’ensemble, ce vidage de données est volumineux mais pas différent des autres que notre équipe de renseignement sur les menaces découvre. Par exemple, la compilation ALIEN TXTBASE a été comparée à d’autres comme COMB et C1-5. Alors pourquoi a-t-elle été « commercialisée » comme une fuite de données sérieuse ? Rappelez-vous, les cybercriminels veulent soit gagner en notoriété soit tirer profit de la vente de ces éléments – ils ont donc tout intérêt à faire croire qu’ils détiennent une énorme fuite, même si en réalité une grande partie provient d’anciennes violations.

Pour les organisations, cela rappelle que les pirates continuent de recycler d’anciennes données compromises. Cela souligne le risque de permettre aux utilisateurs finaux de choisir les mots de passe faibles ou courants qui apparaissent toujours dans ces « fuites ». Il y a un besoin critique d’éduquer les utilisateurs finaux sur les risques de la réutilisation de mots de passe et d’ajouter l’authentification multifacteur. Les organisations devraient également améliorer leurs capacités de renseignement sur les menaces pour suivre les risques émergents provenant de plateformes alternatives comme Telegram.

Protégez votre organisation contre les attaques par mots de passe

L’utilisation de Specops Password Policy, ou d’un filtre de mots de passe équivalent pour appliquer des politiques de mots de passe solides, est la meilleure défense contre les attaques avec ces types de jeux de données. Notre fonctionnalité Breached Password Protection analyse en continu votre Active Directory pour détecter les mots de passe compromis et violés, notifiant aux utilisateurs finaux qu’ils doivent changer leur mot de passe immédiatement.

Specops travaille étroitement avec l’équipe KrakenLabs Threat Intelligence pour récolter des jeux de données tels qu’ALIEN TXTBASE depuis Telegram et le dark web, puis les ajouter à notre base de données de plus de quatre milliards d’identifiants compromis uniques. En plus de cela, Specops Password Policy analyse en continu votre Active Directory et alerte les utilisateurs finaux s’ils utilisent un mot de passe compromis qui a été récemment ajouté à la base de données.

Intéressé de voir comment cela fonctionne ? Essayez Specops Password Policy gratuitement.

20/07/2025 (Last updated on 20/07/2025)

Back to Blog

Table of Contents