
ALIEN TXTBASE Data-Dump-Analyse: gefährlich oder wertlos?
Table of Contents
Specops-Forscher haben sich eingehend mit dem ALIEN TXTBASE-Data-Dump beschäftigt, der kürzlich von Troy Hunt in das HaveIBeenPwned (HIBP)-Dataset integriert wurde. Nach einer Analyse der über 200 Millionen Passwörter in diesem Dataset schätzen wir, dass etwa 20 Millionen für die Specops Breached Password Protection-Datenbank neu sind – wir haben diese also hinzugefügt, um Kunden zu schützen. Der Großteil scheint bereits von unseren Threat-Intelligence-Quellen, Honeypot-Systemen und der Entfernung von Duplikaten abgedeckt worden zu sein.
Wie sind wir in den Besitz von ALIEN TXTBASE gelangt?
Bereits im Januar 2025 wandte sich eine Regierungsbehörde an Troy Hunt (HIBP) bezüglich einiger großer (4 GB) Dateien, die auf Telegram zum Verkauf angeboten wurden. Diese Daten wurden Herrn Hunt zur Verfügung gestellt, und er begann mit der Verarbeitung für die Aufnahme in HIBP (anscheinend sprach man von etwa einem Monat). Während dieser Zeit hatte ein Dritter begonnen, das Dataset über verschiedene Third-Party-Sharing-Sites über Posts in Breached Forums anzubieten. Hier haben wir (Specops) das ALIEN TXTBASE-Dataset erworben und mit der Analyse und Verarbeitung für die Aufnahme in unsere eigene Datenbank mit kompromittierten Passwörtern begonnen.
Analyse des ALIEN TXTBASE-Data-Dumps
Wie beim Rockyou2024-Data-Dump stellten unsere Forscher fest, dass es sich nicht ganz um das Mega-Leak handelte, als das es ursprünglich angepriesen wurde. Der Dump enthielt eine ziemlich normale Verteilung von Basiswörtern, Passwörtern und Längen – im Wesentlichen eine Menge lokaler Passwortspeicher von Personen. Es gab auch eine nicht unerhebliche Menge an Junk, Telegram-URLs und anderem Zeug, das dort hineingemischt wurde. Es ist klar, dass hier jemand viele Stealer-Logs sammelt und in einem verarbeitet.
Aufgrund der Größe des Datasets war es nicht möglich, eine Analyse des gesamten Dumps als Ganzes durchzuführen. Daher wurde eine Stichprobe von 92.7790.080 Datensätzen entnommen (etwa 30 % der Gesamtzahl), und eine Analyse wurde anhand dieser Teilmenge durchgeführt.
Dieses Dataset hatte auch einen ersten Durchgang durch den Benutzer, der es teilte, wodurch es von einem Standard-Stealer-Log-Format (JSON von URL, Benutzername, Passwort und anderen Daten) in zwei der folgenden Formate reduziert wurde:
- url:username:password
- url|username|password
Und dann hatten einige Datensätze fehlerhafte Formate oder anderweitig zusätzliche Daten angehängt. Nicht alle Datensätze waren vollständig oder waren vollständige, saubere Sätze von Anmeldedaten.
Domain-Vorkommen
Das Dataset ist aufgrund der Natur von Stealer-Logs (Malware, die in lokalen Passwortspeichern gespeicherte Datensätze abruft, z. B. in einem Chrome-Browser) vielfältig. Wir können sehen, dass es eher zu Social-Media- und Consumer-Mail-Konten tendiert als zu internen Unternehmenskonten. Dies bedeutet jedoch nicht, dass Unternehmenskonten überhaupt nicht vertreten sind. Sie können einige ausgewählte Domains unten sehen, die diesen Unterschied hervorheben.
Domain | Anzahl der Vorkommnisse |
---|---|
x.com (ehemals Twitter) | 15.727.771 |
microsoft.com | 993.554 |
irs.gov | 108.944 |
Passwort-Vorkommen
Ähnlich wie bei unseren 2025 Breached Password Report-Ergebnissen zu durch Malware gestohlenen Anmeldedaten enthält das Dataset Millionen von Vorkommnissen häufiger, schwacher Passwörter wie 123456, admin und password. Abgesehen von den Junk-Daten (in der Tabelle unten rot hervorgehoben) ist es klar, dass dieses Dataset Stealer-Logs sind, die von ihrem rohen JSON in url:username:password bereinigt wurden, ohne Rücksicht darauf, ob die Daten gut sind oder nicht. Sie werden auch den Telegram-Chat URL bemerken, der angehängt wird. Dies ist bei vielen Stealer-Logs üblich; das Verhältnis von qualitativ hochwertigen, sauberen Daten, die sofort für einen Angriff verwendet werden können, ist oft gering.
Es erfordert in der Regel eine sorgfältige Analyse, damit ein Angreifer an Daten gelangt, die für einen Angriff verwendet werden können. Wenn er nach einer bestimmten Domain für einen bestimmten Angriff suchen würde, könnte dies von Vorteil sein. Aber wenn ein Angreifer nur eine große Anzahl von Domains ausprobieren wollte, ist einiges an Arbeit erforderlich, um den Dump in einen sauberen Datensatz zu verarbeiten, den er für einen Angriff verwenden könnte.
Das Vorherrschen von „Spy Hunter“ ist interessant und möglicherweise mit diesem Anti-Malware-Tool verwandt – obwohl es schwer zu sagen ist.
Passwort | Anzahl der Vorkommnisse |
---|---|
123456 | 1.830.528 |
[UNKNOWN or V70] | 1.657.685 |
admin | 1.072.449 |
12345678 | 796.449 |
password | 602.910 |
123456789 | 602.315 |
//t.me/+hfTW5AYawTo4NG4Ji | 498.183 |
1234 | 428.201 |
Spy_Hunter4 | 358.011 |
[UNKNOWNorV70] | 347.099 |
Basiswörter
Wir können zu einem ähnlichen Schluss wie oben gelangen, wenn wir uns die Basiswörter ansehen. Das Dataset enthält viel Junk und auch einen ziemlich standardmäßigen Satz von von Menschen generierten Passwörtern – meist schwache und häufig verwendete. Dies deutet darauf hin, dass es sich hauptsächlich um eine Zusammenlegung anderer Data-Dumps handelt und nicht um eine Fundgrube kompromittierter Anmeldedaten, in die sich ein Hacker verbeißen kann.
Der Telegram-Link führt zu einem Telegram, das Stealer-Logs verkauft; es ist also sehr wahrscheinlich, dass dies eine der ursprünglichen Quellen der Daten ist.
Basisbegriff | Anzahl der Vorkommnisse |
---|---|
password | 1.932.026 |
admin | 1.750.728 |
unknown or v | 1.673.231 |
qwerty | 1.111.319 |
spy_hunter | 652.888 |
daniel | 582.727 |
asdf | 507.033 |
t.me/+hftw5ayawto4ngji | 499.802 |
welcome | 469.636 |
gabriel | 465.572 |
Passwortlängen
Obwohl es einige längere Datensätze gibt, ist es interessant festzustellen, dass eine Passwortrichtlinie, die eine Länge von über 15 Zeichen erzwingt, Schutz vor >97 % der Passwörter in diesem Dataset bieten würde. Die Förderung der Verwendung von langen, leicht zu merkenden Passphrasen ist eine wertvolle Maßnahme für Unternehmen.
Passwortlänge | Anzahl der Vorkommnisse und % |
---|---|
0 (Benutzername ohne Passwort) | 176.216.952 (18,99 %) |
8 | 129.699.005 (13,98 %) |
10 | 116.523.698 (12,56 %) |
9 | 109.960.521 (11,85 %) |
11 | 83.329.641 (8,98 %) |
12 | 68.409.023 (7,37 %) |
15 | 51.628.997 (5,56 %) |
13 | 44.164.784 (4,76 %) |
14 | 31.930.748 (3,44 %) |
6 | 26.910.038 (2,9 %) |
7 | 18.434.911 (1,99 %) |
16 | 16.932.733 (1,83 %) |
17 | 7.950.070 (0,86 %) |
4 | 6.504.890 (0,7 %) |
5 | 6.050.192 (0,65 %) |
18 | 6.000.837 (0,65 %) |
Was ist die Quintessenz von ALIEN TXTBASE?
Aus unserer Analyse geht klar hervor, dass es in diesem Dataset nicht viele neue, neuartige Daten gibt. Es handelt sich höchstwahrscheinlich um eine Zusammenstellung früherer Stealer-Logs, die gesammelt und in ein url:username:password-Format bereinigt wurden. Eine interessante Sache, die wir feststellen können, ist die Verlagerung von Dark-Web-Foren zu Telegram für den Verkauf dieser Art von Data-Dumps, dank seiner einfachen Zugänglichkeit und Anonymität.
Insgesamt ist dieser Data-Dump groß, aber nicht anders als andere, die unser Threat-Intelligence-Team aufdeckt. Beispielsweise wurde die ALIEN TXTBASE-Zusammenstellung mit anderen wie COMB und C1-5 verglichen. Warum wurde sie also als schwerwiegendes Datenleck „vermarktet“? Denken Sie daran, dass Cyberkriminelle entweder Bekanntheit erlangen oder von dem Verkauf dieses Zeugs profitieren wollen – daher haben sie ein Interesse daran, vorzutäuschen, dass sie ein enormes Leck haben, auch wenn in Wirklichkeit vieles davon aus alten Verstößen stammt.
Für Unternehmen dient dies als Erinnerung daran, dass Hacker weiterhin alte, kompromittierte Daten recyceln. Dies unterstreicht das Risiko, Endbenutzern die Wahl schwacher oder gängiger Passwörter zu überlassen, die immer wieder in diesen „Leaks“ auftauchen. Es besteht ein dringender Bedarf, Endbenutzer über die Risiken der Passwortwiederverwendung aufzuklären und Multi-Faktor-Authentifizierung hinzuzufügen. Unternehmen sollten auch ihre Threat-Intelligence-Fähigkeiten verbessern, um aufkommende Risiken von alternativen Plattformen wie Telegram zu verfolgen.
Schützen Sie Ihr Unternehmen vor Passwortangriffen
Die Verwendung von entweder Specops Password Policy oder einem gleichwertigen Passwortfilter zur Durchsetzung solider Passwortrichtlinien ist die beste Verteidigung gegen Angriffe mit diesen Arten von Datensätzen. Unsere Breached Password Protection-Funktion scannt kontinuierlich Ihr Active Directory nach kompromittierten Passwörtern und benachrichtigt Endbenutzer, dass sie ihr Passwort sofort ändern müssen.
Specops arbeitet eng mit dem KrakenLabs Threat Intelligence-Team zusammen, um Datensätze wie ALIEN TXTBASE von Telegram und dem Dark Web zu sammeln und sie dann zu unserer Datenbank mit über vier Milliarden eindeutigen, kompromittierten Anmeldedaten hinzuzufügen. Darüber hinaus scannt Specops Password Policy kontinuierlich Ihr Active Directory und benachrichtigt Endbenutzer, wenn festgestellt wird, dass sie ein kompromittiertes Passwort verwenden, das kürzlich der Datenbank hinzugefügt wurde.
Interessiert zu sehen, wie es funktioniert? Testen Sie Specops Password Policy kostenlos.
(Zuletzt aktualisiert am 20/07/2025)