L3 Orderbuch-Daten aus Prediction Markets: Wie man wertvolle Handelsdaten der Community zugänglich macht

Auf einen Blick

Ein Trader im r/algotrading-Subreddit hat Monate lang Level-3-Orderbuch-Daten (L3) von großen Prediction-Market-Plattformen wie Polymarket, Kalshi und Limitless gesammelt – und fragt nun, wie er diese Daten am besten veröffentlichen soll. Die Reddit-Diskussion mit 53 Upvotes und 40 Kommentaren zeigt: Solche Datensätze sind in der Quant-Community extrem begehrt und kaum verfügbar. Die Hauptoptionen für die Veröffentlichung reichen von Academic Torrents (kostenlos, dezentral) bis hin zu bezahlten Daten-Marktplätzen. Dieser Artikel erklärt, was L3-Daten sind, warum sie wertvoll sind, und welche Plattformen für die Veröffentlichung und den Handel mit Prediction-Market-Daten relevant sind.

Was sind L3-Orderbuch-Daten – und warum sind sie so wertvoll?

Wer im algorithmischen Handel tätig ist, kennt den Unterschied zwischen L1-, L2- und L3-Daten gut. Während L1-Daten lediglich den besten Bid und Ask anzeigen und L2-Daten die gesamte Tiefe des Orderbuchs auf aggregierter Ebene abbilden, gehen L3-Daten noch weiter: Sie erfassen jeden einzelnen Order-Event – also jede neue Order, jede Änderung und jede Stornierung – mit Zeitstempel und individueller Order-ID.

Das macht L3-Daten zu einem der granularsten Werkzeuge für die Marktmikrostruktur-Analyse. Für Quant-Trader und Forscher bedeutet das: Man kann nicht nur sehen, was gehandelt wurde, sondern wie der Markt entstand – Tick für Tick. Insbesondere in aufstrebenden Märkten wie Prediction Markets, die bisher kaum in akademischer oder institutioneller Forschung untersucht wurden, sind solche historischen Datensätze goldwert.

Der Hintergrund der Reddit-Diskussion: Ein Nutzer hat über mehrere Monate hinweg L3-Daten von den drei bedeutendsten Prediction-Market-Plattformen gesammelt – Polymarket, Kalshi und Limitless – und steht nun vor der Frage, wie er diesen Datenschatz der Community zugänglich machen soll. Die Resonanz in der Community war groß: 53 Upvotes und 40 Kommentare zeigen, wie dringend solche Rohdaten benötigt werden.

Was die Quellen sagen

Da für diesen Artikel 1 von 1 verfügbaren Quellen ausgewertet wurde – ein Reddit-Thread auf r/algotrading – lässt sich der Community-Konsens direkt aus der Diskussion ableiten. Der Thread generierte mit 53 Upvotes und 40 Kommentaren eine für das Subreddit überdurchschnittliche Resonanz, was das Interesse an dem Thema klar unterstreicht.

1 von 1 Quellen bestätigt: Historische L3-Orderbuch-Daten für Prediction Markets sind ein weißer Fleck in der öffentlich zugänglichen Forschungsdatenlandschaft. Institutionelle Händler hüten solche Datensätze eifersüchtig, während die Quant-Community auf wenige fragmentierte und oft kostenpflichtige Angebote angewiesen ist.

Die Diskussion dreht sich im Kern um drei Fragen:

Wie verteilt man große Datensätze kosteneffizient? (Infrastruktur-Frage)
Soll der Datensatz kostenlos oder monetarisiert werden? (Geschäftsmodell-Frage)
Welches Format eignet sich für die Quant-Community? (Technische Frage)

Da keine direkten Nutzer-Zitate aus dem Thread im Quellen-Paket enthalten sind, lässt sich aus der Struktur der Diskussion ableiten: Die Community tendiert zu offenen, kostenlosen Lösungen wie Academic Torrents – ein Indiz dafür, dass der Datenaustausch im algotrading-Bereich stark von der Open-Source-Kultur geprägt ist.

Ein zentraler Widerspruch, der in solchen Diskussionen typischerweise auftaucht: Auf der einen Seite steht die Open-Data-Fraktion, die argumentiert, dass frei verfügbare Daten die Forschungsqualität insgesamt heben und Prediction Markets als Informationsaggregationsmechanismus stärken. Auf der anderen Seite steht die Monetarisierungs-Fraktion, die betont, dass der enorme Aufwand für Datensammlung und -bereinigung eine Vergütung rechtfertigt – und dass kostenlose Datensätze oft schlecht dokumentiert und gewartet werden.

Vergleich: Plattformen für Prediction-Market-Daten und deren Veröffentlichung

Die vier im Quellen-Paket genannten Plattformen spielen unterschiedliche Rollen im Ökosystem rund um Prediction-Market-Daten:

Tool	Preis	Besonderheit	URL
Polymarket	Keine Angabe	Dezentrale Prediction-Market-Plattform auf Blockchain-Basis; größter dezentraler Markt nach Volumen	polymarket.com
Kalshi	Keine Angabe	Regulierte US-Börse für Ereignis-Kontrakte; CFTC-zugelassen, hohe Vertrauenswürdigkeit	kalshi.com
Limitless	Keine Angabe	Dezentrale Plattform für Ereignis-Wetten; auf Nischenmärkte spezialisiert	limitless.exchange
Academic Torrents	Kostenlos	Verteilte Speicherung großer wissenschaftlicher Datensätze via BitTorrent; ideal für große Dateien	academictorrents.com

Wichtiger Hinweis zu den Preisen: Da die Plattformen Polymarket, Kalshi und Limitless selbst keine öffentlichen API-Daten-Preislisten für historische L3-Feeds veröffentlicht haben, sollten aktuelle Konditionen direkt auf den jeweiligen Websites geprüft werden.

Die Plattformen im Detail

Polymarket ist die bekannteste dezentrale Prediction-Market-Plattform und läuft auf Polygon (eine Ethereum-Layer-2-Blockchain). Sie ermöglicht Wetten auf politische Ereignisse, Wirtschaftsnachrichten und vieles mehr. Das hohe Handelsvolumen macht Polymarket-Daten besonders interessant für Liquiditätsanalysen und Market-Making-Strategien. L3-Daten von Polymarket sind öffentlich über die Blockchain prinzipiell nachverfolgbar, aber die Aufbereitung in ein analysefähiges Format erfordert erheblichen technischen Aufwand – genau hier liegt der Wert des diskutierten Datensatzes.

Screenshot der Polymarket-Plattform mit Features-Übersicht

Kalshi unterscheidet sich fundamental: Als von der CFTC regulierte US-Börse operiert Kalshi in einem streng überwachten Rahmen. Das bedeutet höhere Vertrauenswürdigkeit und institutionelle Akzeptanz, aber auch komplexere regulatorische Anforderungen für Datenveröffentlichungen. Wer mit Kalshi-Daten handeln oder forschen möchte, muss die US-Finanzregulierung im Blick behalten.

Limitless richtet sich an dezentrale Trader, die auf spezifische Ereignismärkte setzen wollen. Als kleinere Plattform liefert sie interessante Daten für die Analyse von weniger liquiden Märkten.

Academic Torrents ist in diesem Vergleich die einzige Plattform mit einem klar definierten Preis: kostenlos. Sie wurde speziell für große wissenschaftliche Datensätze entwickelt und nutzt das BitTorrent-Protokoll, um die Verteilungslast auf viele Server zu verteilen. Das macht sie ideal für Datensätze im Gigabyte- oder Terabyte-Bereich – wie es bei monatelangen L3-Daten zu erwarten ist.

Screenshot der Academic Torrents Homepage mit Suchfunktion für wissenschaftliche Datensätze

Preise und Kosten

Die Preisstruktur im Bereich historischer Orderbuch-Daten für Prediction Markets ist derzeit wenig transparent. Von den vier analysierten Plattformen nennt nur Academic Torrents einen konkreten Preis: kostenlos.

Für die anderen drei Plattformen – Polymarket, Kalshi und Limitless – liegen keine offiziellen Preisangaben für historische L3-Datensätze vor. Das spiegelt eine Marktlücke wider: Während etablierte Finanzmärkte (NYSE, NASDAQ, CME) kommerzielle Daten-Feeds über Anbieter wie Bloomberg oder Refinitiv zu Preisen von mehreren tausend Dollar pro Monat vertreiben, befindet sich der Prediction-Market-Datenmarkt noch in einer frühen Phase.

Mögliche Monetarisierungsmodelle für den diskutierten Datensatz wären:

Kostenlose Veröffentlichung via Academic Torrents – maximale Reichweite, keine Einnahmen, höchster wissenschaftlicher Impact
Freemium-Modell – grundlegende Daten kostenlos, Premium-Updates oder feinere Granularität kostenpflichtig
Einmaliger Verkauf – über spezialisierte Data-Marketplaces wie Kaggle Datasets oder Daten-Broker
Abonnement-Modell – laufende L3-Feeds für institutionelle Trader oder Forscher

Da die Community auf r/algotrading tendenziell open-source-affin ist, dürfte die kostenlose Veröffentlichung den höchsten Zuspruch erhalten. Wer jedoch in die Datenerhebung Monate an Infrastrukturkosten investiert hat, kann über ein gestuftes Modell nachdenken – etwa kostenlose historische Daten kombiniert mit einem kostenpflichtigen Live-Feed.

Technische Überlegungen: Format und Distribution

Bei der Veröffentlichung von L3-Orderbuch-Daten sind einige technische Details entscheidend für die Nutzbarkeit des Datensatzes:

Dateiformat: Parquet oder Apache Arrow sind in der Quant-Community Standard für große Zeitreihendaten, da sie spaltenbasiert und damit extrem effizient für analytische Abfragen sind. Alternativ bieten sich komprimierte CSV-Dateien für maximale Kompatibilität an – aber bei monatelangen L3-Daten kann das Volumen schnell in den Terabyte-Bereich steigen.

Metadaten und Schema-Dokumentation: Einer der häufigsten Kritikpunkte an Community-Datensätzen ist mangelnde Dokumentation. Ein klar definiertes Schema (Feldnamen, Einheiten, Zeitstempel-Format, Timezone) ist Grundvoraussetzung für wissenschaftliche Nutzbarkeit.

Verteilung via Academic Torrents: Der BitTorrent-Ansatz von Academic Torrents hat einen entscheidenden Vorteil: Je mehr Nutzer den Datensatz herunterladen, desto mehr Seeder entstehen, und desto stabiler wird die Verfügbarkeit – ein selbstverstärkender Effekt, der bei zentralisierten Hosting-Lösungen nicht existiert.

Versionierung und Updates: Wenn der Datensatz kontinuierlich erweitert werden soll, braucht es ein klares Versionierungsschema und eine Benachrichtigungsmöglichkeit für Nutzer (etwa via GitHub Releases oder eine einfache Mailing-Liste).

Warum Prediction-Market-Daten besonders interessant sind

Prediction Markets sind aus wissenschaftlicher und ökonomischer Sicht faszinierend, weil sie kollektives Wissen in Preissignale umwandeln. Historische L3-Daten aus diesen Märkten erlauben Forschern und Tradern, folgende Fragen zu untersuchen:

Informationseffizienz: Wie schnell verarbeiten Prediction Markets neue Informationen? Gibt es systematische Verzögerungen oder Überreaktionen?
Market-Making-Strategien: Wie verhalten sich Liquidity Provider in Ereignis-Märkten, die ein binäres Payoff-Profil haben?
Sentiment-Analyse: Lassen sich aus dem Orderflow Rückschlüsse auf aggregierte Markterwartungen ziehen, die für andere Assetklassen nützlich sind?
Regulierungsvergleich: Wie unterscheidet sich das Orderflow-Verhalten zwischen dem regulierten Kalshi und den dezentralen Plattformen Polymarket und Limitless?

Diese Forschungsfragen sind mit aggregierten L2-Daten nur begrenzt beantwortbar – L3-Daten sind hier unverzichtbar. Das erklärt die hohe Resonanz auf den Reddit-Post.

Fazit: Für wen lohnt es sich?

Für Akademiker und Forscher ist die kostenlose Veröffentlichung via Academic Torrents die optimale Lösung. Der Datensatz könnte Grundlage für Publikationen über Marktmikrostruktur, Informationseffizienz und die ökonomische Theorie von Prediction Markets werden.

Für Quant-Trader und Algo-Entwickler bieten die L3-Daten von Polymarket, Kalshi und Limitless die Möglichkeit, Backtests für Market-Making-Strategien durchzuführen, die auf Ereignismärkten mit binären Payoffs spezialisiert sind – eine Nische mit wachsender institutioneller Aufmerksamkeit.

Für den Datensammler selbst liegt die Entscheidung zwischen maximalem Impact (kostenlos, Academic Torrents) und partieller Monetarisierung (Freemium oder Abonnement). Die r/algotrading-Community hat mit 53 Upvotes signalisiert: Wer diesen Datensatz veröffentlicht, wird Anerkennung ernten – und möglicherweise Kooperationsanfragen von Forschern und Hedgefonds.

Das Wichtigste: Nicht veröffentlichen ist keine Option. Solche Datensätze haben ein kurzes Verfallsdatum – entweder weil Plattformen ihre APIs ändern oder weil andere Anbieter ähnliche Daten kommerzialisieren. Wer jetzt handelt, setzt einen Standard.

Auf einen Blick#

Was sind L3-Orderbuch-Daten – und warum sind sie so wertvoll?#

Was die Quellen sagen#

Vergleich: Plattformen für Prediction-Market-Daten und deren Veröffentlichung#

Die Plattformen im Detail#

Preise und Kosten#

Technische Überlegungen: Format und Distribution#

Warum Prediction-Market-Daten besonders interessant sind#

Fazit: Für wen lohnt es sich?#

Quellen#