SubQ 1M-Preview: Erstes subquadratisches LLM für Long-Context-KI

Alex Rivera • Veröffentlicht am 15.05.2026 - 23:16 • Aktualisiert 04.06.2026 - 11:41 • 3 Min. Lesezeit • 232,388 • 15,450

3D render of glowing data streams forming a vast, infinite neural network landscape.

Inhaltsverzeichnis

SubQ 1M-Preview erscheint mit einem 12-Millionen-Token-Kontextfenster
Warum subquadratische Attention die Wirtschaftlichkeit langer Prompts verändert
Benchmark-Realitätscheck gegen GPT-5.5 und Claude Opus
Was das für Kreative bedeutet, die erweiterte Szenen erstellen

SubQ 1M-Preview erscheint mit einem 12-Millionen-Token-Kontextfenster

Stand 14. Mai 2026 hat Subquadratic Labs SubQ 1M-Preview ausgeliefert, das erste kommerzielle subquadratische Large Language Model. Es verfügt über ein 12-Millionen-Token-Kontextfenster und erreicht Frontier-Performance, während es etwa ein Fünftel des Inferenz-Computes herkömmlicher Transformer verbraucht. Der API-Zugang wurde direkt nach der Ankündigung am 5. Mai freigeschaltet und zielt direkt auf agentische und langkontextuelle generative Pipelines ab. Frühe interne Benchmarks zeigen bereits, dass das Modell erweiterte Reasoning-Ketten und multimodale Inputs ohne den üblichen quadratischen Kostenanstieg handhabt. Für alle, die erlebt haben, wie Kontextlimits detaillierte Storyboards einschränken, fühlen sich die Zahlen wie ein echter Sprung und nicht wie inkrementelles Marketing an.

Warum subquadratische Attention die Wirtschaftlichkeit langer Prompts verändert

Traditionelle Transformer zahlen bei jedem hinzugefügten Token eine quadratische Steuer. SubQ umgeht diese Skalierungshürde durch einen Attention-Mechanismus, dessen Rechenaufwand deutlich linearer wächst. Das praktische Ergebnis: Kreative können komplette Szenenbeschreibungen, Multi-Shot-Skripte oder stundenlange Referenztranskripte einfügen, ohne dass die Kosten explodieren. Ich habe einen Nachmittag lang den Preview mit einem 40.000-Token-Video-Prompt getestet, der andernorts normalerweise Timeouts auslöst. Es lieferte kohärente Frame-by-Frame-Anleitungen in einem Durchgang. Dieser eine Test hat den Architekturwechsel weniger wie eine Forschungsneugier und mehr wie den neuen Standard wirken lassen.

Benchmark-Realitätscheck gegen GPT-5.5 und Claude Opus

Bei Long-Context-Reasoning-Benchmarks liegt der Preview innerhalb von 3–4 % von GPT-5.5, nutzt aber am 1-M-Token-Marke 78 % weniger Rechenleistung. Gegen die neueste Claude-Opus-Variante liegt er beim kreativen Schreiben leicht zurück, führt aber bei anhaltender multimodaler Kohärenz, sobald Prompts 200 k Tokens überschreiten. Die Kosten pro Million Tokens liegen bei etwa 22 % der aktuellen Frontier-Preise gemäß der veröffentlichten Preisliste. Diese Margen zählen, wenn man 10-Minuten-Video-Outlines iteriert oder 50-Bild-Storyboards zusammenfügt. Der Unterschied ist nicht theoretisch – er zeigt sich nach einer Woche intensiver Nutzung im echten Portemonnaie.

Was das für Kreative bedeutet, die erweiterte Szenen erstellen

Lange, kohärente Prompts sind plötzlich günstig genug, um sie als erstklassiges kreatives Material statt als teuren Luxus zu behandeln. Regisseure können nun komplette Charakter-Bibles, Lichtreferenzen und Dialogspuren in einem einzigen Aufruf ablegen und nutzbare Shot-Listen erhalten, ohne Token-Akrobatik. Dieselben Effizienzgewinne zeigen sich bereits in angrenzenden kreativen Bereichen. Fortschritte bei multimodaler KI werden bereits auf die Erstellung von Erwachseneninhalten angewendet, wie in dieser Analyse von Seedance 2.0. Meine völlig unwissenschaftliche Stichprobe von einem deutet darauf hin, dass der wahre Gewinner iterative Workflows sein werden: Generieren, Prüfen, Verfeinern über Dutzende Durchgänge, ohne dass der Zähler im alten quadratischen Tempo hochläuft.

Offene Fragen zur SubQ-Veröffentlichung

Was genau ist ein subquadratisches Modell?

Ein subquadratisches Modell ersetzt die Standard-Transformer-Attention durch einen Mechanismus, dessen Rechenkosten deutlich langsamer als das Quadrat der Sequenzlänge wachsen. SubQ 1M-Preview nutzt einen solchen Ansatz, um Frontier-Ergebnisse bei etwa einem Fünftel der üblichen Inferenzkosten für sehr lange Eingaben zu liefern.

Wie hilft ein 12-Millionen-Token-Kontextfenster bei Video-Prompts?

Es ermöglicht Kreativen, komplette mehrminütige Skripte, Shot-Listen, Referenzbilder und Audio-Transkripte auf einmal einzufügen. Das Modell behält die Kohärenz über die gesamte Länge bei, statt Nutzer zum Aufteilen des Materials und zum Verlust der Szenenübergreifenden Konsistenz zu zwingen.

Ist SubQ 1M-Preview jetzt schon nutzbar?

Ja. Der API-Zugang wurde am 5. Mai zusammen mit der Preview-Ankündigung gestartet. Entwickler können sich direkt bei Subquadratic Labs anmelden und sofort mit dem 12-M-Kontextfenster testen.

Wie schneidet die Preisgestaltung im Vergleich zu aktuellen Frontier-Modellen ab?

Frühe veröffentlichte Tarife setzen SubQ bei etwa 22 % der Token-Kosten von GPT-5.5- oder Claude-Opus-Äquivalenten, sobald die Kontextlänge einige hunderttausend Tokens überschreitet. Die Einsparungen skalieren mit der Prompt-Größe – genau hier zeigt sich der Architekturvorteil am deutlichsten.

Erstelle dein eigenes KI-Pornovideo

Verwandle jede Fantasie in ein realistisches Full-HD-Video. 1.000+ Szenarien, Stellungen & Fetische — 100% privat.

Jetzt Starten

🔒 100% Privat 🎬 Full HD bis 60 Sek. 🔥 1.000+ Aktionen

Teilen: X Reddit Telegram WhatsApp

Über den Autor

Alex Rivera

AI-Technologie-Journalist

AI-Tech-Journalist, der sagt, was andere nicht wagen. Berichtet über generative AI, Video-Modelle und Deep Learning — ohne Hype, ohne Filter.