Das von Jim Keller geführte Chipunternehmen Tenstorrent hat seinen Wormhole-Prozessor der nächsten Generation für KI-Workloads auf den Markt gebracht, der gute Leistung zu einem erschwinglichen Preis bieten soll.Derzeit bietet das Unternehmen zwei zusätzliche PCIe-Karten an, die einen oder zwei Wormhole-Prozessoren aufnehmen können, sowie TT-LoudBox- und TT-QuietBox-Workstations für Softwareentwickler. Alle heutigen Ankündigungen richten sich an Entwickler und nicht an diejenigen, die Wormhole-Boards für kommerzielle Workloads verwenden.
„Es ist immer eine Freude, mehr unserer Produkte in die Hände von Entwicklern zu bekommen. Release-Entwicklungssysteme, die unsere Wormhole™-Karten verwenden, können Entwicklern bei der Skalierung und Entwicklung von Multi-Chip-KI-Software helfen“, sagte Jim Keller, CEO von Tenstorrent.Zusätzlich zu dieser Markteinführung sind wir gespannt auf die Fortschritte, die wir mit der Bandausgabe und Inbetriebnahme unseres Produkts der zweiten Generation, Blackhole, machen.“
Jeder Wormhole-Prozessor enthält 72 Tensix-Kerne (von denen fünf RISC-V-Kerne in verschiedenen Datenformaten unterstützen) und 108 MB SRAM und liefert 262 FP8 TFLOPS bei 1 GHz mit einer thermischen Designleistung von 160 W. Die Single-Chip-Karte Wormhole n150 ist mit 12 GB GDDR6-Videospeicher ausgestattet und verfügt über eine Bandbreite von 288 GB/s.
Wormhole-Prozessoren bieten flexible Skalierbarkeit, um den unterschiedlichen Anforderungen von Arbeitslasten gerecht zu werden. In einem Standard-Workstation-Setup mit vier Wormhole n300-Karten können die Prozessoren zu einer einzigen Einheit zusammengefasst werden, die in der Software als einheitliches, breites Tensix-Kernnetzwerk erscheint. Diese Konfiguration ermöglicht es dem Beschleuniger, die gleiche Arbeitslast zu bewältigen, sie auf vier Entwickler aufzuteilen oder bis zu acht verschiedene KI-Modelle gleichzeitig auszuführen. Ein wesentliches Merkmal dieser Skalierbarkeit ist, dass sie lokal ausgeführt werden kann, ohne dass eine Virtualisierung erforderlich ist. In einer Rechenzentrumsumgebung nutzen Wormhole-Prozessoren PCIe für die Erweiterung innerhalb der Maschine oder Ethernet für die externe Erweiterung.
In Bezug auf die Leistung erreichte die Single-Chip-Karte Wormhole n150 von Tenstorrent (72 Tensix-Kerne, 1-GHz-Frequenz, 108 MB SRAM, 12 GB GDDR6, 288 GB/s Bandbreite) 262 FP8 TFLOPS bei 160 W, während die Dual-Chip-Karte Wormhole n300 (128 Tensix-Kerne, 1-GHz-Frequenz, 192 MB SRAM, aggregierte 24 GB GDDR6, 576 GB/s Bandbreite) liefert bis zu 466 FP8 TFLOPS bei 300 W.
Um 300 W mit 466 FP8 TFLOPS in einen Kontext zu setzen, vergleichen wir es mit dem, was der KI-Marktführer Nvidia bei dieser thermischen Designleistung anbietet. Nvidias A100 unterstützt FP8 nicht, aber INT8 mit einer Spitzenleistung von 624 TOPS (1.248 TOPS bei geringer Auslastung). Im Vergleich dazu unterstützt Nvidias H100 FP8 und erreicht eine Spitzenleistung von 1.670 TFLOPS bei 300 W (3.341 TFLOPS bei Sparse), was sich deutlich vom Wormhole n300 von Tenstorrent unterscheidet.
Allerdings gibt es ein großes Problem. Tenstorrents Wormhole n150 kostet 999 US-Dollar, während der N300 1.399 US-Dollar kostet. Zum Vergleich: Eine einzelne Nvidia H100-Grafikkarte kostet je nach Menge 30.000 US-Dollar. Natürlich wissen wir nicht, ob vier oder acht Wormhole-Prozessoren tatsächlich die Leistung eines einzelnen H300 liefern können, aber ihre TDPs liegen bei 600 W bzw. 1200 W.
Zusätzlich zu den Karten bietet Tenstorrent vorgefertigte Workstations für Entwickler an, darunter 4 n300-Karten in der günstigeren Xeon-basierten TT-LoudBox mit aktiver Kühlung und der fortschrittlichen TT-QuietBox mit EPYC-basierter Xiaolong-Flüssigkeitskühlungsfunktion.
Zeitpunkt der Veröffentlichung: 29. Juli 2024