Auch für iPhones: Superschneller Sparspeicher "Mobile HBM"

vor 13 Stunden 1

Der Speicherchip-Weltmarktführer Samsung und wohl auch SK Hynix entwickeln Varianten von Low-Power-DDR-(LPDDR-)SDRAM mit extrem hohen Datentransferraten. Dazu besitzen diese sehr viel mehr Datenleitungen als aktuell übliche LPDDR5X- und kommende LPDDR6-Chips. In Anlehnung an High Bandwidth Memory (HBM), das die schnellsten KI-Beschleuniger etwa von Nvidia und AMD nutzen, könnte der neue Mobilspeicher Mobile HBM heißen.

Es sind aber auch Bezeichnungen wie Low Power Wide I/O (LPW) aufgetaucht. Auf dem Samsung Memory Summit 2023 war von Low Latency Wide I/O (LLW) die Rede.

Das zugrundeliegende Konzept ist nicht neu. Schon vor mehr als zehn Jahren veröffentlichte das Industriegremium JEDEC Standards für Wide-I/O- und Wide-I/O2-Speicherchips mit bis zu 512 Datensignalleitungen. Wide-I/O-DRAM kam unter anderem in der mobilen Spielkonsole Playstation Vita zum Einsatz.

Mobile HBM beziehungsweise LPW-DRAM könnte nach Spekulationen ab 2027 zum Einsatz kommen, etwa in iPhones und anderen Smartphones mit stärkeren KI-Rechenwerken. Bis dahin dürfte auch LPDDR6-DRAM marktreif sein. Dadurch ist es schwierig, die maximalen Datentransferraten kommender LPW-Stapelchips einzuschätzen.

Aktuelle LPDDR5X-8500-Chips mit 16 Datenleitungen übertragen 17 GByte/s: 8,5 Milliarden Transfers mit je 2 Byte pro Sekunde. Ein LPW-Chip mit insgesamt 256 oder 512 Signalleitungen (32 oder 64 Byte), der intern aus mehreren gestapelten LPDDR5X-8500-Dies besteht, würde folglich bis zu 272 beziehungsweise 544 GByte/s liefern.

Zum Vergleich: Ein Apple M4 Pro mit mehreren LPDDR5X-Kanälen schafft 273 GByte/s, eine Nvidia GeForce RTX 5060 (Ti) mit GDDR7-Speicher bringt es auf 448 GByte/s. High-End-Grafikkarten kommen auf weit mehr als ein TByte/s.

LPDDR5X ist bis bis zu 9,6 Gigatransfers/s (GT/s) spezifiziert, dann wären mit LPW über 600 GByte/s möglich. Samsung möchte "LPDDR5 Ultra Pro" noch auf 12,7 GT/s treiben.

LPDDR6 soll mit 10,667 GT/s starten, bei 512 Datenleitungen ergeben sich daraus 682 GByte/s. Allerdings sollen LPDDR6-Chips so organisiert sein, dass sie pro Kanal 24 statt 16 Bits verarbeiten (2 Subkanäle mit je 12 Bit). LPW auf Basis von LPDDR6-Dies könnte daher 288 oder 576 Datenleitungen nutzen.

LPDDR(X-)Speicherchips für Mobilgeräte bestehen oft aus mehreren übereinandergestapelten Einzelchips (Dies) in einem gemeinsamen Gehäuse (Package). Die Wafer mit den einzelnen Dies werden dabei vorher dünngeschliffen, sodass ein Die beispielsweise nur noch 50 Mikrometer (0,05 Millimeter) stark ist.

Schliffbild eines NAND-Flash-Stapels mit 16 Dies, jedes rund 40 Mikrometer dick. Für die Signalfrequenzen in einer (Micro-)SD-Karte genügt klassisches Wirebonding.

(Bild: TechInsights)

Um die gestapelten Dies mit dem Basisträger elektrisch zu verbinden, kommen beispielsweise Bond-Drähte zum Einsatz. Um sehr viele Leitungen für sehr hohe Signalfrequenzen bereitzustellen, sind aber senkrecht durch die Dies führende Durchkontaktierungen besser, sogenannte Through Silicon Vias (TSVs). Dabei passen mehrere Hundert TSVs auf einen Quadratmillimeter.

Einfacher und billiger zu fertigen sind LPDDR-DRAM-Dies mit seitlich angeordneten Kontakten. Stapelt man diese anschließend so, dass sie jeweils leicht auskragen, lässt sich jedes Die direkt durch kurze senkrechte Verbindungen mit dem Basis-Die (Redistribution Layer, RDL) koppeln. SK Hynix hat dazu die Technik Vertical Fan-Out (VFO) entwickelt.

Aufbau eines LPDDR-Die-Stapels mit Vertical Fan-Out (VFO)

(Bild: SK Hynix)

Bei Notebooks sind LPDDR-Speicherchips typischerweise dicht neben dem Hauptprozessor auf das Mainboard gelötet. Mit LPCAMM/LPCAMM2 gibt es auch eine steckbare Modulversion.

Für Mobile HBM dürfte es jedoch nötig sein, das RAM-Package direkt auf den Prozessor zu stapeln. Nur so lassen sich die vielen Leitungen kurz genug halten, damit bei hohen Signalfrequenzen nicht zu viele Fehler auftreten. Denkbar sind auch Silizium-Interposer, die CPU-SoC und LPW-DRAM nebeneinander verbinden.

Bei KI-Rechenbeschleunigern für Server sitzen GPU und HBM-Stacks ebenfalls auf Interposern. HBM nutzt allerdings 1024 Datenleitungen pro Stack und mehrere Stacks pro GPU. Acht HBM3e-Stacks liefern gemeinsam rund 8 TByte/s.

Samsung und SK Hynix arbeiten zudem an einer Spezifikation, mit der Prozessoren Rechenwerke ansteuern können, die in RAM-Chips integriert sind. Mit Processing-in-Memory (PIM) könnten Speicherchips die Ergebnisse (einfacher) Rechen- oder Suchoperationen zurückliefern statt nur Rohdaten. Damit lassen sich im Prinzip Transferleistung und Energie sparen.

(ciw)

Gesamten Artikel lesen