Desoxyribonukleinsäure (DNA) trägt nicht nur sämtliche Erbinformationen von Pflanze oder Tier. Datenspeicherung in DNA-Makromolekülen könnte einmal viele Probleme der Langzeitarchivierung lösen. Durch die beliebig variierbare Sequenz der vier beteiligten DNA-Basenpaare ließe sich in einem einzigen Gramm DNA eine Datenmenge von 17 Exabyte kodieren (17 Millionen Terabyte), wie Wissenschaftler der University of Washington bereits 2020 ausrechneten. Zudem können DNA-Makromoleküle Jahrhunderte oder sogar Jahrtausende unverändert überdauern, wenn sie trocken und geschützt vor dem Luftsauerstoff lagern. Während dieser Zeit behalten sie ihre innewohnenden Datenbestände ohne Energiebedarf.
Aufbauend auf diesen Erkenntnissen strebt die DNA Data Storage Alliance (DDSA) an, ein gemeinsames, durchgängiges DNA-Speichersystem zu entwickeln und zu standardisieren. Gründungsmitglieder dieser industriellen Initiative von Oktober 2020 sind außer Microsoft und dem Festplattenhersteller Western Digital unter anderem auch Illumina als Entwickler von Sequenzierungsgeräten sowie Twist Bioscience als Experte für DNA-Synthese. Bis heute allerdings erweist sich die DNA-Synthese, also der schrittweise Aufbau von DNA-Strängen aus den vier natürlichen Nukleinbasen Adenin, Guanin, Cytosin und Thymin als sehr zeitaufwendig; zu zeitaufwendig, um damit ausgerechnet sehr große Datenbestände zu kodieren und dann zu archivieren.
Datencode nicht in, sondern auf der DNA
Nun haben Forscher an der Arizona State University (ASU) in Tempe in Kooperation mit internationalen Partnern wie der Leiterin des 2. Physikalischen Instituts an der Universität Stuttgart, Laura Na Liu, eine neuartige und schnellere DNA-Speichertechnik entwickelt. Dabei setzen sie universelle, vorgefertigte DNA-Stränge ein, an denen sie epigenetische Modifikationen vornehmen. Epigenetik ist die natürliche Methode zur Regulierung der Genaktivität, indem der DNA chemische Gruppen hinzugefügt oder aus ihr entfernt werden. Die Forscher passen diesen natürlichen Mechanismus an und nutzen ihn, um digitale Informationen anstelle von biologischen Anweisungen zu kodieren. Indem sie Methylgruppen an bestimmten DNA-Basen anlagern, schaffen sie sogenannte Epi-Bits, molekulare Datenpunkte. Eine methylierte Base (Epi-Bit „1“) und eine unveränderter, nicht methylierte Base (Epi-Bit „0“) sind das Äquivalent zu dem in der Computertechnik verwendeten Binärcode.
Konkret arbeiten die Forscher mit 5-Methylcytosin (5mC), einem Derivat der DNA-Nukleinbase Cytosin. Zudem setzen sie nicht nur einen universellen einzelsträngigen DNA-Träger (single-stranded DNA, ssDNA) ein, sondern zu kurzen Sequenzen davon komplementäre ssDNA-Bausteine. Diese kurzen Bausteine bilden quasi eine ganze Bibliothek. Die Forscher zeigten, dass sie beliebige Epi-Bit-Kombinationen mit Sequenzen aus ihrer Bausteinbibliothek setzen und auf die identischen Ladesequenzen der DNA-Träger montieren können. Danach gelang es ihnen durch selektive Methylierung, Basen stabil auf dem DNA-Träger zu modifizieren. Dieses Schreibverfahren funktionierte nicht nur mit vergleichsweise hoher Genauigkeit, sondern zugleich parallel auf bis zu 700 unterschiedlichen DNA-Abschnitten.
Konkret erreichten die Wissenschaftler mit ihrem Verfahren unter Laborbedingungen eine Schreibgeschwindigkeit von 350 Bit pro chemischer Reaktion und konkret bisher 40 Bit pro Sekunde. So kodierten sie eine Botschaft aus zwei Bildern – ein stilisiertes Bildnis eines Tigers aus der altchinesischen Han-Dynastie und ein Foto eines Pandas – mit insgesamt 270.000 Bit in weniger als zwei Stunden. Diese Zeitspanne ist zwar noch immer zu lang für die Archivierung großer Datenbestände, aber das neue Verfahren hat den großen Vorteil, dass es keinen de-novo-Aufbau von DNA-Strängen, also Basenpaar für Basenpaar von Grund auf erfordert. Die Forscher sind zuversichtlich, durch die parallele Arbeitsweise ihres Verfahrens und eine noch zu entwickelnde industrielle Technik den Schreibprozess weiter beschleunigen zu können. Zudem weisen sie darauf hin, dass ein Datenspeicher der Zukunft zusätzlich zur parallelen Bearbeitung auf molekularer Ebene auch mehrere DNA-Stränge parallel beschreiben könnte.
Mehr Varianten erhöhen die Datendichte
„In unserer Veröffentlichung beschreiben wir lediglich den Einsatz von 5mC als Epi-Bits. Es ist aber denkbar, auch andere Basenmodifikationen zu nutzen und so ein ganzes Alphabet zu entwickeln, mit dem wir den DNA-Strang beschreiben“, verriet Hao Yan, einer der Autoren, gegenüber c’t. Er ist Leiter des Biodesign Center for Molecular Design and Biomimetics an der ASU und derzeit Gastprofessor an der Stuttgarter Universität. Mit dieser Erweiterung ließe sich die Datendichte auf einem beschriebenen DNA-Strang nochmals vervielfachen.
Zudem erzeugt das neue Verfahren wie der bisherige DDSA-Ansatz, bei dem DNA-Stränge Basenpaar für Basenpaar sequenziell aufgebaut werden, einen dauerhaft speicherbaren DNA-Strang. Dieser Strang ist wie die DNA in biologischen Systemen auch leicht kopierbar, was für manche Anwendungen der Informationsverbreitung interessant sein könnte.
Schnelle Lesetechnik
Wenngleich die neue DNA-Speichertechnik nicht die Basensequenzen im DNA-Strang manipuliert, sondern derzeit nur einzelne Cytosin-Bausteine gemäß dem epigenetischen Vorbild verändert, so kann man ihre Ergebnisse doch mit normalen DNA-Sequenzierern auslesen. Ebenso funktioniert auch die schnelle Lesetechnik durch Nanoporen-Sequenzierer. Bei dieser noch relativ jungen Technik, die erst seit 2015 durch neue Gerätetechnik einen breiteren Anwenderkreis findet, wird der DNA-Doppelstrang in Einzelstränge aufgebrochen, von denen einer durch einen biologischen Kanal, die sogenannte Nanopore geschleust wird.
Die eigentliche Sequenzierung gelingt durch eine elektrische Spannung, die man an die Nanopore anlegt. Beim Tunneln der Nanopore hinterlässt jedes der vier Nukleotide (die jeweils eine Hälfte der ursprünglich im DNA-Strang vollständigen Basenpaare) ein spezifisches Muster im Ionenfluss. Daraus lässt sich die ursprüngliche Basensequenz in Echtzeit ableiten. Auch das epigenetisch methylierte Cytosin ist bei dieser Sequenzierungstechnik speziell erkennbar.
Schritt in molekulare Computertechnik
Auch wenn DNA-Speicher zunächst für den Einsatz mit bestehenden Computersystemen konzipiert sind, sehen die Forscher noch eine weitere Entwicklungsrichtung. In künftigen Anwendungen sei es denkbar, DNA-Speicher mit molekularen Computersystemen zu kombinieren, sodass Daten im selben Medium gespeichert, verarbeitet und sogar berechnet werden können. Damit würde die DNA von einem reinen Speichermolekül zu einem aktiven Teilnehmer an der Datenverarbeitung. Eine sogenannte Bioinformatik könnte in ferner Zukunft die Datenspeicherung nahtlos mit biologischen Funktionen verbinden.
Zunächst einmal ist das Epi-Bit-System aber einfach als ein digitaler Datenspeicher konzipiert. „Man kann es sich wie eine externe Festplatte für die hochdichte, langfristige Datenspeicherung vorstellen“, erklärt Hao gegenüber c’t. Für die praktische Anwendung aber muss die Geschwindigkeit noch steigen. Selbst alte USB-Platten erreichen milliardenfach höhere Geschwindigkeiten, moderne SSDs liegen noch einmal eine ganze Größenordnung darüber. (agr)