
The Molecular Information Systems Lab research team: Front (left to right): Bichlien Nguyen, Lee Organick, Hsing-Yeh Parker, Siena Dumas Ang, Chris Takahashi. Back (left to right): James Bornholt, Yuan-Jyue Chen, Georg Seelig, Randolph Lopez, Luis Ceze, Karin Strauss. Not pictured: Doug Carmean, Rob Carlson, Krittika d’Silva. Credit: Tara Brown Photography/University of WashingtonTara Brown Photography/University of Washington
Technologie bedrijven bouwen voortdurend enorme datacenters om al onze babyfoto’s, financiële transacties, grappige kat video’s en e-mailberichten op te slaan. Maar met een nieuwe techniek ontwikkeld door de Universiteit van Washington en Microsoft onderzoekers kan de ruimte die nu nog nodig is voor een datacentrum ter grootte van een flinke supermarkt krimpen tot het formaat van een suikerklontje.
In een presentatie tijdens de ACM International Conference over ondersteuning van programmeertalen en besturingssystemen, heeft het team van informatici en elektrotechnici gedetailleerd uiteengezet hoe één van de eerste complete systemen werkt voor het coderen, opslaan en ophalen van data met behulp van DNA-moleculen. Dat gaat dan miljoenen malen compacter dan met de huidige chiptechnologie.

All the movies, images, emails and other digital data from more than 600 basic smartphones (10,000 gigabytes) can be stored in the faint pink smear of DNA at the end of this test tube.Tara Brown Photography/ University of Washington
Auteurs van het artikel zijn James Bornholt (promovendus in de computerwetenschap), Randolph Lopez (promovendus in bioengineering), Luis Ceze, (universitair hoofddocent informatica en techniek), Georg Seelig (universitair hoofddocent elektrotechniek en informatica en engineering) en Microsoft onderzoekers Doug Carmean en Karin Strauss.
In een bepaald experiment codeerde het team met succes digitale gegevens van vier beeldbestanden in de nucleotidesequenties van synthetische DNA-fragmenten. Nog belangrijker, ze waren ook in staat om dat proces om te keren – het ophalen van de juiste sequenties uit een grotere pool van DNA en de beelden te reconstrueren zonder verlies van een enkele byte aan informatie. Het team heeft ook gegevens weggeschreven en weer opgehaald die gearchiveerde videobestanden verifieert van het project Stemmen van het Rwanda-tribunaal, dat interviews bevat met rechters, advocaten en ander personeel van de Rwandese oorlogsmisdaad-tribunaal.
‘DNA slaat de informatie op die nodig is voor een levend organisme op een doelmatige en duurzame manier op’, stelt co-auteur Luis Ceze. ‘We geven deze opslagcapaciteit in wezen een herbestemming om digitale gegevens op te slaan – foto’s, video’s, documenten – op een beheersbare manier voor honderden of duizenden jaren.’

Lee Organick, a UW computer science and engineering research scientist, mixes DNA samples for storage. Each tube contains a digital file, which might be a picture of a cat or a Tchaikovsky symphony.Tara Brown Photography/ University of Washington
De omvang van het digitale universum – alle computerbestanden ter wereld – doorbreekt naar verwachting in 2020 de grens van 44 x 10 tot de twaalfde macht gigabytes. Dat is een vertienvoudiging ten opzichte van 2013, en dat is evenveel data als er nu passen in zes stapels tablets even hoog als de afstand van de aarde naar de maan. Hoewel alle informatie niet hoeft te worden bewaard, neemt de productie van gegevens sneller toe dan de opslagcapaciteit. Flash drives, harde schijven, magnetische en optische media – DNA-moleculen kunnen gegevens vele miljoenen malen dichter opeenpakken dan deze technologieën voor digitale opslag. Deze media gaan ook kapot na enkele jaren of decennia, terwijl DNA informatie eeuwen kan behouden.
DNA is beter geschikt voor archivering dan voor directe benadering van data.De onderzoekers ontwikkelden een nieuwe benadering om de lange reeksen enen en nullen in digitale gegevens om te zetten in de vier DNA-bouwstenen – adenine, guanine, cytosine en thymine.’Hoe ga je vanuit enen en nullen naar As, Gs, Cs en Ts is werkelijk van belang, want als je het slim aanpakt, kun je deze zeer compact maken zonder dat je veel fouten krijgt’, stelt co-auteur Georg Seelig. ‘Als je het verkeerd aanpakt, krijg je juist veel fouten.’ De data wordt in stukjes gehakt en opgeslagen door het synthetiseren van een enorm aantal kleine DNA-moleculen, gedehydreerd of verduurzaamd voor langdurige opslag.De UW- en Microsoftonderzoekers hebben ook het random acces-vermogen aangetoond – om de juiste sequenties te identificeren en op te halen uit deze grote verzameling van willekeurige DNA-moleculen, vergelijkbaar met het reconstrueren van een hoofdstuk van een boek uit een bibliotheek van verscheurde boeken.
De onderzoekers hebben het vermogen van “random access” aangetoond – het vermogen dus om de juiste volgorde te bepalen om willekeurig gerangschikte DNA-moleculen, vergelijkbaar met het op volgorde leggen van losse pagina’s die uit een boek zijn gescheurd en door elkaar liggen.
Om op een later toegang te hebben tot de opgeslagen gegevens, coderen de onderzoekers ook wat je de postcodes en huisadressen in de DNA-sequenties kunt noemen. Dat gebeurt met behulp van Polymerase Chain Reaction (PCR) technieken – die vaak gebruikt worden in de moleculaire biologie. Die markeringen helpen hen gemakkelijker de postcodes ze zoeken te identificeren. Met behulp van DNA-sequencingtechniek, kunnen de onderzoekers vervolgens de gegevens uitlezen en terugvertalen naar een video-, afbeelding- of documentbestand door de data aan de hand van de straatadressen opnieuw te ordenen.
Momenteel is de grootste barrière voor levensvatbare DNA-opslag de kostprijs en efficiëntie waarmee DNA op grote schaal kan worden gesynthetiseerd (of bereid) en gesequenced (uitgelezen). Maar de onderzoekers zeggen dat er geen technische belemmering is.
Vooruitgang in de DNA-opslag vertrouwt op technieken uit de biotechnologie-industrie, maar ook op kennis uit de computertechnologie. De encodingaanpak van het team, bijvoorbeeld, is gebaseerd op de foutcorrectie die vaak wordt gebruikt in computergeheugen. ‘Dit is een voorbeeld waar we iets van de natuur lenen – DNA – om informatie op te slaan. Maar we gebruiken wat we kennen van computers – hoe je in het geheugen fouten corrigeert – passen dat toe in de natuur’, zegt Ceze. ‘Deze multidisciplinaire aanpak is wat dit project spannend maakt. We putten uit een verschillende disciplines om de grenzen van wat mogelijk is met DNA op te verleggen.’
‘En daarmee creëren we een opslagsysteem met een ongekende dichtheid en duurzaamheid’, zegt Karin Strauss
Het onderzoek is gefinancierd door Microsoft Research, de National Science Foundation, en de David Notkin Endowed Graduate Fellowship.
Voor meer informatie kunt u contact opnemen met Luis Ceze:luisceze@cs.washington.edu , Georg Seelig bij gseelig@u.washington.edu. of Karin Strauss: TNRPR@we-worldwide.com.
http://www.washington.edu/news/2016/04/07/uw-team-stores-digital-images-in-dna-and-retrieves-them-perfectly/