У Microsoft получилось записать в образец ДНК рекордных 200 Мб данных

Флешка будущего.

В рамках поиска перспективных способов хранения и обработки данных исследователи Microsoft смогли записать в ДНК 200 МБ информации. Для записи применялся метод кодирования цифровой информации из двоичного кода в четвертичный – соответствующий четырем азотистым основаниям ДНК.

Исследователи Microsoft побили мировой рекорд, записав 200 МБ данных в образец ДНК размером с кончик карандаша

Образец ДНК на дне пробирки (меньше кончика карандаша)

Для тестирования возможностей этого способа хранения данных группа ученых из Microsoft Research и Вашингтонского университета использовала искусственные молекулярные нити и собственные технологии записи и считывания данных, эффективность которых и является основной научной задачей, поскольку в теории даже один грамм ДНК позволяет записать до миллиарда терабайт данных. А срок хранения превышает возможности любого современного носителя — достаточно вспомнить генетическую информацию первобытных людей и животных времен палеолита, которую извлекают из археологических находок.

Для записи применяется метод кодирования цифровой информации из двоичного кода в четвертичный – соответствующий четырем азотистым основаниям ДНК. Проект по записи информации в ДНК получил название Project Palix.

«Хранилище данных на базе ДНК — это почти пустая пробирка, в которой ничего нельзя разглядеть человеческим глазом, кроме нескольких засохших кристаллов на дне», — говорит Карин Штраус, одна из участников проекта.

Microsoft и Вашингтонский университет используют метод, предложенный специалистами из Гарварда.

Сначала единицы и нули двоичного кода переводятся в комбинации нуклеотидов — аденин, гуанин, цитозин и тимин. После этого синтезируется искусственная ДНК, которая содержит эти данные. Само кодирование информации проводит компания Twist Bioscience, предоставляющая нити синтетической ДНК. Заказчики сообщают последовательность, компания производит цепочку с нуля. Что за информация закодирована в таких молекулах, Twist Bioscience не знает. Для определения конца и начала записываемых файлов в молекулу ДНК вводятся специальные маркеры.

Эксперимент увенчался успехом: ученым удалось поставить новый мировой рекорд, записав и считав 200 МБ данных в образце ДНК размером меньше, чем кончик карандаша. Причем в отличие от прошлого опыта, в ходе которого были записаны изображения, сейчас использовались разнородные данные: видео группы OK Go в высоком разрешении, к которому добавили Всеобщую декларацию прав человека на более чем 100 языках, 100 книг из проекта «Гутенберг» и базы данных Crop Trust.

По словам Луис Энрики Сез (Luis Henrique Ceze), одной из участников проекта, за последние несколько лет генетики достигли больших успехов как в кодировании, так и в декодировании ДНК-информации. Точность кодирования информации достигает 100%. Технология расшифровки данных позволяет восстанавливать закодированную информацию без потерь.

На сегодняшний день такой способ хранения данных слишком дорог для коммерческого использования, но исследователи уверены, что уже в ближайшие годы его стоимость снизится, а надежность вырастет. Ведь методы работы с генетической информацией совершенствуются, а стоимость считывания ДНК снижается. Проект по расшифровке генома человека в 2003 году стоил $1 млрд. Сейчас стоимость расшифровки генома такой же сложности — всего $1000.

 

 

Команда Microsoft — далеко не единственная, кто занимается исследованиями в области синтезирования и секвенирования цифровых данных. За последний год ученым удалось в тысячу раз увеличить плотность их записи. Интерес к этой области обусловлен двумя причинами.

Первая причина — эти технологии позволяют создавать хранилища с крайне высокой плотностью записи данных. В молекулу размером с крупицу соли вмещается 200 МБ, в молекулы объемом с кубик сахара-рафинада способны поместиться все данные, которые хранятся в одном дата-центре, а в объем размером с коробку под обувь — все данные, которые находятся в интернете на сегодняшний день.

Вторая причина — данные, записанные в ДНК, можно будет прочесть через тысячи лет. Во-первых, ДНК — это такой тип хранилища, который не меняется. Он будет актуален всегда. Не нужно будет добиваться совместимости стандартов, как это происходит обычными технологиями хранения данных на магнитных, оптических и прочих накопителях. Во-вторых, ДНК очень долго хранится не разрушаясь — тысячи лет.

Подписывайтесь на Квибл в Viber и Telegram, чтобы быть в курсе самых интересных событий.