全球每年产生的数据需要 4180 亿个 1TB 硬盘才能放下,若是把如此庞大的数据放到 DNA 上,只需 1kg DNA 就够了!最近一家公司将 16G 的维基百科存储在了一个 DNA 分子上让人惊叹,DNA 存储已成为最受关注的新兴技术之一,「我,就是数据」时代即将来临。
「我,就是数据」时代悄然将至。
在科幻大片《超体》中,「女超人」Lucy 凭借药物的作用,大脑不断被开发,获得了包括心灵感应、瞬间吸收知识等技能。当大脑开发到 100% 时,已然达到了「I am everywhere」的至高境界。
▲ Lucy 最终化身为超级「U 盘」
而目前我们正处于数据爆炸增长的时代,现存的硬盘、3D 内存芯片等数据存储方式已然出现「负荷过重」的迹象。若是要存储全球的数据似乎是一件较为棘手的事情,更不要提做到像 Lucy 那般集「全宇宙数据于一身」了。
一种新的方式便应运而生——DNA 数据存储。
其实,这种尝试早就已经开始了。
去年年底,法国一位 16 岁高中生 Locatelli 便将《古兰经》和《圣经》中的部分内容注入到了自己体内。把希伯来语和阿拉伯语的字符转换成 DNA 碱基的特定组合,然后用购买的病毒编辑到 DNA 链里,最后用注射器注入自己的大腿 (详细内容见文末附录)。
除了这位高中生之外,上周,一家位于波士顿的初创公司 Catalog 宣布,他们将维基百科英文版一共 16G 的所有文本存储在了一个 DNA 分子上!
▲ 里面就是储存了 16G 维基百科的 DNA
他们相信生物分子的寿命将比最新的计算机存储技术长得多。
16G 的维基百科,只需一个 DNA 分子便可轻松存储
计算机存储技术已经从带磁铁的电线变成了硬盘,变成了 3D 存储芯片。但是下一代存储技术可能会使用与地球上的生命一样古老的方法:DNA。
初创企业 Catalog 近日宣布,维基百科英文版的所有文本都被塞进了我们身体使用的相同基因分子中。也就是说,他们将维基百科英文版一共 16G 的所有文本存储在了一个 DNA 分子上!
Catalog 用它的第一台 DNA 书写器完成了这项壮举。
▲ Catalog 的 DNA 写入机可以以每秒 4 兆比特的速度写入数据,但该公司希望使其速度至少提高 1000 倍。
至于说这个 DNA 书写器有多大,呃,如果你先把家里的冰箱、烤箱扔掉,再打掉一部分橱柜,这台机器就可以很容易地安装在你的房子里啦(机器的大小与一辆现代 SUV 差不多)。尽管它不太可能很快就将手机的闪存芯片推到一边,但 Catalog 认为,它对一些需要存档数据的客户已经很有用了。
DNA 链很小,很难管理,但是生物分子可以存储除了控制细胞如何变成豌豆植物或黑猩猩的基因以外的其他数据。Catalog 使用了比人类 DNA 短但更多的预制合成 DNA 链,因此它可以存储更多的数据。
依靠 DNA 而不是最新的高科技小型化设备来存储可能听起来像是倒退了一步。但是 DNA 是紧密的,化学上是稳定的,而且因为它是地球生物学的基础,它可能不会像硬盘驱动器或 CD 那样过时,也不会像软盘驱动器那样消失。
谁在市场上购买这种存储?Catalog 有一个合作伙伴要宣布, Arch Mission 基金会正试图将人类知识储存在不只是在地球上,甚至在太阳系的其他地方——就像 SpaceX 发射到轨道上的 Elon Musk 的 Tesla Roadster 一样。除此之外,Catalog 还未透露其他客户是谁,或者是否会为其 DNA 写入服务收费。
该公司在一份声明中说:「我们正在与政府机构、产生大量测试数据的主要国际科学项目、石油天然气、媒体和娱乐、金融和其他行业的主要公司进行讨论。」
总部位于波士顿的 Catalog 拥有自己的设备,可以在 DNA 中每秒记录 4 兆比特的数据。优化的速度应该是当前速度的三倍,让人们在一天内记录 125 千兆字节——大约相当于高端手机可以存储的容量。
传统的 DNA 测序产品已经在生物技术市场上销售,可以读取 DNA 数据。「我们认为这一全新的序列技术用例将有助于(大大)降低成本,」Catalog 认为计算业务是一个潜在的巨大市场。
Catalog 首席执行官 Hyunjun Park 和首席技术创新官 Nathaniel Roquet 于 2016 年创立了这家公司。当时,Park 是麻省理工学院的博士后,Roquet 是哈佛大学的研究生。
Catalog 使用寻址系统,这意味着客户可以使用大型数据集。即使 DNA 以长序列存储数据,目录也可以使用分子探针读取存储在任何地方的信息。换句话说,它是一种像硬盘一样的随机存取存储器,而不是像半个世纪前大型计算机鼎盛时期的磁带盘那样的顺序存取。
尽管 DNA 数据可能会被宇宙射线破坏,但 Catalog 认为它是一种比其他方法更稳定的介质。毕竟,我们有几千年前灭绝动物的 DNA。我们打个赌,你抽屉里的 U 盘在 25 年后还会用吗?
DNA 存储数据的意义何在?
近日,《科学美国人》与世界经济论坛联合发布了 2019 年全球十大新兴技术,其中一项就是用 DNA 储存数据。那么,用 DNA 存储数据的意义何在呢?
据软件公司 Domo 称,2018 年,谷歌每分钟进行 388 万次搜索,人们在 YouTube 上观看了 433 万个视频,发送了 159362760 封电子邮件,推特了 47.3 万次,在 Instagram 上发布了 49000 张照片。
到 2020 年,全球人均每秒将产生大约 1.7 兆字节的数据,假设世界人口为 78 亿,这相当于每年约 418 个 zettabytes。这么多的数据如果放在容量为 1TB 的硬盘上,需要 4180 亿个硬盘才能放下!
如果是这样的话,目前的数据存储系统通撑不过一个世纪。此外,运行数据中心需要消耗大量的能量。简而言之,我们将面临一个严重的数据存储问题,随着时间的推移,这个问题将变得更加严重!
因此,硬盘存储的一种替代方案——基于 DNA 的数据存储才显得尤为重要。由核苷酸 A,T,C 和 G 的长链组成的 DNA 是生命的信息存储材料。数据可以按照这些字母的顺序存储,从而将 DNA 转变为一种新的信息技术形式。
它已经过常规排序(读取),合成(写入)并且可以轻松准确地复制。DNA 也是非常稳定的,正如生活在 50 多万年前的化石马的完整基因组测序所证明的那样,存储它不需要太多能量。
但是,DNA 的存储容量是让人惊讶的。DNA 可以以远超过电子设备的密度精确存储大量数据。例如,根据哈佛大学 George Church 及其同事于 2016 年发表在「Nature Materials」杂志上的计算,简单的大肠杆菌的存储密度约为每立方厘米 1019 比特。
在这样的密度下,一个边长约一米的 DNA 立方体可以很好地满足全世界一年的数据储存需求,换个维度讲,1kg DNA 就能储存全球数据。
▲ 全球数据只需 1kg DNA 就能储存
DNA 数据存储的前景不仅仅是理论上的。例如,2017 年,哈佛大学的 Church 小组采用 CRISPR DNA 编辑技术,将人手的图像记录到大肠杆菌的基因组中,并以高于 90% 的准确率读出。华盛顿大学和微软研究院的研究人员已经开发出一个完全自动化的系统,用于编写、存储和读取 DNA 编码的数据。包括微软和 Twist Bioscience 在内的一些公司正在致力于推进 DNA 存储技术。
与此同时,DNA 已经被研究人员用来以不同的方式管理数据,这些研究人员努力处理海量的数据。新一代测序技术的最新进展使得数十亿个 DNA 序列可以轻松同时读取。有了这种能力,研究人员可以使用 DNA 序列的条形码作为分子识别「标签」,以跟踪实验结果。DNA 条形码正被用于大大加快化学工程、材料科学和纳米技术等领域的研究步伐。例如,在佐治亚理工学院,James E. Dahlman 的实验室正在迅速确定更安全的基因疗法;其他人正在研究如何对抗耐药性和防止癌症转移。
使 DNA 数据存储变得通用的挑战之一是读取和写入 DNA 的成本和速度,如果要与电子存储竞争,则需要进一步降低这些成本和速度。即使 DNA 没有成为一种无所不在的存储材料,它几乎肯定会被用来以全新的方式生成信息,并长期保存某些类型的数据。
DNA 能够存储数据,是否也可遗传?
前不久,新智元报道了一篇文章——顶级学术期刊《CELL》同日连续发表两篇重磅文章,研究人员在对线虫的研究中发现,记忆可以被遗传,甚至持续 3-4 代!
在 2016 年的 SXSW 大会上,南加州大学教授 Theodore Berger 宣布了一个轰动整个科技界的消息:
在对猴子、老鼠的实验中,通过人造海马体完成了短时记忆向长期储存记忆「几乎完美」的转换,这项技术可以完成对人脑记忆的备份,并复制到其他人的大脑中。
这就意味着记忆有可能「遗传」给后代。
而近日,爱思维尔 (Elsevier) 出版公司旗下的细胞出版社 (Cell Press) 杂志《CELL》同日发表了两篇重磅文章——记忆居然真的可以遗传!
▲ 文章地址:https://www.cell.com/cell/fulltext/S0092-8674(19)30448-9
▲ 文章地址:https://www.cell.com/cell/fulltext/S0092-8674(19)30552-5
这两项重磅的研究结果表明:至少在线虫 (C.elegans) 这样的生物中,记忆可以被遗传,且可以维持 3-4 代。堪称颠覆认知!
记忆的遗传,或是另一种「永生」?
纵观历史,有无数人在寻找着永生不死的方式——他们或修炼自己的精神世界,或求助于丹药、或修建宏伟的寝陵,想以此实现精神的延续和永存,但无一成真。
今天,我们借助科学发现,人们对「永生」的研究也不断在持续着。
新智元此前报道过《Nature 重磅封面:复活死亡大脑!》——耶鲁大学的最新研究表明,猪大脑在死亡 4 小时后成功复活,并维持了至少 6 小时。
这项研究掀起了一波道德伦理的舆论浪潮,有人担心这是否就会是僵尸启示录的开始;但同时还有人认为,让一些伟人的大脑复活,实现意识和记忆的「永生」,将具有重大的意义。
而这次科学家们的发现可谓是颠覆了我们的认知。
原来信息竟然可以通过神经代代相传,加之这次 DNA 可以存储海量数据,不知道这是不是另一种「永生」的方式呢?
附:16 岁高中将《古兰经》和《圣经》注入体内
去年年底,法国一位 16 岁高中生 Locatelli 将《古兰经》和《圣经》中的部分内容注入到了自己体内。他将文本转换成了 DNA,并注射到了自己的大腿上。
12 月 3 日,他还将这项实验的文章发表到了 Open Science Framwork(OSF) 上。
▲ 论文地址:https://osf.io/yj8xw/
从逻辑上来讲,这项壮举并不难。Locatelli 首先用一个基本的系统将文本翻译为构成 DNA 的核酸。
在圣经《创世纪》中,他将 22 个希伯来字母转换成四种可能的核酸:胞嘧啶、胸腺嘧啶、鸟嘌呤或腺嘌呤。胞嘧啶和胸腺嘧啶分别代表五个字母,鸟嘌呤和腺嘌呤分别代表六个字母。
▲ 这张表是从《古兰经》的独立 (isolated) 字母中汲取灵感而开发的
在阿拉伯语文本中,Locatelli 去掉了 28 个字母中的 5 个,并给了其中 3 个独特的核酸,允许 Ra 和 Sad 共享胸腺嘧啶。在这两种情况下,Locatelli 都忽略空格、标点符号和变音符号。
▲ 这张表的灵感来自希伯来字母和 DNA 密码表
然后,他分别从 VectorBuilder 和 ProteoGenix 公司购买了定制的 DNA 链,以及用于将新 DNA 插入细胞的良性病毒。他买了一些生理盐水和注射器就出发去参加了比赛。注射后,他只出现了轻微的过敏反应。
Locatelli 说:「我做这个实验是为了宗教和科学之间和平的象征。」
但是,加州大学洛杉矶分校的生物化学家 Sriram Kosuri 表示,他不能确定 Locatelli 的方法是否真的有效; 无法评估病毒载体是否成功地将合成的 DNA 导入了 Locatelli 细胞。
这位少年的研究确实表明,在 DNA 中存储任何类型的信息并不是一件很难的事情。这是一种非常高效的存储方式,这就是为什么科学家们一直把它看作是在紧凑空间中安全存储大量数据的一种方式。
到目前为止,尽管生物技术公司正在竞相寻找更便宜的方法,但制造用于数据存储的合成 DNA 的成本高得令人望而却步。
当然,商业存储的目标是能够将其转换回可用的信息。从理论上讲,如果新的 DNA 被正确地植入 Locatelli 的细胞中,细胞会像他自己的 DNA 一样复制,也就是说他自己进行了基因编辑,那么基于文本的 DNA 就可以被翻译成文本。
然而,这可能并没有发生。最先进的医学研究刚刚开始开发基因疗法。即使人工合成的 DNA 被保存下来,最初的文本转换也非常不精确,很难重现真实的文本。
参考链接:
[1]https://www.cnet.com/news/startup-packs-all-16gb-wikipedia-onto-dna-strands-demonstrate-new-storage-tech/
[2]https://qz.com/1508028/a-teen-injected-dna-coded-with-the-bible-and-quran-into-his-leg/
[3]https://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room
[4]https://www.vice.com/en_us/article/wj3yy9/this-teen-translated-a-bible-verse-into-dna-and-injected-it-into-himself
[5]https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496