当前位置:首页 >> 人物|观点 >> 正文
DNA存储技术让图书馆更上一层楼
发布时间:2016/10/27 10:17:00 点击数:801 

  研究团队进行DNA数据编码工作

 

  保存100部经典文学作品和其他多种数据

  微软日前宣布,它和华盛顿大学研究人员合作,利用人工合成的脱氧核糖核酸(DNA)作为数据存储介质的技术,保存了大约200MB数据,其中包括《战争与和平》和另外99部经典文学作品、OK Go摇滚乐队的高清音乐、被译成一百多种语言的《世界人权宣言》、数字图书馆“古腾堡工程”(Project Gutenberg,简称PG)排名前100位的电子书,以及全球作物多样性信托基金的种子数据库等。

  尽管在此之前已经有研究证明数据可以被保存在DNA之中,然而没有任何研究者能一次性向DNA写入如此数量的数据。微软和华盛顿大学的研究团队成功地将4个图片文件的数据编码为人工合成DNA片段的核苷酸序列。更重要的是,他们能实现逆过程——从更大的DNA池中取回正确的核苷酸序列,重建图像,而且没有丢失1个字节的信息。

  DNA存储技术是一项着眼于未来、具有划时代意义的存储技术,它利用人工合成的DNA作为存储介质,具有高效、存储量大、存储时间长、易获取且免维护的优势。利用DNA存储数据的关键是DNA碱基,DNA这种双螺旋结构上有4个化学基团,即核碱基,它们按照特定顺序排列,组成遗传信息,指导生物体生长发育。研究人员开发的DNA数字存储系统即利用这4个碱基“字母”,开发定制代码,完全区别于生物体所用“语言”。当复制一份计算机文件时,DNA数字存储系统首先把硬盘信息中的二进制数翻译成定制代码,然后借助标准DNA合成设备创造出相应的碱基序列。这一序列并非一个长链分子,而是多个重复片段,每一个片段携带一些索引细节,以明确各自在整体序列中所处位置。这样的系统虽然显得冗余,优点是即便某些片段遭损毁,数据也不会丢失。分子生物学实验室用来读取生物体DNA的标准设备可以读取这些信息,并立刻呈现在电脑屏幕上。

  DNA存储技术作为数字存储媒介的显著优势之一是容量大。DNA分子是一种令人难以置信的密集存储介质,1克DNA能够存储大约2PB(1PB=1024TB)的内容,相当于大约300万张CD。用DNA存储数据的保存时间可能长达数千年。与硬盘、磁带等存储介质不同的是,DNA不需要经常维护。就读取方式而言,DNA存储也不涉及兼容问题。

  微软宣布已成功向数百万DNA写入了巨大的数据量,每个DNA包括150个碱基,但是没有披露DNA数据存储项目耗费的成本,而其中用到了约15亿个碱基。负责合成这些DNA的Twist Bioscience通常每个碱基的价格为10美分。商用合成技术的成本最低可以达到每碱基0.04美分,读取100万碱基的成本约为1美分。

  把美国国会图书馆“装入”DNA

  在信息存储上,硬盘完全不能和DNA相提并论。在人类的基因序列中,1克的重量就可以包含几十亿GB的数据,而1毫克分子的信息存储空间在存储了美国国会图书馆全部的书籍之后还有剩余。美国国会图书馆建于1800年,系美国的四个国家级图书馆之一,也是全球最重要的图书馆之一。作为美国历史最悠久的联邦文化机构,它已经成为世界上最大的知识宝库,是美国知识与民主的重要象征,在美国文化中占有重要地位。目前国会图书馆藏品总数达到1.3亿册(件),其中有2900万册书籍、1200万张照片、5800万件手稿,包括很多稀有图书、特色收藏、世界上最大的地图、电影胶片等。

  “微软希望在未来把利用人工合成DNA作为数据存储介质的技术和现有硅技术硬盘结合起来,创造出更安全高效的大容量硬盘。如果这一技术成熟到适合主流应用,配备当今存储密度最高的存储设备,沃尔玛超市般大小的数据中心就可能变成只有一块方糖大小,一个鞋盒那么多的DNA就足以保存100个大型数据中心的数据。”微软负责该研究项目的首席研究员卡林·施特劳斯表示,“目前DNA存储技术成本高昂,操作复杂,不过微软希望借力生物科技行业的研究成果。”

  国际数据资讯公司(IDC)预计,全球范围内保存的数字化数据到明年将达到16万亿GB,其中大部分位于大型数据中心。当前的电子存储设备发展速度赶不上数据量的增长,无法在期望的成本内保存所有信息。由于大数据应用的爆发式增长,提高存储密度已刻不容缓。DNA作为一种极具吸引力的潜在数据存储介质,具有广阔的应用前景和较高的商业价值,是生物芯片的核心元素。

  生物芯片又称蛋白芯片或基因芯片,它在生命科学研究及实践、医学科研及临床、环境保护、农业、军事等各个领域应用广泛,将产生巨大的社会和经济效益。生物芯片以及相关产品的产值有可能超过微电子芯片,成为下一世纪最尖端的高科技产业,具有巨大的商业潜力。要在DNA之中保存数据,必须把0和1数据转换为4种核苷酸,即碱基组成的序列。哈佛大学分子生物学家乔治·切奇2012年向DNA中写入了一本5万个单词、数据量不到1MB的书,随后将其印刷在比花粉粒还小的玻璃芯片上。他今年报告说,已实现了22MB数据的DNA编码。

  同样在研究利用DNA存储数据的加州大学伯克利分校博士后研究员雷因哈德·赫科尔认为,微软的成功令人关注,但是制作定制的DNA分子成本高昂,成为阻碍DNA存储技术大规模应用的主要障碍。如果希望人们接受这一技术,那么需要使这项技术的成本低于磁带。施特劳斯则对读写DNA的成本未来几年将会大幅下降充满信心,因为有证据表明这一成本的下降比过去50年中晶体管制造成本降低的速度更快。2007年,对人类基因组的测序耗资约1000万美元,但到2015年这一成本已下降至1000美元。

  磁带是目前用于长期存储数据的标准介质,随着生物技术的进步和DNA读写工具的成本下降,DNA最终有望取而代之。DNA的耐久性极好,在干燥寒冷的情况下这一优势尤为明显。今年3月,有研究人员部分重建了古人类基因,这些古人类的骨骼保存在西班牙一处洞穴里已超过40万年。作为对比,磁带保存数据只有几十年时间,随后就会老化。

  数字图书馆“古腾堡工程”

  “古腾堡工程”于1971年正式启动,是世界上最早的免费数字图书馆,旨在“推倒愚昧与无知的藩篱”,让普通大众可以在普通的计算机上使用普通的程序就很容易地阅读图书,引用和检索各种信息、著作以及其他资料。“古腾堡”的命名是为了纪念约翰内斯·古腾堡(Johannes Gutenberg),他是15世纪德国的一位印刷商,通过推广使用活字印刷术推动了印刷机的革命。截至2013年10月,PG已经收录了43000多部免费阅读书籍,平均每周新增50部。其中主要是西方文学作品,如小说、诗歌、小故事、戏剧,除此之外,PG也收录食谱、书目以及期刊。形式不但包括文本,还包括音频和视频等多媒体形式。收录的主要是英语作品,但也有相当数量的德语、法语、意大利语、西班牙语、荷兰语、芬兰语以及中文等不同语言的著作。很多不太容易找到的书能在PG发现,比如被誉为《瓦尔登湖》的姊妹篇的《垂钓高手》就可以在这里免费阅读其完整英文原版。

  (文章来源于《图书馆报》/http://124.207.48.191/epaper/tsgb/2016/08/12/A13/story/39804.shtml)


(文章来自上海大学图书馆方向明)