为不让朋友圈失传 这群人正在备份整个互联网(组图)



《银河系漫游指南》的作者道格拉斯·亚当斯曾提出一个有趣的科技三定律:



任何在我出生时已经有的科技都是稀松平常的世界未来秩序的一部分;任何在我 15-35 岁之间诞生的科技都是将会改变世界的革命性产物;任何在我 35 岁之后诞生的科技都是违反自然规律要遭天谴的。这三个定律调侃了人因为年龄增长对新事物的接受程度下降,而互联网的快速发展进一步加速了这个过程。如今两代人的代际划分从 10 年缩短到 5 年甚至更短,95 后甚至可能已经听不懂 00 后「黑话」,对于一出生就处于互联网时代的年轻人,不会再看着同一部电视剧、动漫、小说长大,因此拥有的共同回忆也会越来越少。



▲你看懂上面这段对话了吗互联网加速了人与人的代沟,带来的另一个影响就是,互联网的记忆更快的被遗忘。有统计称网页的平均寿命约为 100 天(实际观感更短),80 后 90 后的青春随时可能因为天涯和网易博客这些平台的关闭而消散,没人预计现在流行的社交平台能不能活到你百年归老。「互联网之父」 Vint Cerf 对于「21 世纪会成为信息黑洞」的担忧,正在成为现实。与此同时也有一批网民如西西弗斯般打捞着互联网角落的碎片,来对抗互联网的易逝性。

活在互联网侏罗纪时期的第一代网民最近在国外论坛 Reddit 上出现了一个有意思的帖子,让一些「老龄网民」告诉现在的年轻人,如果真的生活在那个年代会遭遇什么挑战。



其实 web 1.0 年代至于距今才不到 30 年 ,但已经是互联网的侏罗纪时代。在那个网页「只读」的年代,人们无法在网上记录自己的状态,因此现在要了解早期网民的生活状态只能依靠这些「互联网活化石」。不信你来看看 Reddit 那个帖子上的几个热门回答,如果你有共鸣,那一定也不年轻。



你一定不知道拨号上网有多么痛苦!除了要忍受烦人的噪音,还要等待 8 分钟才刷开一个一个网页,如果你的家人在中途拿起了电话,那前面的等待就白费了。当第一代网民在拨号上网的时候,BAT 都还没面世,可以浏览的网站也寥寥。网上的聊天室也只有两个功能:群聊和单聊。



至于网购、音乐和影视流媒体服务当然也不可能出现了,因此当时的人们的生活状态是这样的:



如果一款商品没有出现在你所在社区附近的连锁商店的货架上,那么你不仅买不到它,甚至根本不会知道它的存在。人们很讨厌商业广告,但这几乎是大多数人了解新商品的唯一方式。当你在电台听到一首喜欢的歌曲时,你最好希望 DJ 会把歌名告诉你,否则你可能永远不知道这首歌的名字。如果你在电视里看到一部即将上映的电影,你只有走进电影院才能看到这部电影的预告片。不过,这也意味着要盗窃一首歌曲一部电影的话,必须冒着进店行窃的风险,而不是动动鼠标就能完成。



▲还记得自己买的第一盒磁带吗?这些老龄网民的只言片语,拼凑起这代年轻人对那个年代互联网生活的印象,而国内则兴起了类似@千禧 bot 这样以怀旧为主题的社交账号。正如该账号置顶帖子所写的,「想从 20 和 21 世纪的裂缝中打捞一些有趣的东西,旨在分享一些属于 90 年代末和 00 年代初的记忆。」



在这个以 Windows 98 开机页面为头像的账号下,可以看到各种小时候流行的物品,比如数码暴龙机和拓麻歌子,每条微博下都成了无数 80 后 90 后分享怀旧记忆的场所。



这些帖子将很多互联网原住民没听过的事物带到互联网上,这些老网民贡献了一段段互联网往事的口述史,只是这些记录终究是碎片化的,在快速刷新的社交媒体时间线下很快被淹没。于是有另外一些网民开始尝试更有体系地来记录和保存着互联网上的一切。



互联网历史记忆的守护者不久前一位叫做 Clash-Cash-Car 的豆瓣网友的故事在网上流传开来,感动了不少人。在《好奇心日报》一篇介绍黑胶工作室的报道中,提到了 Clash-Cash-Car 的故事:



曾有个叫作 Clash-Cash-Car 的人,他从 2008 年开始往豆瓣不断增添音乐条目,为之前从未被人听过的唱片建立标签,规模前所未有,是一个有点传奇的人。2008 年-2016 年,「Clash-Cash-Car1」在网站资料库内建立 6108 个音乐条目,标注共 371 个派别,「没人知道他是如何找到这些音乐的,可能下载,或者黑胶和 CD」。2016 年,网友得知他去世。他的真实职业是一名保安。当一位豆瓣网友把这张报道截图发到豆瓣广播后,引发了很多豆瓣网友对 Clash-Cash-Car 的讨论,一位豆瓣网友把 Clash-Cash-Car 称为「中华音乐圈的扫地僧」。



用这位豆瓣网友的话来说,Clash-Cash-Car 对于互联网最大的贡献是将各种小众的唱片转录成 MP3 上传到下载平台,并在豆瓣给每张唱片编写了相关信息。虽然这可能涉及版权问题,但就像前段时间引起热议的盗版电影网站胖鸟电影一样,客观上促进了某种亚文化的普及,正是像 Clash-Cash-Car 这样无私分享的网友,将互联网上碎片化的信息整理成方便被索引的资料库。就像另一位「互联网活化石」和菜头所说的,「在中国互联网的古代,人们不仅只是使用互联网,那时候的人们参与建设互联网。」一代代网民的众创和分享成就了今天的互联网。不过就算是维基百科这样互联网的百科全书,所能记录的也只是互联网很少一部分。但的确有人试图备份整个互联网,那就是美国一家非营利性的数字图书馆——互联网档案馆(Internet Archive)。



互联网档案馆目标是保存人类在互联网上创造的所有文明,自从 1996 年成立至今,收集了大量的网页、视频、音频、软件和电子书,目前档案馆已经收录了超过 3510 亿个网页。其中最重要的项目叫做时光机(Wayback Machine),每个小时时光机都会通过网页爬虫抓取每一个网页并存档(声明不允许被抓取的网站除外),因此你可以访问每个网页过去每一天甚至每小时的样子,就像时光倒流一样。



▲阿里巴巴 2000 年 3 月 3 日的网页互联网档案馆还有一百多名雇员,每天在世界各地扫描数以百计进入公有领域的书籍上传到档案馆的服务器,只要是不涉及版权问题的媒体文件,都会在网站上公开供人免费下载,而互联网档案馆的口号就是:共享世间一切知识。(Universal Access to All Knowledge)在这 20 多年来,互联网档案馆已经多次突显了自己的价值。因南斯拉夫解体而失效的「.yu」域名得以保存,还有每天维基百科上大量失效的引用链接也是如此。还有 2014 年的马航 MH17 客机遭到导弹袭击坠毁后,武装领袖在社交网站上对袭击负责的帖子发布后不久就被删除,此时互联网档案馆已经将其收录到「乌克兰冲突」系列文献中。而今天一篇帖子或一篇文章因为各种原因在互联网上彻底消失的例子已经不胜枚举,而档案馆让互联网的一些历史不会因为时间而消失。



不久前昔日音乐社交巨头 Myspace 在迁移服务器时丢失了 2016 之前几乎所有用户上传的内容,所幸互联网档案馆收录了部分 Myspace 的音乐文件,才让一些音乐人早期的作品被保留下来。除了互联网档案馆,已经有越来越多的机构加入这个行列。比如 Twitter 上所有推文都会收录到美国国会图书馆,2003 年多国的国家图书馆还和互联网档案馆一起成立了国际互联网保存联盟(International Internet Preservation Consortium)。而这些每天不断备份互联网的人,自然也成了互联网历史记忆的守护者。



易逝的互联网随着互联网的普及,每天都会新增海量的数据。根据 IDC 的数据,去年中国产生的数据就有 7.6ZB( 约合 7.6 万亿 GB),到了 2020 年全球的数据量预计将达到 44ZB。



▲Google 数据中心的机房且不说是否有一个机构有能力持续备份这么大量的数据,即便可以也不意味着互联网的信息能一直完好无损地记录和传承后世。就算是互联网档案馆,对于屏蔽网络爬虫的网页也无能为力。只要在网页根目录中增加一个名为「robots.txt」的文本文件,档案馆的时光机就会停止索引该网站,比如百度就无法被收录。

除此之外,在移动互联网时代,信息被各种 app 分割成一座座孤岛,像微信、微博、抖音等主流社交平台的信息都不能通过搜索引擎找到了,也更加不会被互联网档案馆爬虫了。

keso 在《易逝的互联网》一文提到,过去由于搜索引擎和 Web 索引和缓存技术的强大,很多人认为任何内容只要曾经在互联网上出现过,就永远存在于互联网上了,然而事实并非如此。一方面对互联网重度依赖的我们几乎难以消除自己在网络上的痕迹,因此在很多公共事件发生后都会出现当事人被「人肉」的情况,但另一方面我们也很难保存各个网络平台上的个人数据,比如你无法备份和导出朋友圈和微博。这也导致大量网页或 app 的数据,随着平台的消亡而消失。最近的就有网易博客和熊猫直播,而在互联网诞生这几十年里,倒下的互联网公司已经不计其数,其中不乏积累千万级以上用户的大平台。

就算互联网平台还在,但也有可能由于各种意外导致数据丢失。比如丢失 5000 万首曲目的 Myspace ,Google 邮箱 Gmail 也曾因为一次更新中的 Bug 意外删除了 40000 多个账户的邮件。TCP/IP 协议的共同发明者之一,被称为「互联网之父」Vint Cerf 认为二十一世纪可能会成为信息黑洞,不是因为数据会丢失,而是未来的人们可能根本无法读取这些数据。Vint Cerf 表示往后 1000 年甚至更久的未来,人们可能无法把现在的数据读取出来。要知道曾在市场上占据主导地位的 WordPerfec 文件格式,Windows 系统在好几年前已经不再支持。

尽管现在云计算被认为是未来趋势,但你或许不知道包括 Google 、亚马逊和微软等提供云服务的科技公司,其实也还在使用磁带来备份海量数据。业内不少人都认为磁带会是数据储存的未来,人类备份信息的媒介从远古时代的石头,到后来的纸张、硬盘,再到云端,兜兜转转又回到了离线的磁带,互联网上的一切终究还是太容易消逝。不知道 100 年后,还能不能看到这篇文章?











推荐阅读