自从互联网的“大爆炸”时刻以来,档案保持者一直在努力跟上其蓬勃发展的内容。是时候改变规则了。
28年前的这个月,我登陆了万维网。首先,在我的朋友中——以及在世界各地最初的几千个网络用户中——我探索了一个内容的小宇宙。
但是,在谷歌这个几年后才出现的工具出现之前,网络冲浪者是如何找到任何东西的呢?
一开始有一个列表:只是一个网页的名字和链接到网站,坐在欧洲核子研究中心网站- - -第一个网站,也是网络的发源地。
我顺着这个列表,有条不紊地点击一个又一个链接,探索加载到我的“浏览器”中的网站,然后继续下一个。当我完成这个列表的时候,另一个列表出现了,这个列表是由国家超级计算机应用中心(NCSA)主办的。几乎和CERN一样有名的是,NCSA给了世界上第一个广泛使用的浏览器Mosaic。NCSA的名单与CERN的名单有很多重叠之处,但每天都会有一些新的网站出现在名单的底部,所以我又花了一两天的时间访问了所有的网站那我还没去过的地方
七天之内,我就完成了。我上网整个网络。
有几个月的时间,我设法跟上新网站在NCSA名单上的出现,并为自己能跟上这一惊人的新技术而感到自豪。但到1994年2月底,每天都有更多的网站出现在这个列表上,我都没有时间去探索。不久之后,该名单的维护者就认输了——网络的指数级增长意味着没有任何档案管理员能希望跟上它的步伐。
1994年初,两个有进取心的斯坦福大学学生(不,不是拉里和谢尔盖)建立了“杰里和戴夫的万维网指南”,这个兼职项目迅速成长为第一家互联网“独角兽”:雅虎。用图书管理员的方式来处理早期网络中“太好了”的东西,雅虎!让你选择你的类别,然后是你的子类别,甚至可能是你的子类别和子类别,留给你一个你可以在空闲时检查的网站列表,每个都致力于你感兴趣的子子类别。
它花了18个月的时间,以指数级的增长压倒了雅虎!的分类搜索;每个sub-sub-sub-sub-sub类别的网站列表太长时间去探索。在这一点上,我开始保存链接列表——“书签”——就像面包屑路径一样,引导我回到我最喜欢的网站。当名单长到一定程度时,我挑选了精英中的精英,把他们收集到一个名单里,名字是石头,星星和金子,然后把它们写在纸上在我的网站上。
互联网上的网站数量
- 1991(万维网发明):10
- 1994 (Yahoo !启动):约3000
- 1998年(谷歌推出):大约240万
- 2004年(Facebook成立):大约5160万
- 今天:大约17亿
来源:Statista
现在访问这个列表并从上到下有条不紊地工作,只有大约五分之一的链接加载了他们在1995年指向的页面。他们中的大多数都是一无所有,或者是有相同的名字,但完全不同的东西。在不到一代人的时间里,我对早期网络的印象——非常个人化、具体而有意义——几乎已经消逝。
术语“链接失效“这可能不是什么新概念——这个概念可以追溯到网络的最初十年——但大多数人不会知道,网络的设计就是为了尽力防止链接的过早死亡。”的统一资源定位符,或URL,被网络创造者蒂姆·伯纳斯-李爵士定义为“不可变的”——它绝不能改变。一个URL只被分配一次——一个指向页面、一张照片或一个播客的指针——仅此而已。该URL总是指向那些部分。至少理论上是这样。不幸的是,不可变url立即陷入了困境。从那一刻起,腐败开始了。
梦想家Brewster Kahle几乎立刻就发现了问题。1996年,他是极冰原(广域信息服务器)建立了互联网档案馆,并开始了有系统的备份整个网络。“如果一份文件每44天就消失一次,你怎么能引用它呢?”他问道,用他的网络备份为一个叫机器Wayback-一项旨在消除腐败的技术。在Wayback Machine中输入一个失效的URL,它就会显示给你所有回溯到25年前第一次扫描的时候。
通过Wayback Machine,我发现很多(可能是大多数)这些网站都可以恢复。链接本身可能是死的,但这些链接曾经指向的页面和图像会继续存在。如果我愿意,我可以用链接重新创建我的页面,利用Wayback Machine,给列表注入活力。然而,这可能不足以防止一种更有害的链接腐烂形式。
一个最近的一篇论文一组美国研究人员的研究表明,即使是对网络的良好备份也可能没有抓住重点。“网络档案到哪里去了?”详细介绍了从2017年到2019年的14个月里,四个网站档案馆(幸运的是,互联网档案馆不在其中)改变了自己的网址。尽管出于好意,但这些更改破坏了指向这些档案中的内容的许多url。存档是很好的——当然比丢失数据要好。而是一个不提供不可变url的存档它的数据,好吧,这是峰值链接腐烂。
现在,我们每时每刻都在生成如此多的数据——通过智能手机、可穿戴设备、Zoom通话等等——以至于存档不再是一种奢侈。没有档案,我们就失去了与过去数字时代的联系。当我在网上搜索关于第一次国际万维网会议,我参加了1994年5月在欧洲核子研究中心举行的会议。这是计算机史上最重要的事件之一:互联网的“大爆炸”时刻,关于这一事件的文档很少,照片也很少。为什么?答案是显而易见的:这次会议是在互联网兴起之前召开的。我们用来记录、纪念和分享经验的媒介根本不存在。它是后来才由参加会议的300多名研究人员提出的。
那次缺席给我留下的阴影告诉我,如果我们不小心,我们可能会失去与过去的联系。这些数据可能还在某个地方,但可能很难定位,以至于大多数人会干脆放弃自己,陷入一种永久的数字健忘症。在一千九百八十四年乔治·奥威尔(George Orwell)曾写道:“谁控制了过去,谁就控制了未来。”我认为忘记过去的人不会有未来。
我们每天添加的所有档案——在Facebook上分享的照片、在YouTube上上传的电影、在Twitter上发布的谩骂,等等——意味着这个威胁几乎触及了我们所有人。我们能做什么?我们可以要求不变性永久.任何在网上发布信息的组织都应该保证,即使他们修改了现有的系统数据将永远可用和可访问,通过相同的url。我们不能让历史烂掉。它不需要发生,也不应该发生。如果我们想搞清楚我们是怎么走到这一步的,以及我们要去哪里,就不能。
马克Pesce
马克Pesce发明了网络技术对3 d,写了七本书,七年来法官在美国广播公司的“新发明家”,南加州大学研究生项目和AFTRS创立,拥有荣誉任命悉尼大学是一个multiple-award-winning专栏作家登记,IEEE笔另一列,是一位专业的未来学家和公众演说家。Pesce主办了获奖的“下一个十亿秒”和“本周澳大利亚创业”播客。