自从互联网的“大爆炸”时刻以来,档案保管员一直在努力跟上其蓬勃发展的内容。是时候改变规则了。
28年前的这个月,我上了万维网。在我的朋友中,在世界上最初的几千个网络用户中,我首先探索了一个很小的内容宇宙。
但是,在谷歌这个几年后才出现的工具出现之前,网民们是如何找到东西的呢?
一开始有一个清单:只有一个网页的名称和链接到网站,坐在欧洲核子研究中心网站- - -第一个网站,也是网络的发源地。
我沿着这个列表,有条不紊地点击一个又一个链接,浏览加载到我的“浏览器”中的网站,然后继续下一个。当我完成这个列表时,另一个列表出现了,这个列表由国家超级计算机应用中心(NCSA)托管。NCSA几乎和CERN一样著名,它为世界提供了第一个广泛使用的浏览器Mosaic。NCSA的列表与CERN的列表有很多重叠,但每天都会有一些新站点弹出列表的底部,所以我又花了一两天时间访问所有的站点那我还没去过的地方
只用了七天,我就完成了。我去冲浪了整个网络。
几个月来,我设法跟上在NCSA列表上出现的新网站,为自己能跟上这种惊人的新技术而自豪。但到1994年2月底,每天都有更多的网站进入这个列表,我都找不出时间去探索。不久之后,该列表的维护者认输了——网络的指数级增长意味着没有档案保管员能指望跟上它的步伐。
1994年初,斯坦福大学的两个有进取心的学生(不,不是拉里而且谢尔盖)创办了《杰里和戴夫的万维网指南》,这是一个兼职项目,迅速发展成为第一家互联网“独角兽”:雅虎。采用图书管理员的方法来处理早期网络中太多的好东西,雅虎!让你选择你的类别,然后是你的子类别,甚至可能是你的子类别和子类别,给你留下一个精心策划的网站列表,你可以在闲暇时查看,每个网站都致力于你感兴趣的子-子-子主题。
它花了18个月的时间才以指数级增长压倒雅虎!的类别搜索;每一个子-子-子-子类别都产生了一个太长而无法探索的网站列表。在这一点上,我开始保存链接列表——“书签”——就像面包屑一样指引我回到我最喜欢的网站。当这个名单变得足够长时,我挑选了最优秀的人,把他们聚集到一个名为“石头,星星和黄金”的名单中把它们写在纸上在我的网站上。
互联网上的网站数量
- 1991年(万维网发明):10
- 1994 (Yahoo !发射):大约3000
- 1998年(谷歌推出):约240万
- 2004年(Facebook成立):大约5160万
- 今天大约有17亿人
来源:Statista
今天访问这个列表,从上到下有条不紊地工作,只有大约五分之一的链接加载他们在1995年所指向的页面。他们中的大多数人什么都没有,或者有相同的名字,但完全不同的东西。在不到一代人的时间里,我对早期网络的快照——非常个人的、具体的和有意义的——几乎已经腐烂了。
术语"链接失效这个概念可能并不新鲜——这个概念可以追溯到网络诞生的第一个十年——但大多数人都不知道,网络的设计是为了尽可能地防止链接过早死亡。的统一资源定位器URL被网络创始人蒂姆·伯纳斯-李爵士定义为“不可改变的”——它不能改变。一个URL只分配一次——一个指向页面、照片或播客的指针——仅此而已。该URL总是指向这些位。至少理论上是这样的。不幸的是,不可变url很快就被归入了太难的篮子。从那一刻起,腐败开始了。
梦想家Brewster Kahle几乎马上就发现了问题。1996年,联合发明人极冰原(广域信息服务器)成立了互联网档案馆,并开始有条不紊地备份整个网络。“如果一份文件每44天就会消失,你怎么能引用它呢?他问道,用他的网络备份来驱动一个名为机器Wayback-一种旨在抑制腐烂的技术。把一个失效的URL输入时光倒流机,它就会告诉你所有它对该网页的备份,一直追溯到25年前第一次扫描的开始。
使用时光倒流机(Wayback Machine)在我1995年最受欢迎的80%失效链接列表中,我发现许多(可能是大多数)网站都可以恢复。这些链接本身可能已经死亡,但这些链接曾经指向的页面和图像仍然存在。如果我愿意,我可以用利用Wayback Machine的链接重新创建我的页面,为列表注入活力。然而,这可能不足以防止更有害的链接腐败。
一个最近的一篇论文一组美国研究人员的研究表明,即使是一个好的网络备份也可能会错过重点。“网络档案去哪儿了?”详细描述了四家网络档案馆(幸运的是,互联网档案馆不在其中)的命运,它们在2017年至2019年的14个月里改变了自己的url。尽管初衷是好的,但这些更改破坏了许多指向这些归档中的内容的url。存档是很好的——当然比丢失数据要好。而是一个不提供不可变url的存档它的数据,嗯,那是峰值链接腐烂。
我们现在一直在生成如此多的数据——智能手机、可穿戴设备和Zoom电话等等——存档不再是一种奢侈。没有档案,我们就失去了与数字时代过去的联系。当我在网上寻找有关的资源时,我发自内心地了解到这一点首届万维网国际会议会议于1994年5月在欧洲核子研究中心举行,我也参加了。关于这一事件的记录非常少,只有几张照片,这是计算史上最重要的事件之一:网络的“大爆炸”时刻。为什么?答案几乎太明显了:这次会议是在网络兴起之前举行的。我们用来记录、纪念和分享我们经历的媒介根本不存在。它是后来由参加会议的300多名研究人员提出的。
这种缺失给我留下的阴影告诉我,如果我们不小心,我们可能会失去与过去的联系。这些数据可能会留在某个地方,但可能很难找到,以至于大多数人会陷入一种永久的数字失忆症。在一千九百八十四年乔治·奥威尔(George Orwell)曾写道:“谁控制了过去,谁就控制了未来。”我认为那些忘记过去的人不会有什么未来。
我们每天添加的所有档案——我们在Facebook上分享的照片、上传到YouTube上的电影、在Twitter上发布的谩骂等等——意味着这种威胁几乎涉及到我们所有人。我们能做什么?我们可以要求永远不变.任何发布到网络上的组织都应该保证,即使他们修改了他们的系统,仍然存在数据将永远保持可用和可访问,通过相同的url。我们不能让历史烂掉。它不需要发生,也不应该发生。如果我们想知道我们是怎么走到这一步的,又要去哪里,那就不行。
马克Pesce
Mark Pesce发明了网络3D技术,写了七本书,在ABC的“新发明家”节目中担任了七年的评委,在南加州大学和AFTRS建立了研究生课程,在悉尼大学获得荣誉任命,是the Register的多次获奖专栏作家,为IEEE Spectrum撰写另一个专栏,是专业的未来学家和公众演说家。Pesce主办了屡获殊荣的“下一个十亿秒”和“本周澳大利亚初创公司”播客。