在这个404时代,你是否在为有价值的博文/网页/微信号文章转眼之间就消失不见而烦恼。
虽然使用印象笔记这一类云笔记软件,可以很方便的将网页保存到笔记软件中,就算是404了,也还可以看笔记软件中的存档。
但是如果你知道一篇文章时,它已经404了,那又该怎么办?
你可能会说,那就只能找一找看有没有残存的转载或者截图,再看一看各大搜索引擎有没有缓存,如果都没有的话,那也是没办法了。
其实你还有一个更优雅的选择,那就是互联网档案馆(Internet Archive)这样的网页存档。 当然由于众所周知的原因,这个网站必须要翻墙后才能访问。
Internet Archive
你可能会好奇互联网档案馆(Internet Archive)是什么?
对于这个问题,直接引用维基百科作为回答。
互联网档案馆(英语:Internet Archive)是一個非營利性的數位圖書館组织。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供數字資料如網站、音樂、動態圖像、和數百萬書籍的永久性免費儲存及獲取。迄至2012年10月,其信息儲量達到10PB。除此之外,該檔案館也是網絡開放與自由化的倡議者之一。
其數據是由自帶的網絡爬蟲自動搜集的,其網站典藏檔案館網站時光機,抓取了超過1500億的網頁。
简单的讲“互联网档案馆”就是一个专门保存网页历史的网站。
下面我将简单介绍如何使用互联网档案馆, 如何查询互联网档案馆中的网页存档, 如何将一个网页保存到互联网档案馆。
查询存档

互联网档案馆
打开 Internet Archive ,在最上方输入你要查询网页的url,如果存在存档,点击相应的存档即可。
如果不存在存档,Internet Archive可能会提示你 Save this url in the Wayback Machine。 此时直接点击此链接即可保存此网页。

点击 Save this url in the Wayback Machine
这也是最简单的保存网页的方法了。
另外,也可以使用书签或者浏览器插件查询网页存档,这部分内容请继续阅读下文。
保存网页
方法一:存档查询页
在查询存档页中直接保存,可以参考上文。
方法二:web页面
如果一个网页已经有了存档,方法一是无法奏效的,于是我们需要方法二。

互联网档案馆 web 页面
打开互联网档案馆 web 页面:https://archive.org/web/
将要存档的网页URL粘贴至 Save Page Now 文本框中(网页右下角)。
点击 SAVE PAGE 按钮(或者直接敲回车键)。
等待互联网档案馆抓取网页。

互联网档案馆正在抓取网页…
方法三:书签
是不是觉的方法二有点太麻烦了,浏览器书签是一个更为简单快捷的方法。
将上面的两个书签直接拖动到浏览器标签栏中。

将按钮拖动到标签栏中
之后如果想要将一个网页存档到互联网档案馆,直接点击标签栏中 Save Page to Internet Archive
标签即可。
如果想要查询一个网页的存档,直接点击 Go wayback
标签即可。
方法四:浏览器插件
方法三使用久了,你会发现,对于有些网站标签栏中的书签好像不怎么好使,点击了书签,但一点反应都没有。
比如说,你打开 GitHub,然后点击 Go wayback
,但是并没有打开相应的存档页,这是怎么回事呢?
(不同浏览器中的表现可能不同,本人电脑上Chromium可以打开相应存档页,但Firefox无法打开)
按下 F12 ,原来是 Content Security Policy 在搞鬼。

Console

Response headers
对于这样的网页该如何方便存档呢?
这时候就是浏览器插件上场的时候了。
首先,根据浏览器种类安装相应的插件, Chrome、 Firefox。

插件界面
安装完成后,需要存档网页时直接点击 Save Page Now
按钮即可。
通过 Recent Version
、First Version
按钮,你可以很方便的查看当前网页最近一个存档以及最初的存档。

打开王垠《更新一下》博文时的界面
这个插件还有一个非常棒的功能。
如果你打开的网页已经404了,但是互联网档案馆中存有这个网页的存档,将会弹出一个悬浮窗。
此时,你可以点击 Click here to see archived version
按钮,查看存档版本。
archive.today
上面介绍了互联网档案馆,下面我将介绍另外一个好用的存档网站:archive.today。
照例引用维基作为介绍:
archive.is(舊名為archive.today)是一個私人資助的數位時間囊網站,資料中心位於歐洲法國的北部-加来海峡。這個網站典藏檔案館使用Apache Hadoop與Apache Accumulo軟體。它可以一次取回一個類似於WebCite的小於50MB的頁面,但收錄Google地圖與Twitter。

archive.today 主页
archive.today 的主页布局非常的简单。
在上方的文本框中输入网页URL进行存档,在下方文本框中输入网页URL查询存档。一目了然,浅显易懂。

保存网页中…

查看存档
为了方便将网页保存至 archive.today,你可以使用下面这个书签,使用方法同前。
需要保存网页时,直接点击标签栏中 archive.today
书签即可。
不过可惜的是 archive.today 并没有一个官方浏览器插件。
archive.today 相较 Internet Archive 的优势
archive.today 与 Internet Archive 都可以存档网页,但 archive.today 相较 Internet Archive 有以下几点优势。
无须遵循 Robots 协议
Internet Archive 抓取网页时遵循 Robots 协议 ,如果网站在 robots.txt 中声明禁止搜索引擎抓取,那么 Internet Archive 将拒绝存档该网站。
所以对于微信公众号,你是无法用 Internet Archive 进行存档的。
微信公众号产出的内容占中文世界的半壁江山,而且由于种种原因,微信公众号文章是404的重灾区,更是应当被及时存档。
archive.today 的优点此时体便现出来了。
可以加载动态内容
现在越来越多的网站选择动态加载内容。
对于动态加载的网页,Internet Archive 存档的效果不是特别好。 而 archive.today 在保存网页时会摸拟浏览器进行抓取,因此对于动态内容有更好的支持。
可以从 Google cache 中存档网页
如果一个网页已经消失了,短时间内还可以通过 Google cache 查看到这篇文章。
archive.today 另一个优点就是可以从 Google cache 中存档网页,给已经被删掉的网页一个保存下来(抢救)的机会,例如这个网页。
养成随手存档好习惯
在这个404时代,养成随手存档好习惯是非常重要的。 因为很多有价值的文章往往存活不了多久,就被删了,成为404海洋中的一员。
随手存档,不仅仅造福自己,更是造福大众。
就比如说上文举例时引用的王垠博文,如果不是不知名的前辈,趁其还在时将其存档于互联网档案馆。那么我现在想要看这篇文章,只能费力找不知是否为原文的转载或截图。
所以我们的口号是:消除404,人人有责。随手存档,造福你我。人人为我,我为人人。
需要存档的场景
下面提出几个我认为需要存档的场景:
涉及敏感话题的有价值文章。
在长毛象、推特、微博、知乎等社交媒体发文时,存档被引用的网页(尤其是涉及敏感话题时)。
高价值、有意思的文章。
自己喜欢的内容。
对于第二点,可能有一点不太好理解,在这里解释一下。

我的一则嘟文
上面是我之前发布的一个嘟嘟的截图,里面引用了新华社的两个网页。
你是否有过这样的经历,在社交媒体上看到某人推荐一篇文章,但你点开链接时,发现链接的目标已经404,消失不见了。
第二条的意思便是,当你在发文之前,随手存档被引用的网页。这样就算是链接404了,对方也可以从互联网档案馆中看到原链接的内容。
微信公众号的问题
微信公众号真是一个奇葩的东西,但由于其体量,还不能无视它。
在存档微信公众号文章时,请存档文章的永久链接。
由于微信奇葩的反爬策略,你从搜狗中搜到的公众号文章都是长成这样子:
这样子的链接就是暂时链接,这种链接有一定的时效,过期之后就无法访问了。所以在存档之前,请将其转换为永久链接。
另外,在社交媒体发文时也请使用永久链接。

复制链接
将上面的长链接复制到手机微信中打开,然后点击 分享按钮 --> 复制链接,即可获得短的永久链接。
结语
写到这里,本文基本上写完了,如果有什么疑问可以直接在下方留言。
另外,为了可持续发展,也请在自己能力范围内向 Internet Archive、archive.today 捐款支持。