如何存档一个网页？

无影人 | 2019-01-25 19:27 | 如何xxx 存档网页

在这个404时代，你是否在为有价值的博文/网页/微信号文章转眼之间就消失不见而烦恼。

虽然使用印象笔记这一类云笔记软件，可以很方便的将网页保存到笔记软件中，就算是404了，也还可以看笔记软件中的存档。

但是如果你知道一篇文章时，它已经404了，那又该怎么办？

你可能会说，那就只能找一找看有没有残存的转载或者截图，再看一看各大搜索引擎有没有缓存，如果都没有的话，那也是没办法了。

其实你还有一个更优雅的选择，那就是互联网档案馆（Internet Archive）这样的网页存档。当然由于众所周知的原因，这个网站必须要翻墙后才能访问。

Internet Archive

你可能会好奇互联网档案馆（Internet Archive）是什么？

对于这个问题，直接引用维基百科作为回答。

互联网档案馆（英语：Internet Archive）是一個非營利性的數位圖書館组织。成立于1996年，由Alexa创始人布鲁斯特·卡利创办。提供數字資料如網站、音樂、動態圖像、和數百萬書籍的永久性免費儲存及獲取。迄至2012年10月，其信息儲量達到10PB。除此之外，該檔案館也是網絡開放與自由化的倡議者之一。

其數據是由自帶的網絡爬蟲自動搜集的，其網站典藏檔案館網站時光機，抓取了超過1500億的網頁。

简单的讲“互联网档案馆”就是一个专门保存网页历史的网站。

下面我将简单介绍如何使用互联网档案馆，如何查询互联网档案馆中的网页存档，如何将一个网页保存到互联网档案馆。

查询存档

/images/2019/archive-404/L1.thumbnail.png — 互联网档案馆

打开 Internet Archive ,在最上方输入你要查询网页的url，如果存在存档，点击相应的存档即可。

如果不存在存档，Internet Archive可能会提示你 Save this url in the Wayback Machine。此时直接点击此链接即可保存此网页。

/images/2019/archive-404/S1_1.thumbnail.png — 点击 Save this url in the Wayback Machine

这也是最简单的保存网页的方法了。

另外，也可以使用书签或者浏览器插件查询网页存档，这部分内容请继续阅读下文。

保存网页

方法一：存档查询页

在查询存档页中直接保存，可以参考上文。

方法二：web页面

如果一个网页已经有了存档，方法一是无法奏效的，于是我们需要方法二。

/images/2019/archive-404/S1_2.thumbnail.png — 互联网档案馆 web 页面

打开互联网档案馆 web 页面：https://archive.org/web/
将要存档的网页URL粘贴至 Save Page Now 文本框中（网页右下角）。
点击 SAVE PAGE 按钮（或者直接敲回车键）。
等待互联网档案馆抓取网页。

/images/2019/archive-404/S1_3.thumbnail.png — 互联网档案馆正在抓取网页…

方法三：书签

是不是觉的方法二有点太麻烦了，浏览器书签是一个更为简单快捷的方法。

Save Page to Internet Archive Go Wayback

将上面的两个书签直接拖动到浏览器标签栏中。

/images/2019/archive-404/S1_4.thumbnail.png — 将按钮拖动到标签栏中

之后如果想要将一个网页存档到互联网档案馆，直接点击标签栏中 Save Page to Internet Archive 标签即可。

如果想要查询一个网页的存档，直接点击 Go wayback 标签即可。

方法四：浏览器插件

方法三使用久了，你会发现，对于有些网站标签栏中的书签好像不怎么好使，点击了书签，但一点反应都没有。

比如说，你打开 GitHub，然后点击 Go wayback，但是并没有打开相应的存档页，这是怎么回事呢？

（不同浏览器中的表现可能不同，本人电脑上Chromium可以打开相应存档页，但Firefox无法打开）

按下 F12 ，原来是 Content Security Policy 在搞鬼。

/images/2019/archive-404/S1_4_1.thumbnail.png — Console

/images/2019/archive-404/S1_4_2.png — Response headers

script-src github.githubassets.com;

对于这样的网页该如何方便存档呢？

这时候就是浏览器插件上场的时候了。

首先，根据浏览器种类安装相应的插件， Chrome、 Firefox。

/images/2019/archive-404/S1_5.thumbnail.png — 插件界面

安装完成后，需要存档网页时直接点击 Save Page Now 按钮即可。

通过 Recent Version、First Version 按钮，你可以很方便的查看当前网页最近一个存档以及最初的存档。

/images/2019/archive-404/S1_5_1.thumbnail.png — 打开王垠《更新一下》博文时的界面

这个插件还有一个非常棒的功能。

如果你打开的网页已经404了，但是互联网档案馆中存有这个网页的存档，将会弹出一个悬浮窗。此时，你可以点击 Click here to see archived version 按钮，查看存档版本。

archive.today

上面介绍了互联网档案馆，下面我将介绍另外一个好用的存档网站：archive.today。

照例引用维基作为介绍：

archive.is（舊名為archive.today）是一個私人資助的數位時間囊網站，資料中心位於歐洲法國的北部-加来海峡。這個網站典藏檔案館使用Apache Hadoop與Apache Accumulo軟體。它可以一次取回一個類似於WebCite的小於50MB的頁面，但收錄Google地圖與Twitter。

/images/2019/archive-404/L2.thumbnail.png — archive.today 主页

archive.today 的主页布局非常的简单。

在上方的文本框中输入网页URL进行存档，在下方文本框中输入网页URL查询存档。一目了然，浅显易懂。

/images/2019/archive-404/S2_1.thumbnail.png — 保存网页中…

/images/2019/archive-404/L2_1.thumbnail.png — 查看存档

为了方便将网页保存至 archive.today，你可以使用下面这个书签，使用方法同前。

需要保存网页时，直接点击标签栏中 archive.today 书签即可。

不过可惜的是 archive.today 并没有一个官方浏览器插件。

archive.today 相较 Internet Archive 的优势

archive.today 与 Internet Archive 都可以存档网页，但 archive.today 相较 Internet Archive 有以下几点优势。

无须遵循 Robots 协议

Internet Archive 抓取网页时遵循 Robots 协议，如果网站在 robots.txt 中声明禁止搜索引擎抓取，那么 Internet Archive 将拒绝存档该网站。

所以对于微信公众号，你是无法用 Internet Archive 进行存档的。

微信公众号产出的内容占中文世界的半壁江山，而且由于种种原因，微信公众号文章是404的重灾区，更是应当被及时存档。

archive.today 的优点此时体便现出来了。

可以加载动态内容

现在越来越多的网站选择动态加载内容。

对于动态加载的网页，Internet Archive 存档的效果不是特别好。而 archive.today 在保存网页时会摸拟浏览器进行抓取，因此对于动态内容有更好的支持。

可以从 Google cache 中存档网页

如果一个网页已经消失了，短时间内还可以通过 Google cache 查看到这篇文章。

archive.today 另一个优点就是可以从 Google cache 中存档网页，给已经被删掉的网页一个保存下来（抢救）的机会，例如这个网页。

养成随手存档好习惯

在这个404时代，养成随手存档好习惯是非常重要的。因为很多有价值的文章往往存活不了多久，就被删了，成为404海洋中的一员。

随手存档，不仅仅造福自己，更是造福大众。

就比如说上文举例时引用的王垠博文，如果不是不知名的前辈，趁其还在时将其存档于互联网档案馆。那么我现在想要看这篇文章，只能费力找不知是否为原文的转载或截图。

所以我们的口号是：消除404，人人有责。随手存档，造福你我。人人为我，我为人人。

需要存档的场景

下面提出几个我认为需要存档的场景：

涉及敏感话题的有价值文章。
在长毛象、推特、微博、知乎等社交媒体发文时，存档被引用的网页（尤其是涉及敏感话题时）。
高价值、有意思的文章。
自己喜欢的内容。

对于第二点，可能有一点不太好理解，在这里解释一下。

/images/2019/archive-404/D.png — 我的一则嘟文

上面是我之前发布的一个嘟嘟的截图，里面引用了新华社的两个网页。

你是否有过这样的经历，在社交媒体上看到某人推荐一篇文章，但你点开链接时，发现链接的目标已经404，消失不见了。

第二条的意思便是，当你在发文之前，随手存档被引用的网页。这样就算是链接404了，对方也可以从互联网档案馆中看到原链接的内容。

微信公众号的问题

微信公众号真是一个奇葩的东西，但由于其体量，还不能无视它。

在存档微信公众号文章时，请存档文章的永久链接。

由于微信奇葩的反爬策略，你从搜狗中搜到的公众号文章都是长成这样子：

https://mp.weixin.qq.com/s?__biz=MzA5MjMzOTY4Mw==&mid=2652989954&idx=3&sn=15d3d4a84cfb7b94524e2e0426055950&chksm=8bbb668ebcccef987695f44e32aaed274e32207cd58cbcef46b44733148c20de5dd2514a82f4&scene=0#rd

这样子的链接就是暂时链接，这种链接有一定的时效，过期之后就无法访问了。所以在存档之前，请将其转换为永久链接。

另外，在社交媒体发文时也请使用永久链接。

/images/2019/archive-404/O2.thumbnail.png — 复制链接

将上面的长链接复制到手机微信中打开，然后点击 分享按钮 --> 复制链接，即可获得短的永久链接。

https://mp.weixin.qq.com/s/TQTeBLMwJiq15oO6jxbBCg

结语

写到这里，本文基本上写完了，如果有什么疑问可以直接在下方留言。

另外，为了可持续发展，也请在自己能力范围内向 Internet Archive、archive.today 捐款支持。

Internet Archive 捐助页面、archive.today 捐助页面

Gitalk 可能存在安全隐患，建议直接点击左上角数字进入相应的issue进行评论。