ここのサイトからは僕に
学校に行けというメールがあった・・
僕はこのサイトの会員にはなっている
このサイトには有用なデータが充実しており
僕の持っているデータの7分の2は
このサイトのものだといえる
なおかつ安全なトレントファイルが存在する
たぶんエミュレータを触っている人なら、
誰でも一度は訪れたことがある
サイトだと思う。
インターネットアーカイブ(Internet Archive) は、
WWW・マルチメディア資料のアーカイブ閲覧サービスとして
有名なウェイバックマシン (Wayback Machine)を運営している団体である。
本部はカリフォルニア州サンフランシスコのリッチモンド地区に置かれている。
アーカイブにはプログラムが自動で、
または利用者が手動で収集したウェブページのコピー
(ウェブアーカイブ)が混在しており、
これは「WWWのスナップショット」と呼ばれる。
そのほか、ソフトウェア・映画・本・録音データ
(音楽バンドなどの許可によるライブ公演の録音も含む)などがある。
アーカイブは、それらの資料を無償で提供している。
ウェイバックマシン (Wayback Machine)はインターネットアーカイブが保存するウェブアーカイブを閲覧することのできるサービスである。インターネットアーカイブのもっともよく知られたサービスの一つであり、ときに「インターネットアーカイブ」がウェイバックマシンと同義に使われることもある他、「ウェイバックマシン」がその背景のWebクローリングを含んだ意味で使われることもある。ウェイバックマシンを使えば、ウェブページが保存された時点の状態を閲覧することができ、また「Save Page」にURLを貼り付けることで、そのページをその場でインターネットアーカイブのウェブアーカイブに保存できる。インターネットアーカイブはウェイバックマシンの技術を「3次元インデックス」と呼んでいる。
ウェイバックマシンで閲覧可能なウェブアーカイブは、1996年のサービス開始当時はアレクサ・インターネットから提供されたデータが元であったが、インターネットアーカイブは2010年後半から独自の大規模Webクローリングを開始し、現在では自身で収集したデータが半分以上を占める。以前はデータ収集から公開まで半年から一年かかっていたが、独自のWebクローリングと2013年の技術革新により、数時間から一日で公開されるようになった。また「Save Page」で保存されたものは即時に閲覧可能である。
ウェイバックマシンの過去のページの再生表示は、様々な理由により不完全であることがある。例えば、アレクサ・インターネットから提供されるデータにはHTMLファイルしか含まれていないため、2010年以前のアーカイブはページの画像などが表示されないものが大半である。またWebクローリングの技術的制約により、Webページの再生に必要なデータ全てが収集されないことや、Webページの再生表示技術の制約などによりページ表示が正常に行われないことなどは、特に最近の高度に動的なWebページではよく見られる。また、ウェブページを構成するスクリプトや画像などの部品はページのHTMLと同時点で収集されたものとは限らず、1年以上の時間差があることも稀ではない。さらに、いったん収集されたWebアーカイブが、関係者の要請やrobots.txtの配置によりウェイバックマシンから取り除かれることもある。
「ウェイバックマシン」という名称はロッキー・アンド・ブルウィンクル・ショー(英語版)の一シーンからとられた。このアニメシリーズは学者風の蝶ネクタイをした犬のピーボディ先生と人間の助手シャーマンが「ウェイバックマシン (WABAC machine)」と呼ぶタイムマシンを使って歴史上の有名な事件にちょっかいを出すというコメディアニメである。
公的な保存とは別途、個人のレベルでも、特定の個人がインターネット上に運営していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュースなどに出てくるようになった。保険会社などが遺言の執行と合わせて、こうしたサービスを行っているようなものはないが、難病での闘病生活をおくった人のドキュメントやさまざまな公益的で共有すべき内容を持ったもの(人権、環境、社会問題、女性、健康と福祉、情報公開、特殊な個人的体験など)、オンラインソフトウェアの開発サイトなどが、関係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。
著作権
ウェイバックマシンは米国著作権法のフェアユース規定にもとづいてウェブアーカイブを構築している。ウェイバックマシンは目的の性質上、フェアユースが成立するため、2009年時点ではウェイバックマシンに対する著作権侵害訴訟が起こされたことはない。しかし、後述の「インドからのアクセス遮断」のようにフェアユースに該当するとは思えない情報(営利目的の情報など)の収集も行っているのが実態である。
Recall サーチエンジン
またInternet Archiveのデータベース的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブページ全体を対象にした検索エンジン「Recall」のベータ版が公開された。検索した単語の頻度をグラフ化して表示する機能があり(2byte文字は未対応)、ネットワーク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開発者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォーラムでは新たな検索システムの構築を望む声が多くあがっており、動向が注目される。
アプリケーションプログラミングインタフェース
ウェイバックマシンはWebブラウザを使ったウェブアーカイブの閲覧だけでなく、アプリケーションプログラミングインタフェースも提供している。2015年時点では、
- Wayback Availability JSON API
- Memento API
- Wayback CDX Server API
がある。
wikipediaより抜粋