サーバー側を見るとブログはいわゆるホームページとは違う。特定のカテゴリーの記事だけ表示するなんてのは普通のホームページでは無理。何故ならファイルやフォルダーの場所が固定されているからだ。でもブログは違う。ブログのサーバーがブログを見てる人の要求に応じてデータを組み立ててブラウザに送る。ファイルやフォルダーの場所が変化するのだ。
例えばこのブログの山とか壁を登るをクリックする。それを受け取ったブログのサーバーは山とか壁を登るの記事の中から最新の15記事を選んで表示する。次に利用者が« 前ページをクリックすると次に新しい15記事を選んで表示するのだ。構成はその時々でコロコロ変る。
ブログのバックアップはどうするかというと俺は日付順にダウンロードすることにした。だけどそうするとカテゴリー毎の表示は出来ない。その逆にカテゴリー毎にダウンロードすると今度は日付順の表示は出来ない。でもそれは仕方ないのだ。
最後にこのブログのバックアップを取ったのは2年近く前だ。その方法は自分流。手順はというと、月毎のページを全てダウンロードするというもの。そしたダウンロードしたファイルを加工して連結した。ダウンロードするURL、例えば2013年の12月だとこうだ。
11月だとこんな感じである。これが2年分だアクセスすべきURLの数は24ヶ月X6=144個である。
ここまで書いて思うのはこの記事を読んで参考になったと思う人が居るんだろうかという疑問。でも記事は続く。
こんな風にアクセスすべきURLには簡単な規則性が存在する。規則性が存在すれば自動的にダウンロード出来る。末尾の数字が6なのには理由がある。このブログは日に3記事が最多なので毎日書いたとしても月に90記事。URL1つで15記事表示なので末尾の数字は6まであれば足りるってわけだ。では2杯目のコーヒー。
ダウンロードするには wgetというフリーのソフトを使う。これを DOS プロンプトで以下のように実行する。これは2013年12月のブログの一部を 201301_1.htm というファイル名でダウンロードするという意味である。
border="1"> 図-1 2013年12月のブログの一部を 201301_1.htm というファイル名でダウンロードする
これらを144回手入力するのはヤダ。そのために3つのバッチファイルをテキストエディターで作った。名前は blog.bat、b_year.bat、b_month.bat でその内容は図-3、4、5である。それぞれの関係は blog.bat(図-3) が b_year.bat(図-4) を呼び、b_year.bat(図-4) が b_month.bat(図-5) を呼ぶという関係である。
図-2のように blog.bat(図-3) を実行すると 2012年1月から2013年12月までのhtmlファイルをダウンロードした。画像ファイルをダウンロードしないのは画像ファイルは手元にあるのでする必要がないのである。ダウンロードしたのは文章だけ。で、所要時間はインターネット環境(ボッケ家はフレッツ光回線)によるけどたった1分だけ。
図-2 blog.batの実行
図-3 blog.bat
図-4 b_year.bat
図-5 b_month.bat
上記バッチファイルの説明は以下の通り。
説明-1 blog.bat(図-3) の説明
説明-2 b_year.bat(図-4) の説明
説明-3 b_month.bat(図-5) の説明
例えばこのブログの山とか壁を登るをクリックする。それを受け取ったブログのサーバーは山とか壁を登るの記事の中から最新の15記事を選んで表示する。次に利用者が« 前ページをクリックすると次に新しい15記事を選んで表示するのだ。構成はその時々でコロコロ変る。
ブログのバックアップはどうするかというと俺は日付順にダウンロードすることにした。だけどそうするとカテゴリー毎の表示は出来ない。その逆にカテゴリー毎にダウンロードすると今度は日付順の表示は出来ない。でもそれは仕方ないのだ。
最後にこのブログのバックアップを取ったのは2年近く前だ。その方法は自分流。手順はというと、月毎のページを全てダウンロードするというもの。そしたダウンロードしたファイルを加工して連結した。ダウンロードするURL、例えば2013年の12月だとこうだ。
- http://blog.goo.ne.jp/longq/m/201312/0
- http://blog.goo.ne.jp/longq/m/201312/1
- http://blog.goo.ne.jp/longq/m/201312/2
- http://blog.goo.ne.jp/longq/m/201312/3
- http://blog.goo.ne.jp/longq/m/201312/4
- http://blog.goo.ne.jp/longq/m/201312/5
- http://blog.goo.ne.jp/longq/m/201312/6
11月だとこんな感じである。これが2年分だアクセスすべきURLの数は24ヶ月X6=144個である。
- http://blog.goo.ne.jp/longq/m/201311/0
- http://blog.goo.ne.jp/longq/m/201311/1
- http://blog.goo.ne.jp/longq/m/201311/2
- http://blog.goo.ne.jp/longq/m/201311/3
- http://blog.goo.ne.jp/longq/m/201311/4
- http://blog.goo.ne.jp/longq/m/201311/5
- http://blog.goo.ne.jp/longq/m/201311/6
ここまで書いて思うのはこの記事を読んで参考になったと思う人が居るんだろうかという疑問。でも記事は続く。
こんな風にアクセスすべきURLには簡単な規則性が存在する。規則性が存在すれば自動的にダウンロード出来る。末尾の数字が6なのには理由がある。このブログは日に3記事が最多なので毎日書いたとしても月に90記事。URL1つで15記事表示なので末尾の数字は6まであれば足りるってわけだ。では2杯目のコーヒー。
ダウンロードするには wgetというフリーのソフトを使う。これを DOS プロンプトで以下のように実行する。これは2013年12月のブログの一部を 201301_1.htm というファイル名でダウンロードするという意味である。
これらを144回手入力するのはヤダ。そのために3つのバッチファイルをテキストエディターで作った。名前は blog.bat、b_year.bat、b_month.bat でその内容は図-3、4、5である。それぞれの関係は blog.bat(図-3) が b_year.bat(図-4) を呼び、b_year.bat(図-4) が b_month.bat(図-5) を呼ぶという関係である。
図-2のように blog.bat(図-3) を実行すると 2012年1月から2013年12月までのhtmlファイルをダウンロードした。画像ファイルをダウンロードしないのは画像ファイルは手元にあるのでする必要がないのである。ダウンロードしたのは文章だけ。で、所要時間はインターネット環境(ボッケ家はフレッツ光回線)によるけどたった1分だけ。
上記バッチファイルの説明は以下の通り。
※コメント投稿者のブログIDはブログ作成者のみに通知されます