忍者ブログ
徒然よろずブログ。
2024/05/03 (Fri)
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2016/09/19 (Mon)

サイトをWebArchiveとかに残したいなー、と前から思っていた自萌え民なのですが、とうとうWebArchiveに記録できました!

記録したかった自サイトは18禁BLサイトでして、検索エンジンに捕まらないようにrobots.txtで検索よけをかけています。
ただ、全てを弾くようにしていたので、行儀のいいWebArchiveも弾いてしまいwww

なのでrobots.txtの設定を変更しました。
内容は以下の通り。

---
■変更前
User-agent: *
Disallow: /
---
■変更後
User-agent: *
Disallow: /

#Wayback Machineを許可する
User-agent: ia_archiver
Disallow:
---

※「---」は画面で見やすいように区切りとして使っているだけです。
 実際のファイルには記入していません。

「#Wayback Machineを~」のコメント以下を「追加」しています。
今まで通りクローラ等は全部弾くけれど、特定対象のみ許可する設定です。
 
何故なのかはいまいちわかりませんがスラッシュを抜くと許可になるそうです。
スラッシュがルート(トップ)以下全てを示しているので、何も書かない状態だと、「ルート以下の指定なし」と認識されて逆に許可になるんですかね?
検索除け対策として「全て/一部を禁止」する方法はいくらでも出てくるのですが、許可する方向に関してはあまり詳しく説明しているサイトがなかったため、詳細は分からず……。

まあとりあえず、上記の記述方法で「Wayback Machine」という大手アーカイバに残せるようになりました。

あとは注意点があるとすれば、「即効性がないことがある」ということですかね。
サイトの情報を取得する際に、「Wayback Machine」はどうやらキャッシュしているrobots.txtを参照しているようでした。
他サイト(Web魚拓)で試したらすぐに変更が反映されていたのですが、「Wayback Machine」は翌日になるまで変更が反映されず……。
最大手アーカイバともなると、いちいち取得&参照していると、サーバが持たないでしょうから仕方ないのかもしれないですね。

ですので、「おかしいなー、設定間違えたか?」という人は、一日待ってから再挑戦すると成功するかもしれないです。


拍手

PR
2016/06/29 (Wed)
une maison:家
un appartement:マンション(部屋複数)
un studio:ワンルーム

拍手

Admin / Write
プロフィール
HN:
性別:
非公開
自己紹介:
ふと思ったことをつづるよろずブログ。
"soleil d'ete"は、仏語で"夏の太陽"という意味。
BL(フィクションの同性愛)ネタから文学、経済、突発ネタなど、多分興味のままに不定期更新。
ブログ内検索
フリーエリア
最新コメント
[06/21 昴]
[06/19 774]
カウンター
忍者アナライズ
忍者ブログ [PR]