∵ Takayoshi Saito ∴ 2013-04-09 ∞ 27'
robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。
robots.txtの書き方はおよそ以下の通りです。
User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能) Crawl-Delay:(クロールの時間間隔を指定) Disallow:(クロールされたくないページやディレクトリを指定) Allow:(Disallowで指定されたディレクトリの小階層でクロールさせたいページやディレクトリを指定) Sitemap:(検索エンジンに提供するサイトマップファイルの所在を指定) それ意外: 何も指定されていないページはクロール対象になります
このrobots.txtは、多くのサイトでは検索エンジンのクローラーではなくても閲覧することができます。このrobotst.txtを見ることによって、そのサービスが検索に引っ掛けたくないページや、botに集中してクロールされると困るページなどを知ることができます。
以下、大手サイトに焦点を絞って、各サービスがどんなかたちでrobots.txtを記述しているのかご紹介します。
まず最初に分かりやすい例から。皆さん大好きのはてなブックマーク!はてなブックマークではどのようにクローラーを制御しているのでしょうか。
http://b.hatena.ne.jp/robots.txt
User-agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/) Crawl-Delay: 3 Disallow: /search Allow: /search/tag Allow: /search/text Sitemap: http://b.hatena.ne.jp/sitemaps.xml
User-agent: * Disallow: /search Allow: /search/tag Allow: /search/text Sitemap: http://b.hatena.ne.jp/sitemaps.xml
このrobots.txtを見ると、はてなブックマークはYeti(NHNの検索エンジン)だけ特別扱いにして、Crawl-Delayで時間間隔を調整させていることがわかります。また、全ての検索エンジンで /search 以下のディレクトリがクロール対象外に指定されています。おそらく、 /search の後に色々なワードを打ち込むと何でもヒットしてしまうため、検索エンジンが無限に巡回して、はてなブックマークのサーバーに負荷を与えることを防ぐためでしょう。ただ、/search の中でもタグページなど一部のページは許可されているようです。
Yahoo!Japanは、www.yahoo.co.jpのドメインが使われているのはトップページだけのため、www.yahoo.co.jpではrobots.txtがありません。それでは、Yahooニュースではどういうrobots.txtが使われているのでしょうか。
http://dailynews.yahoo.co.jp/robots.txt
Sitemap: http://dailynews.yahoo.co.jp/sitemap.xml
User-agent: * Disallow: /iphone/ Allow: /fc/*/iphone/
Yahoo!ニュースでは、iPhoneのページは検索エンジンにクロールされないようにしているようです。しかし、記事カテゴリとしてのiPhoneのニュースを扱ったページは許可するように設定されています。
mixiのrobots.txtは簡単です。ひたすら全部Disallowです。ログインしないと見られないページがほとんどですが、何かの間違いやキャッシュなどで漏洩してしまったら大変なことになるので、念を押しての対策の意味もあるのでしょうね。
User-agent: * Noindex: /show_friend.pl Noindex: /show_profile.pl Disallow: /add_diary.pl Disallow: /show_calendar.pl Disallow: /confirm.pl Disallow: /confirm_email.pl Disallow: /invite.pl Disallow: /join.pl Disallow: /list_community.pl Disallow: /list_diary.pl Disallow: /list_event_member.pl Disallow: /list_friend.pl Disallow: /list_member.pl Disallow: /list_request.pl Disallow: /logout.pl Disallow: /manage_friend.pl Disallow: /mikly.pl Disallow: /search_diary.pl Disallow: /regist.pl Disallow: /reset_password.pl Disallow: /search.pl Disallow: /search_album.pl Disallow: /search_community.pl Disallow: /search_event.pl Disallow: /search_review.pl Disallow: /show_friend.pl Disallow: /show_intro.pl Disallow: /show_profile.pl Disallow: /view_album.pl Disallow: /view_diary.pl Disallow: /view_enquete.pl Disallow: /view_event.pl Disallow: /view_item.pl Disallow: /view_message.pl Disallow: /banner.pl Disallow: /list_message.pl Disallow: /list_review.pl Disallow: /new_friend_diary.pl Disallow: /set_cookie.pl Disallow: /img/
みずほ銀行のrobots.txtも調べました。何となく重要な法人顧客向けの秘密のデモページやWEBメーラーへのリンクが入っているような…。こういう見られては困りそうなページは、robots.txtに記述するのではなく、IP制限とか掛けたほうが良さそうな気がします。
http://www.mizuhobank.co.jp/robots.txt
-agent: * Disallow: /link/ Disallow: /english/link/ Disallow: /shokuiki/ Disallow: /loan/multi_extra/index.html Disallow: /loan/multi_extra/detail.html Disallow: /setsumeisho/pdf/multi_extra.pdf Disallow: /mail/ Disallow: /corporate/ebservice/denshi/densai/manual/ Disallow: /corporate/ebservice/account/b_web/renewal/ Disallow: /corporate/ebservice/account/b_web/campaign.html Disallow: /corporate/ebservice/account/b_web/campaign_bweb.html Disallow: /corporate/ebservice/account/ebusiness/levelup.html Disallow: /corporate/ebservice/account/ebusiness/campaign_ebs.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107020010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107020010_s.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107020130.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107020140.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107020330.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107020340.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107030010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107030320.html Disallow: /corporate/ebservice/account/ebusiness/demo/B107030330.html Disallow: /corporate/ebservice/account/ebusiness/demo/B202000000.html Disallow: /corporate/ebservice/account/ebusiness/demo/B202010010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B202010020.html Disallow: /corporate/ebservice/account/ebusiness/demo/B203000010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B203010330.html Disallow: /corporate/ebservice/account/ebusiness/demo/B203030010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B203030020.html Disallow: /corporate/ebservice/account/ebusiness/demo/B203030040.html Disallow: /corporate/ebservice/account/ebusiness/demo/B204000000.html Disallow: /corporate/ebservice/account/ebusiness/demo/B204031130.html Disallow: /corporate/ebservice/account/ebusiness/demo/B204031140.html Disallow: /corporate/ebservice/account/ebusiness/demo/B204031210.html Disallow: /corporate/ebservice/account/ebusiness/demo/B301010130.html Disallow: /corporate/ebservice/account/ebusiness/demo/B301010150.html Disallow: /corporate/ebservice/account/ebusiness/demo/B301010160.html Disallow: /corporate/ebservice/account/ebusiness/demo/B301010180.html Disallow: /corporate/ebservice/account/ebusiness/demo/B301030010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B301050010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B301060110.html Disallow: /corporate/ebservice/account/ebusiness/demo/B301060120.html Disallow: /corporate/ebservice/account/ebusiness/demo/B303010010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B303020730.html Disallow: /corporate/ebservice/account/ebusiness/demo/B303020730_2.html Disallow: /corporate/ebservice/account/ebusiness/demo/B303020740.html Disallow: /corporate/ebservice/account/ebusiness/demo/B303030110.html Disallow: /corporate/ebservice/account/ebusiness/demo/B304010010.html Disallow: /corporate/ebservice/account/ebusiness/demo/B304020020.html Disallow: /corporate/ebservice/account/ebusiness/demo/B304020030.html Disallow: /corporate/ebservice/account/ebusiness/demo/B304020030_2.html Disallow: /corporate/ebservice/account/ebusiness/demo/B305020020.html Disallow: /corporate/ebservice/account/ebusiness/demo/DA010G01.html Disallow: /corporate/ebservice/account/ebusiness/demo/DB020G01.html Disallow: /corporate/ebservice/account/ebusiness/demo/DG010G01.html Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/dmnaitame.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/dmtakyoten.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/furifuri.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/gaika.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/gaitamekyoutu.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/hishimuke.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/kokunaikyoutu.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/nyusyukkin.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/shimuke.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/sonota.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/soufuri.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/yoyaku.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/yunyu.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/yunyukessai.pdf Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/yusyutu.pdf Disallow: /debit_cashback/index.html Disallow: /im/debit_cashback/index.html Disallow: /im/debit_cashback/tenpo.html Disallow: /ez/debit_cashback/index.html Disallow: /ez/debit_cashback/tenpo.html Disallow: /jp/debit_cashback/index.html Disallow: /jp/debit_cashback/tenpo.html Disallow: /corporate/ebservice/account/webreport/manual/index.html Disallow: /corporate/ebservice/account/webreport/manual/pdf/3501y203.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/cover.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/cyuui.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/manual.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/masteruser.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/nichijo.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/okomari.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/riyoumae.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/rockkaijouser.pdf Disallow: /corporate/ebservice/account/webreport/manual/pdf/setupguide.pdf Disallow: /mmc_rec/card/atm_card_shinki.html Disallow: /mmc_rec/card/card_gendogaku.html
Twitterのrobots.txtも調べて見ました。
https://www.twitter.com/robots.txt
#Google Search Engine Robot User-agent: Googlebot Allow: /?escaped_fragment
Allow: /search?q=%23 Disallow: /search/realtime Disallow: /search/users Disallow: /search/*/grid
Disallow: /? Disallow: //followers Disallow: /*/following
#Yahoo! Search Engine Robot User-Agent: Slurp Allow: /?escaped_fragment
Allow: /search?q=%23 Disallow: /search/realtime Disallow: /search/users Disallow: /search/*/grid
Disallow: /? Disallow: //followers Disallow: /*/following
#Yandex Search Engine Robot User-agent: Yandex Allow: /?escaped_fragment
Allow: /search?q=%23 Disallow: /search/realtime Disallow: /search/users Disallow: /search/*/grid
Disallow: /? Disallow: //followers Disallow: /*/following
#Microsoft Search Engine Robot User-Agent: msnbot Allow: /?escaped_fragment
Allow: /search?q=%23 Disallow: /search/realtime Disallow: /search/users Disallow: /search/*/grid
Disallow: /? Disallow: //followers Disallow: /*/following
Every bot that might possibly read and respect this file.
User-agent: * Allow: /search?q=%23 Disallow: /search/realtime Disallow: /search/users Disallow: /search/*/grid
Disallow: /? Disallow: //followers Disallow: /*/following Disallow: /oauth Disallow: /1/oauth
Wait 1 second between successive requests. See ONBOARD-2698 for details.
Crawl-delay: 1
Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
the protocol of the sitemap.
Sitemap: https://twitter.com/sitemap.xml
Twitterの場合、特徴的なのは、一部の検索エンジンに対して、Allow: /?escaped_fragmentを許可していることです。これは特殊な指定で、Ajaxを使ったリンクでも、#!から始まるURLを検索エンジンで認識させることができるようにする指定です。また、検索関連やOAuth関連のクロールを禁止しているのは、無限クロールの負荷対策でしょう。また、フォロワーの一覧ページもクロールされないように対策されています。
Wikipediaのrobots.txtは、利用者のページや削除依頼のページなどに関して、かなり細かくDisallowを記述しています。また、一部のお行儀が悪いクローラーの無限アクセスを遮断するために、特定クローラーを対象に全ページを巡回禁止にする設定も入れています。全部引用すると長くなるので、日本語関連のrobots.txtだけ以下に引用します。
http://ja.wikipedia.org/robots.txt
ここに書かれた内容はグローバルRobots.txtに追加されます。設定はローカルでのみ有効です。
ブラックリスト関係
Disallow: /wiki/MediaWiki:Spam-blacklist Disallow: /wiki/MediaWiki%3ASpam-blacklist Disallow: /wiki/MediaWiki%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:Spam-blacklist Disallow: /wiki/MediaWiki%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3ASpam-blacklist Disallow: /wiki/MediaWiki:Titleblacklist Disallow: /wiki/MediaWiki%3ATitleblacklist Disallow: /wiki/MediaWiki%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:Titleblacklist Disallow: /wiki/MediaWiki%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3ATitleblacklist
削除依頼関係
Disallow: /wiki/Wikipedia:削除依頼 Disallow: /wiki/Wikipedia:%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%3A%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia‐ノート:削除依頼 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia:利用者ページの削除依頼 Disallow: /wiki/Wikipedia:%E5%88%A9%E7%94%A8%E8%80%85%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%3A%E5%88%A9%E7%94%A8%E8%80%85%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia‐ノート:利用者ページの削除依頼 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E5%88%A9%E7%94%A8%E8%80%85%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E5%88%A9%E7%94%A8%E8%80%85%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia:リダイレクトの削除依頼 Disallow: /wiki/Wikipedia:%E3%83%AA%E3%83%80%E3%82%A4%E3%83%AC%E3%82%AF%E3%83%88%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%3A%E3%83%AA%E3%83%80%E3%82%A4%E3%83%AC%E3%82%AF%E3%83%88%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia‐ノート:リダイレクトの削除依頼 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E3%83%AA%E3%83%80%E3%82%A4%E3%83%AC%E3%82%AF%E3%83%88%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E3%83%AA%E3%83%80%E3%82%A4%E3%83%AC%E3%82%AF%E3%83%88%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia:削除の過去ログ Disallow: /wiki/Wikipedia:%E5%89%8A%E9%99%A4%E3%81%AE%E9%81%8E%E5%8E%BB%E3%83%AD%E3%82%B0 Disallow: /wiki/Wikipedia%3A%E5%89%8A%E9%99%A4%E3%81%AE%E9%81%8E%E5%8E%BB%E3%83%AD%E3%82%B0 Disallow: /wiki/Wikipedia:削除記録 Disallow: /wiki/Wikipedia:%E5%89%8A%E9%99%A4%E8%A8%98%E9%8C%B2 Disallow: /wiki/Wikipedia%3A%E5%89%8A%E9%99%A4%E8%A8%98%E9%8C%B2 Disallow: /wiki/Category:削除依頼中の記事 Disallow: /wiki/Category%3A%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC%E4%B8%AD%E3%81%AE%E8%A8%98%E4%BA%8B Disallow: /wiki/Category:%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC%E4%B8%AD%E3%81%AE%E8%A8%98%E4%BA%8B Disallow: /wiki/Category:緊急案件 Disallow: /wiki/Category:%E7%B7%8A%E6%80%A5%E6%A1%88%E4%BB%B6 Disallow: /wiki/Category%3A%E7%B7%8A%E6%80%A5%E6%A1%88%E4%BB%B6 Disallow: /wiki/Wikipedia:削除の復帰依頼 Disallow: /wiki/Wikipedia:%E5%89%8A%E9%99%A4%E3%81%AE%E5%BE%A9%E5%B8%B0%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%3A%E5%89%8A%E9%99%A4%E3%81%AE%E5%BE%A9%E5%B8%B0%E4%BE%9D%E9%A0%BC
Wikipedia名前空間へのショートカット
Disallow: /wiki/WP: Disallow: /wiki/WP%3A Disallow: /wiki/ノート:WP Disallow: /wiki/%E3%83%8E%E3%83%BC%E3%83%88:WP: Disallow: /wiki/%E3%83%8E%E3%83%BC%E3%83%88%3AWP%3A Disallow: /wiki/LTA: Disallow: /wiki/LTA%3A
不適切な利用者名を記載する可能性があるページ
Disallow: /wiki/Wikipedia:投稿ブロック依頼 Disallow: /wiki/Wikipedia:%E6%8A%95%E7%A8%BF%E3%83%96%E3%83%AD%E3%83%83%E3%82%AF%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%3A%E6%8A%95%E7%A8%BF%E3%83%96%E3%83%AD%E3%83%83%E3%82%AF%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia‐ノート:投稿ブロック依頼 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E6%8A%95%E7%A8%BF%E3%83%96%E3%83%AD%E3%83%83%E3%82%AF%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E6%8A%95%E7%A8%BF%E3%83%96%E3%83%AD%E3%83%83%E3%82%AF%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia:管理者伝言板 Disallow: /wiki/Wikipedia:%E7%AE%A1%E7%90%86%E8%80%85%E4%BC%9D%E8%A8%80%E6%9D%BF Disallow: /wiki/Wikipedia%3A%E7%AE%A1%E7%90%86%E8%80%85%E4%BC%9D%E8%A8%80%E6%9D%BF Disallow: /wiki/Wikipedia‐ノート:管理者伝言板 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E7%AE%A1%E7%90%86%E8%80%85%E4%BC%9D%E8%A8%80%E6%9D%BF Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E7%AE%A1%E7%90%86%E8%80%85%E4%BC%9D%E8%A8%80%E6%9D%BF Disallow: /wiki/Wikipedia:進行中の荒らし行為 Disallow: /wiki/Wikipedia:%E9%80%B2%E8%A1%8C%E4%B8%AD%E3%81%AE%E8%8D%92%E3%82%89%E3%81%97%E8%A1%8C%E7%82%BA Disallow: /wiki/Wikipedia%3A%E9%80%B2%E8%A1%8C%E4%B8%AD%E3%81%AE%E8%8D%92%E3%82%89%E3%81%97%E8%A1%8C%E7%82%BA Disallow: /wiki/Wikipedia‐ノート:進行中の荒らし行為 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E9%80%B2%E8%A1%8C%E4%B8%AD%E3%81%AE%E8%8D%92%E3%82%89%E3%81%97%E8%A1%8C%E7%82%BA Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E9%80%B2%E8%A1%8C%E4%B8%AD%E3%81%AE%E8%8D%92%E3%82%89%E3%81%97%E8%A1%8C%E7%82%BA Disallow: /wiki/Wikipedia:利用者名変更依頼 Disallow: /wiki/Wikipedia:%E5%88%A9%E7%94%A8%E8%80%85%E5%90%8D%E5%A4%89%E6%9B%B4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%3A%E5%88%A9%E7%94%A8%E8%80%85%E5%90%8D%E5%A4%89%E6%9B%B4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia‐ノート:利用者名変更依頼 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E5%88%A9%E7%94%A8%E8%80%85%E5%90%8D%E5%A4%89%E6%9B%B4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E5%88%A9%E7%94%A8%E8%80%85%E5%90%8D%E5%A4%89%E6%9B%B4%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia:CheckUser依頼 Disallow: /wiki/Wikipedia:CheckUser%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%3ACheckUser%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia‐ノート:CheckUser依頼 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:CheckUser%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3ACheckUser%E4%BE%9D%E9%A0%BC Disallow: /wiki/Wikipedia:チェックユーザー依頼 Disallow: /wiki/Wikipedia:%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC Disallow: /wiki/Wikipedia%3A%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC Disallow: /wiki/Wikipedia‐ノート:チェックユーザー依頼 Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC
利用者ページ・会話ページ
Disallow: /wiki/利用者: Disallow: /wiki/%E5%88%A9%E7%94%A8%E8%80%85: Disallow: /wiki/%E5%88%A9%E7%94%A8%E8%80%85%3A Disallow: /wiki/利用者‐会話: Disallow: /wiki/%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1: Disallow: /wiki/%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1%3A
facebookもプロフィールページや全体に公開している投稿は検索エンジンの巡回対象になりますが、robots.txtでその一部をクロールされないように制御しています。Googlebot向けの記述だけ引用します。
https://www.facebook.com/robots.txt
User-agent: Googlebot Disallow: /ac.php Disallow: /ae.php Disallow: /ajax/ Disallow: /album.php Disallow: /ap.php Disallow: /autologin.php Disallow: /checkpoint/ Disallow: /feeds/ Disallow: /l.php Disallow: /o.php Disallow: /p.php Disallow: /photo.php Disallow: /photo_comments.php Disallow: /photo_search.php Disallow: /photos.php Disallow: /share.php Disallow: /sharer/
検索エンジンの親玉Googleは、自社でどんなrobots.txtを置いているのでしょうか。Googleのサービスはいくつかサブドメイン形式になっているため、全部のrobots.txtを見るのは大変ですが、ここでは、www.google.comのrobots.txtを見てみましょう。著作権の関係からか/books関係が多いのと、一部重要顧客向けのページや、新サービスの実験ページっぽいアドレスなども入っているようですね。
http://www.google.com/robots.txt
User-agent: * Disallow: /search Disallow: /sdch Disallow: /groups Disallow: /images Disallow: /catalogs Allow: /catalogs/about Allow: /catalogs/p? Disallow: /catalogues Disallow: /news Allow: /news/directory Disallow: /nwshp Disallow: /setnewsprefs? Disallow: /index.html? Disallow: /? Allow: /?hl= Disallow: /?hl=& Disallow: /addurl/image? Disallow: /pagead/ Disallow: /relpage/ Disallow: /relcontent Disallow: /imgres Disallow: /imglanding Disallow: /sbd Disallow: /keyword/ Disallow: /u/ Disallow: /univ/ Disallow: /cobrand Disallow: /custom Disallow: /advanced_group_search Disallow: /googlesite Disallow: /preferences Disallow: /setprefs Disallow: /swr Disallow: /url Disallow: /default Disallow: /m? Disallow: /m/ Disallow: /wml? Disallow: /wml/? Disallow: /wml/search? Disallow: /xhtml? Disallow: /xhtml/? Disallow: /xhtml/search? Disallow: /xml? Disallow: /imode? Disallow: /imode/? Disallow: /imode/search? Disallow: /jsky? Disallow: /jsky/? Disallow: /jsky/search? Disallow: /pda? Disallow: /pda/? Disallow: /pda/search? Disallow: /sprint_xhtml Disallow: /sprint_wml Disallow: /pqa Disallow: /palm Disallow: /gwt/ Disallow: /purchases Disallow: /hws Disallow: /bsd? Disallow: /linux? Disallow: /mac? Disallow: /microsoft? Disallow: /unclesam? Disallow: /answers/search?q= Disallow: /local? Disallow: /local_url Disallow: /shihui? Disallow: /shihui/ Disallow: /froogle? Disallow: /products? Disallow: /products/ Disallow: /froogle_ Disallow: /product_ Disallow: /products_ Disallow: /products; Disallow: /print Disallow: /books/ Disallow: /bkshp?q= Disallow: /books?q= Disallow: /books?output= Disallow: /books?pg= Disallow: /books?jtp= Disallow: /books?jscmd= Disallow: /books?buy= Disallow: /books?zoom= Allow: /books?q=related: Allow: /books?q=editions: Allow: /books?q=subject: Allow: /books/about Allow: /booksrightsholders Allow: /books?zoom=1 Allow: /books?zoom=5 Disallow: /ebooks/ Disallow: /ebooks?q= Disallow: /ebooks?output= Disallow: /ebooks?pg= Disallow: /ebooks?jscmd= Disallow: /ebooks?buy= Disallow: /ebooks?zoom= Allow: /ebooks?q=related: Allow: /ebooks?q=editions: Allow: /ebooks?q=subject: Allow: /ebooks?zoom=1 Allow: /ebooks?zoom=5 Disallow: /patents? Disallow: /patents/related/ Allow: /patents?id= Allow: /patents?vid= Disallow: /scholar Disallow: /citations? Allow: /citations?user= Allow: /citations?view_op=new_profile Allow: /citations?view_op=top_venues Disallow: /complete Disallow: /s? Disallow: /sponsoredlinks Disallow: /videosearch? Disallow: /videopreview? Disallow: /videoprograminfo? Allow: /maps/api/js? Disallow: /maps? Disallow: /mapstt? Disallow: /mapslt? Disallow: /maps/stk/ Disallow: /maps/br? Disallow: /mapabcpoi? Disallow: /maphp? Disallow: /mapprint? Disallow: /maps/api/js/ Disallow: /maps/api/staticmap? Disallow: /mld? Disallow: /staticmap? Disallow: /places/ Allow: /places/$ Disallow: /maps/preview Disallow: /maps/place Disallow: /help/maps/streetview/partners/welcome/ Disallow: /help/maps/indoormaps/partners/ Disallow: /lochp? Disallow: /center Disallow: /ie? Disallow: /sms/demo? Disallow: /katrina? Disallow: /blogsearch? Disallow: /blogsearch/ Disallow: /blogsearch_feeds Disallow: /advanced_blog_search Disallow: /reader/ Allow: /reader/play Disallow: /uds/ Disallow: /chart? Disallow: /transit? Disallow: /mbd? Disallow: /extern_js/ Disallow: /calendar/feeds/ Disallow: /calendar/ical/ Disallow: /cl2/feeds/ Disallow: /cl2/ical/ Disallow: /coop/directory Disallow: /coop/manage Disallow: /trends? Disallow: /trends/music? Disallow: /trends/hottrends? Disallow: /trends/viz? Disallow: /notebook/search? Disallow: /musica Disallow: /musicad Disallow: /musicas Disallow: /musicl Disallow: /musics Disallow: /musicsearch Disallow: /musicsp Disallow: /musiclp Disallow: /browsersync Disallow: /call Disallow: /archivesearch? Disallow: /archivesearch/url Disallow: /archivesearch/advanced_search Disallow: /base/reportbadoffer Disallow: /urchin_test/ Disallow: /movies? Disallow: /codesearch? Disallow: /codesearch/feeds/search? Disallow: /wapsearch? Disallow: /safebrowsing Allow: /safebrowsing/diagnostic Allow: /safebrowsing/report_badware/ Allow: /safebrowsing/report_error/ Allow: /safebrowsing/report_phish/ Disallow: /reviews/search? Disallow: /orkut/albums Allow: /jsapi Disallow: /views? Disallow: /c/ Disallow: /cbk Allow: /cbk?output=tile&cb_client=maps_sv Disallow: /recharge/dashboard/car Disallow: /recharge/dashboard/static/ Disallow: /translate_a/ Disallow: /translate_c Disallow: /translate_f Disallow: /translate_static/ Disallow: /translate_suggestion Disallow: /profiles/me Allow: /profiles Disallow: /s2/profiles/me Allow: /s2/profiles Allow: /s2/photos Allow: /s2/static Disallow: /s2 Allow: /s2/search/social Disallow: /transconsole/portal/ Disallow: /gcc/ Disallow: /aclk Disallow: /cse? Disallow: /cse/home Disallow: /cse/panel Disallow: /cse/manage Disallow: /tbproxy/ Disallow: /imesync/ Disallow: /shenghuo/search? Disallow: /support/forum/search? Disallow: /reviews/polls/ Disallow: /hosted/images/ Disallow: /ppob/? Disallow: /ppob? Disallow: /ig/add? Disallow: /adwordsresellers Disallow: /accounts/o8 Allow: /accounts/o8/id Disallow: /topicsearch?q= Disallow: /xfx7/ Disallow: /squared/api Disallow: /squared/search Disallow: /squared/table Disallow: /toolkit/ Allow: /toolkit/.html Disallow: /globalmarketfinder/ Allow: /globalmarketfinder/.html Disallow: /qnasearch? Disallow: /app/updates Disallow: /sidewiki/entry/ Disallow: /quality_form? Disallow: /labs/popgadget/search Disallow: /buzz/post Disallow: /compressiontest/ Disallow: /analytics/reporting/ Disallow: /analytics/admin/ Disallow: /analytics/web/ Disallow: /analytics/feeds/ Disallow: /analytics/settings/ Disallow: /alerts/ Disallow: /ads/preferences/ Allow: /ads/preferences/html/ Allow: /ads/preferences/plugin Disallow: /ads/search Disallow: /settings/ads/onweb/ Disallow: /phone/compare/? Allow: /alerts/manage Allow: /alerts/remove Disallow: /travel/clk Disallow: /hotelfinder/rpc Disallow: /flights/rpc Disallow: /commercesearch/services/ Disallow: /evaluation/ Disallow: /chrome/browser/mobile/tour Disallow: /compare//apply* Disallow: /forms/perks/ Disallow: /baraza//search Disallow: /baraza//report Disallow: /shopping/suppliers/search Disallow: /ct/ Disallow: /edu/cs4hs/ Sitemap: http://www.gstatic.com/culturalinstitute/sitemaps/www_google_com_culturalinstitute/sitemap-index.xml Sitemap: http://www.google.com/hostednews/sitemap_index.xml Sitemap: http://www.google.com/sitemaps_webmasters.xml Sitemap: http://www.google.com/ventures/sitemap_ventures.xml Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml
以上、有名サイトのrobots.txtを見てきました。検索エンジン経由で見られたくないページっていうのが、公開されているrobots.txtを見ると人の目でも簡単にわかってしまうことがわかるかと思います。無限クロールに陥りやすいページや、重要顧客を対象にしたページなど、いずれもこういう情報が露出していることは、ある意味でセキュリティホールを自ら晒すことでもあります。
本当に見られては困るページは、robots.txtだけでなく、IP制限などを掛けたり、サーバー側キャッシュは残さない設定にしておくことをオススメします。
Google Hacks 第3版 ―プロが使うテクニック & ツール 100選posted with カエレバRael Dornfest,Paul Bausch,Tara Calishain オライリー・ジャパン 2007-04-24