大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

robots.txtとは

robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。

robots.txtの書き方はおよそ以下の通りです。

User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能)
Crawl-Delay:(クロールの時間間隔を指定)
Disallow:(クロールされたくないページやディレクトリを指定)
Allow:(Disallowで指定されたディレクトリの小階層でクロールさせたいページやディレクトリを指定)
Sitemap:(検索エンジンに提供するサイトマップファイルの所在を指定)
それ意外: 何も指定されていないページはクロール対象になります

このrobots.txtは、多くのサイトでは検索エンジンのクローラーではなくても閲覧することができます。このrobotst.txtを見ることによって、そのサービスが検索に引っ掛けたくないページや、botに集中してクロールされると困るページなどを知ることができます。

以下、大手サイトに焦点を絞って、各サービスがどんなかたちでrobots.txtを記述しているのかご紹介します。

はてなブックマークのrobots.txt

まず最初に分かりやすい例から。皆さん大好きのはてなブックマーク!はてなブックマークではどのようにクローラーを制御しているのでしょうか。

http://b.hatena.ne.jp/robots.txt

User-agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
Crawl-Delay: 3
Disallow: /search
Allow: /search/tag
Allow: /search/text
Sitemap: http://b.hatena.ne.jp/sitemaps.xml

User-agent: *
Disallow: /search
Allow: /search/tag
Allow: /search/text
Sitemap: http://b.hatena.ne.jp/sitemaps.xml

このrobots.txtを見ると、はてなブックマークはYeti(NHNの検索エンジン)だけ特別扱いにして、Crawl-Delayで時間間隔を調整させていることがわかります。また、全ての検索エンジンで /search 以下のディレクトリがクロール対象外に指定されています。おそらく、 /search の後に色々なワードを打ち込むと何でもヒットしてしまうため、検索エンジンが無限に巡回して、はてなブックマークのサーバーに負荷を与えることを防ぐためでしょう。ただ、/search の中でもタグページなど一部のページは許可されているようです。

Yahoo!ニュースのrobots.txt

Yahoo!Japanは、www.yahoo.co.jpのドメインが使われているのはトップページだけのため、www.yahoo.co.jpではrobots.txtがありません。それでは、Yahooニュースではどういうrobots.txtが使われているのでしょうか。

http://dailynews.yahoo.co.jp/robots.txt

Sitemap: http://dailynews.yahoo.co.jp/sitemap.xml

User-agent: *
Disallow: /iphone/
Allow: /fc/*/iphone/

Yahoo!ニュースでは、iPhoneのページは検索エンジンにクロールされないようにしているようです。しかし、記事カテゴリとしてのiPhoneのニュースを扱ったページは許可するように設定されています。

mixiのrobots.txt

mixiのrobots.txtは簡単です。ひたすら全部Disallowです。ログインしないと見られないページがほとんどですが、何かの間違いやキャッシュなどで漏洩してしまったら大変なことになるので、念を押しての対策の意味もあるのでしょうね。

http://mixi.jp/robots.txt

User-agent: *
Noindex: /show_friend.pl
Noindex: /show_profile.pl
Disallow: /add_diary.pl
Disallow: /show_calendar.pl
Disallow: /confirm.pl
Disallow: /confirm_email.pl
Disallow: /invite.pl
Disallow: /join.pl
Disallow: /list_community.pl
Disallow: /list_diary.pl
Disallow: /list_event_member.pl
Disallow: /list_friend.pl
Disallow: /list_member.pl
Disallow: /list_request.pl
Disallow: /logout.pl
Disallow: /manage_friend.pl
Disallow: /mikly.pl
Disallow: /search_diary.pl
Disallow: /regist.pl
Disallow: /reset_password.pl
Disallow: /search.pl
Disallow: /search_album.pl
Disallow: /search_community.pl
Disallow: /search_event.pl
Disallow: /search_review.pl
Disallow: /show_friend.pl
Disallow: /show_intro.pl
Disallow: /show_profile.pl
Disallow: /view_album.pl
Disallow: /view_diary.pl
Disallow: /view_enquete.pl
Disallow: /view_event.pl
Disallow: /view_item.pl
Disallow: /view_message.pl
Disallow: /banner.pl
Disallow: /list_message.pl
Disallow: /list_review.pl
Disallow: /new_friend_diary.pl
Disallow: /set_cookie.pl
Disallow: /img/

みずほ銀行のrobots.txt

みずほ銀行のrobots.txtも調べました。何となく重要な法人顧客向けの秘密のデモページやWEBメーラーへのリンクが入っているような…。こういう見られては困りそうなページは、robots.txtに記述するのではなく、IP制限とか掛けたほうが良さそうな気がします。

http://www.mizuhobank.co.jp/robots.txt

-agent: *
Disallow: /link/
Disallow: /english/link/
Disallow: /shokuiki/
Disallow: /loan/multi_extra/index.html
Disallow: /loan/multi_extra/detail.html
Disallow: /setsumeisho/pdf/multi_extra.pdf
Disallow: /mail/
Disallow: /corporate/ebservice/denshi/densai/manual/
Disallow: /corporate/ebservice/account/b_web/renewal/
Disallow: /corporate/ebservice/account/b_web/campaign.html
Disallow: /corporate/ebservice/account/b_web/campaign_bweb.html
Disallow: /corporate/ebservice/account/ebusiness/levelup.html
Disallow: /corporate/ebservice/account/ebusiness/campaign_ebs.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107020010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107020010_s.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107020130.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107020140.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107020330.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107020340.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107030010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107030320.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B107030330.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B202000000.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B202010010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B202010020.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B203000010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B203010330.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B203030010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B203030020.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B203030040.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B204000000.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B204031130.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B204031140.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B204031210.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B301010130.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B301010150.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B301010160.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B301010180.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B301030010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B301050010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B301060110.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B301060120.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B303010010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B303020730.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B303020730_2.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B303020740.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B303030110.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B304010010.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B304020020.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B304020030.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B304020030_2.html
Disallow: /corporate/ebservice/account/ebusiness/demo/B305020020.html
Disallow: /corporate/ebservice/account/ebusiness/demo/DA010G01.html
Disallow: /corporate/ebservice/account/ebusiness/demo/DB020G01.html
Disallow: /corporate/ebservice/account/ebusiness/demo/DG010G01.html
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/dmnaitame.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/dmtakyoten.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/furifuri.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/gaika.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/gaitamekyoutu.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/hishimuke.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/kokunaikyoutu.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/nyusyukkin.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/shimuke.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/sonota.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/soufuri.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/yoyaku.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/yunyu.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/yunyukessai.pdf
Disallow: /corporate/ebservice/account/ebusiness/levelup/pdf/syousai/yusyutu.pdf
Disallow: /debit_cashback/index.html
Disallow: /im/debit_cashback/index.html
Disallow: /im/debit_cashback/tenpo.html
Disallow: /ez/debit_cashback/index.html
Disallow: /ez/debit_cashback/tenpo.html
Disallow: /jp/debit_cashback/index.html
Disallow: /jp/debit_cashback/tenpo.html
Disallow: /corporate/ebservice/account/webreport/manual/index.html
Disallow: /corporate/ebservice/account/webreport/manual/pdf/3501y203.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/cover.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/cyuui.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/manual.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/masteruser.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/nichijo.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/okomari.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/riyoumae.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/rockkaijouser.pdf
Disallow: /corporate/ebservice/account/webreport/manual/pdf/setupguide.pdf
Disallow: /mmc_rec/card/atm_card_shinki.html
Disallow: /mmc_rec/card/card_gendogaku.html

Twitterのrobots.txt

Twitterのrobots.txtも調べて見ました。

https://www.twitter.com/robots.txt

#Google Search Engine Robot
User-agent: Googlebot
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Yahoo! Search Engine Robot
User-Agent: Slurp
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Yandex Search Engine Robot
User-agent: Yandex
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Microsoft Search Engine Robot
User-Agent: msnbot
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

# Every bot that might possibly read and respect this file.
User-agent: *
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following
Disallow: /oauth
Disallow: /1/oauth

# Wait 1 second between successive requests. See ONBOARD-2698 for details.
Crawl-delay: 1

# Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
# the protocol of the sitemap.
Sitemap: https://twitter.com/sitemap.xml

Twitterの場合、特徴的なのは、一部の検索エンジンに対して、Allow: /?_escaped_fragment_を許可していることです。これは特殊な指定で、Ajaxを使ったリンクでも、#!から始まるURLを検索エンジンで認識させることができるようにする指定です。また、検索関連やOAuth関連のクロールを禁止しているのは、無限クロールの負荷対策でしょう。また、フォロワーの一覧ページもクロールされないように対策されています。

Wikipediaのrobots.txt

Wikipediaのrobots.txtは、利用者のページや削除依頼のページなどに関して、かなり細かくDisallowを記述しています。また、一部のお行儀が悪いクローラーの無限アクセスを遮断するために、特定クローラーを対象に全ページを巡回禁止にする設定も入れています。全部引用すると長くなるので、日本語関連のrobots.txtだけ以下に引用します。

http://ja.wikipedia.org/robots.txt

# ここに書かれた内容はグローバルRobots.txtに追加されます。設定はローカルでのみ有効です。
#
# ブラックリスト関係
Disallow: /wiki/MediaWiki:Spam-blacklist
Disallow: /wiki/MediaWiki%3ASpam-blacklist
Disallow: /wiki/MediaWiki%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:Spam-blacklist
Disallow: /wiki/MediaWiki%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3ASpam-blacklist
Disallow: /wiki/MediaWiki:Titleblacklist
Disallow: /wiki/MediaWiki%3ATitleblacklist
Disallow: /wiki/MediaWiki%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:Titleblacklist
Disallow: /wiki/MediaWiki%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3ATitleblacklist
#
# 削除依頼関係
Disallow: /wiki/Wikipedia:削除依頼
Disallow: /wiki/Wikipedia:%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%3A%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia‐ノート:削除依頼
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia:利用者ページの削除依頼
Disallow: /wiki/Wikipedia:%E5%88%A9%E7%94%A8%E8%80%85%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%3A%E5%88%A9%E7%94%A8%E8%80%85%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia‐ノート:利用者ページの削除依頼
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E5%88%A9%E7%94%A8%E8%80%85%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E5%88%A9%E7%94%A8%E8%80%85%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia:リダイレクトの削除依頼
Disallow: /wiki/Wikipedia:%E3%83%AA%E3%83%80%E3%82%A4%E3%83%AC%E3%82%AF%E3%83%88%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%3A%E3%83%AA%E3%83%80%E3%82%A4%E3%83%AC%E3%82%AF%E3%83%88%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia‐ノート:リダイレクトの削除依頼
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E3%83%AA%E3%83%80%E3%82%A4%E3%83%AC%E3%82%AF%E3%83%88%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E3%83%AA%E3%83%80%E3%82%A4%E3%83%AC%E3%82%AF%E3%83%88%E3%81%AE%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia:削除の過去ログ
Disallow: /wiki/Wikipedia:%E5%89%8A%E9%99%A4%E3%81%AE%E9%81%8E%E5%8E%BB%E3%83%AD%E3%82%B0
Disallow: /wiki/Wikipedia%3A%E5%89%8A%E9%99%A4%E3%81%AE%E9%81%8E%E5%8E%BB%E3%83%AD%E3%82%B0
Disallow: /wiki/Wikipedia:削除記録
Disallow: /wiki/Wikipedia:%E5%89%8A%E9%99%A4%E8%A8%98%E9%8C%B2
Disallow: /wiki/Wikipedia%3A%E5%89%8A%E9%99%A4%E8%A8%98%E9%8C%B2
Disallow: /wiki/Category:削除依頼中の記事
Disallow: /wiki/Category%3A%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC%E4%B8%AD%E3%81%AE%E8%A8%98%E4%BA%8B
Disallow: /wiki/Category:%E5%89%8A%E9%99%A4%E4%BE%9D%E9%A0%BC%E4%B8%AD%E3%81%AE%E8%A8%98%E4%BA%8B
Disallow: /wiki/Category:緊急案件
Disallow: /wiki/Category:%E7%B7%8A%E6%80%A5%E6%A1%88%E4%BB%B6
Disallow: /wiki/Category%3A%E7%B7%8A%E6%80%A5%E6%A1%88%E4%BB%B6
Disallow: /wiki/Wikipedia:削除の復帰依頼
Disallow: /wiki/Wikipedia:%E5%89%8A%E9%99%A4%E3%81%AE%E5%BE%A9%E5%B8%B0%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%3A%E5%89%8A%E9%99%A4%E3%81%AE%E5%BE%A9%E5%B8%B0%E4%BE%9D%E9%A0%BC
#
# Wikipedia名前空間へのショートカット
Disallow: /wiki/WP:
Disallow: /wiki/WP%3A
Disallow: /wiki/ノート:WP
Disallow: /wiki/%E3%83%8E%E3%83%BC%E3%83%88:WP:
Disallow: /wiki/%E3%83%8E%E3%83%BC%E3%83%88%3AWP%3A
Disallow: /wiki/LTA:
Disallow: /wiki/LTA%3A
#
# 不適切な利用者名を記載する可能性があるページ
Disallow: /wiki/Wikipedia:投稿ブロック依頼
Disallow: /wiki/Wikipedia:%E6%8A%95%E7%A8%BF%E3%83%96%E3%83%AD%E3%83%83%E3%82%AF%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%3A%E6%8A%95%E7%A8%BF%E3%83%96%E3%83%AD%E3%83%83%E3%82%AF%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia‐ノート:投稿ブロック依頼
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E6%8A%95%E7%A8%BF%E3%83%96%E3%83%AD%E3%83%83%E3%82%AF%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E6%8A%95%E7%A8%BF%E3%83%96%E3%83%AD%E3%83%83%E3%82%AF%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia:管理者伝言板
Disallow: /wiki/Wikipedia:%E7%AE%A1%E7%90%86%E8%80%85%E4%BC%9D%E8%A8%80%E6%9D%BF
Disallow: /wiki/Wikipedia%3A%E7%AE%A1%E7%90%86%E8%80%85%E4%BC%9D%E8%A8%80%E6%9D%BF
Disallow: /wiki/Wikipedia‐ノート:管理者伝言板
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E7%AE%A1%E7%90%86%E8%80%85%E4%BC%9D%E8%A8%80%E6%9D%BF
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E7%AE%A1%E7%90%86%E8%80%85%E4%BC%9D%E8%A8%80%E6%9D%BF
Disallow: /wiki/Wikipedia:進行中の荒らし行為
Disallow: /wiki/Wikipedia:%E9%80%B2%E8%A1%8C%E4%B8%AD%E3%81%AE%E8%8D%92%E3%82%89%E3%81%97%E8%A1%8C%E7%82%BA
Disallow: /wiki/Wikipedia%3A%E9%80%B2%E8%A1%8C%E4%B8%AD%E3%81%AE%E8%8D%92%E3%82%89%E3%81%97%E8%A1%8C%E7%82%BA
Disallow: /wiki/Wikipedia‐ノート:進行中の荒らし行為
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E9%80%B2%E8%A1%8C%E4%B8%AD%E3%81%AE%E8%8D%92%E3%82%89%E3%81%97%E8%A1%8C%E7%82%BA
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E9%80%B2%E8%A1%8C%E4%B8%AD%E3%81%AE%E8%8D%92%E3%82%89%E3%81%97%E8%A1%8C%E7%82%BA
Disallow: /wiki/Wikipedia:利用者名変更依頼
Disallow: /wiki/Wikipedia:%E5%88%A9%E7%94%A8%E8%80%85%E5%90%8D%E5%A4%89%E6%9B%B4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%3A%E5%88%A9%E7%94%A8%E8%80%85%E5%90%8D%E5%A4%89%E6%9B%B4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia‐ノート:利用者名変更依頼
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E5%88%A9%E7%94%A8%E8%80%85%E5%90%8D%E5%A4%89%E6%9B%B4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E5%88%A9%E7%94%A8%E8%80%85%E5%90%8D%E5%A4%89%E6%9B%B4%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia:CheckUser依頼
Disallow: /wiki/Wikipedia:CheckUser%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%3ACheckUser%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia‐ノート:CheckUser依頼
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:CheckUser%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3ACheckUser%E4%BE%9D%E9%A0%BC
Disallow: /wiki/Wikipedia:チェックユーザー依頼
Disallow: /wiki/Wikipedia:%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC
Disallow: /wiki/Wikipedia%3A%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC
Disallow: /wiki/Wikipedia‐ノート:チェックユーザー依頼
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88:%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC
Disallow: /wiki/Wikipedia%E2%80%90%E3%83%8E%E3%83%BC%E3%83%88%3A%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC
#
# 利用者ページ・会話ページ
Disallow: /wiki/利用者:
Disallow: /wiki/%E5%88%A9%E7%94%A8%E8%80%85:
Disallow: /wiki/%E5%88%A9%E7%94%A8%E8%80%85%3A
Disallow: /wiki/利用者‐会話:
Disallow: /wiki/%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1:
Disallow: /wiki/%E5%88%A9%E7%94%A8%E8%80%85%E2%80%90%E4%BC%9A%E8%A9%B1%3A
#

facebookのrobots.txt

facebookもプロフィールページや全体に公開している投稿は検索エンジンの巡回対象になりますが、robots.txtでその一部をクロールされないように制御しています。Googlebot向けの記述だけ引用します。

https://www.facebook.com/robots.txt

User-agent: Googlebot
Disallow: /ac.php
Disallow: /ae.php
Disallow: /ajax/
Disallow: /album.php
Disallow: /ap.php
Disallow: /autologin.php
Disallow: /checkpoint/
Disallow: /feeds/
Disallow: /l.php
Disallow: /o.php
Disallow: /p.php
Disallow: /photo.php
Disallow: /photo_comments.php
Disallow: /photo_search.php
Disallow: /photos.php
Disallow: /share.php
Disallow: /sharer/

Googleのrobots.txt

検索エンジンの親玉Googleは、自社でどんなrobots.txtを置いているのでしょうか。Googleのサービスはいくつかサブドメイン形式になっているため、全部のrobots.txtを見るのは大変ですが、ここでは、www.google.comのrobots.txtを見てみましょう。著作権の関係からか/books関係が多いのと、一部重要顧客向けのページや、新サービスの実験ページっぽいアドレスなども入っているようですね。

http://www.google.com/robots.txt

User-agent: *
Disallow: /search
Disallow: /sdch
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Allow: /catalogs/about
Allow: /catalogs/p?
Disallow: /catalogues
Disallow: /news
Allow: /news/directory
Disallow: /nwshp
Disallow: /setnewsprefs?
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
Disallow: /addurl/image?
Disallow: /pagead/
Disallow: /relpage/
Disallow: /relcontent
Disallow: /imgres
Disallow: /imglanding
Disallow: /sbd
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /default
Disallow: /m?
Disallow: /m/
Disallow: /wml?
Disallow: /wml/?
Disallow: /wml/search?
Disallow: /xhtml?
Disallow: /xhtml/?
Disallow: /xhtml/search?
Disallow: /xml?
Disallow: /imode?
Disallow: /imode/?
Disallow: /imode/search?
Disallow: /jsky?
Disallow: /jsky/?
Disallow: /jsky/search?
Disallow: /pda?
Disallow: /pda/?
Disallow: /pda/search?
Disallow: /sprint_xhtml
Disallow: /sprint_wml
Disallow: /pqa
Disallow: /palm
Disallow: /gwt/
Disallow: /purchases
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local?
Disallow: /local_url
Disallow: /shihui?
Disallow: /shihui/
Disallow: /froogle?
Disallow: /products?
Disallow: /products/
Disallow: /froogle_
Disallow: /product_
Disallow: /products_
Disallow: /products;
Disallow: /print
Disallow: /books/
Disallow: /bkshp?*q=*
Disallow: /books?*q=*
Disallow: /books?*output=*
Disallow: /books?*pg=*
Disallow: /books?*jtp=*
Disallow: /books?*jscmd=*
Disallow: /books?*buy=*
Disallow: /books?*zoom=*
Allow: /books?*q=related:*
Allow: /books?*q=editions:*
Allow: /books?*q=subject:*
Allow: /books/about
Allow: /booksrightsholders
Allow: /books?*zoom=1*
Allow: /books?*zoom=5*
Disallow: /ebooks/
Disallow: /ebooks?*q=*
Disallow: /ebooks?*output=*
Disallow: /ebooks?*pg=*
Disallow: /ebooks?*jscmd=*
Disallow: /ebooks?*buy=*
Disallow: /ebooks?*zoom=*
Allow: /ebooks?*q=related:*
Allow: /ebooks?*q=editions:*
Allow: /ebooks?*q=subject:*
Allow: /ebooks?*zoom=1*
Allow: /ebooks?*zoom=5*
Disallow: /patents?
Disallow: /patents/related/
Allow: /patents?id=
Allow: /patents?vid=
Disallow: /scholar
Disallow: /citations?
Allow: /citations?user=
Allow: /citations?view_op=new_profile
Allow: /citations?view_op=top_venues
Disallow: /complete
Disallow: /s?
Disallow: /sponsoredlinks
Disallow: /videosearch?
Disallow: /videopreview?
Disallow: /videoprograminfo?
Allow: /maps/api/js?
Disallow: /maps?
Disallow: /mapstt?
Disallow: /mapslt?
Disallow: /maps/stk/
Disallow: /maps/br?
Disallow: /mapabcpoi?
Disallow: /maphp?
Disallow: /mapprint?
Disallow: /maps/api/js/
Disallow: /maps/api/staticmap?
Disallow: /mld?
Disallow: /staticmap?
Disallow: /places/
Allow: /places/$
Disallow: /maps/preview
Disallow: /maps/place
Disallow: /help/maps/streetview/partners/welcome/
Disallow: /help/maps/indoormaps/partners/
Disallow: /lochp?
Disallow: /center
Disallow: /ie?
Disallow: /sms/demo?
Disallow: /katrina?
Disallow: /blogsearch?
Disallow: /blogsearch/
Disallow: /blogsearch_feeds
Disallow: /advanced_blog_search
Disallow: /reader/
Allow: /reader/play
Disallow: /uds/
Disallow: /chart?
Disallow: /transit?
Disallow: /mbd?
Disallow: /extern_js/
Disallow: /calendar/feeds/
Disallow: /calendar/ical/
Disallow: /cl2/feeds/
Disallow: /cl2/ical/
Disallow: /coop/directory
Disallow: /coop/manage
Disallow: /trends?
Disallow: /trends/music?
Disallow: /trends/hottrends?
Disallow: /trends/viz?
Disallow: /notebook/search?
Disallow: /musica
Disallow: /musicad
Disallow: /musicas
Disallow: /musicl
Disallow: /musics
Disallow: /musicsearch
Disallow: /musicsp
Disallow: /musiclp
Disallow: /browsersync
Disallow: /call
Disallow: /archivesearch?
Disallow: /archivesearch/url
Disallow: /archivesearch/advanced_search
Disallow: /base/reportbadoffer
Disallow: /urchin_test/
Disallow: /movies?
Disallow: /codesearch?
Disallow: /codesearch/feeds/search?
Disallow: /wapsearch?
Disallow: /safebrowsing
Allow: /safebrowsing/diagnostic
Allow: /safebrowsing/report_badware/
Allow: /safebrowsing/report_error/
Allow: /safebrowsing/report_phish/
Disallow: /reviews/search?
Disallow: /orkut/albums
Allow: /jsapi
Disallow: /views?
Disallow: /c/
Disallow: /cbk
Allow: /cbk?output=tile&cb_client=maps_sv
Disallow: /recharge/dashboard/car
Disallow: /recharge/dashboard/static/
Disallow: /translate_a/
Disallow: /translate_c
Disallow: /translate_f
Disallow: /translate_static/
Disallow: /translate_suggestion
Disallow: /profiles/me
Allow: /profiles
Disallow: /s2/profiles/me
Allow: /s2/profiles
Allow: /s2/photos
Allow: /s2/static
Disallow: /s2
Allow: /s2/search/social
Disallow: /transconsole/portal/
Disallow: /gcc/
Disallow: /aclk
Disallow: /cse?
Disallow: /cse/home
Disallow: /cse/panel
Disallow: /cse/manage
Disallow: /tbproxy/
Disallow: /imesync/
Disallow: /shenghuo/search?
Disallow: /support/forum/search?
Disallow: /reviews/polls/
Disallow: /hosted/images/
Disallow: /ppob/?
Disallow: /ppob?
Disallow: /ig/add?
Disallow: /adwordsresellers
Disallow: /accounts/o8
Allow: /accounts/o8/id
Disallow: /topicsearch?q=
Disallow: /xfx7/
Disallow: /squared/api
Disallow: /squared/search
Disallow: /squared/table
Disallow: /toolkit/
Allow: /toolkit/*.html
Disallow: /globalmarketfinder/
Allow: /globalmarketfinder/*.html
Disallow: /qnasearch?
Disallow: /app/updates
Disallow: /sidewiki/entry/
Disallow: /quality_form?
Disallow: /labs/popgadget/search
Disallow: /buzz/post
Disallow: /compressiontest/
Disallow: /analytics/reporting/
Disallow: /analytics/admin/
Disallow: /analytics/web/
Disallow: /analytics/feeds/
Disallow: /analytics/settings/
Disallow: /alerts/
Disallow: /ads/preferences/
Allow: /ads/preferences/html/
Allow: /ads/preferences/plugin
Disallow: /ads/search
Disallow: /settings/ads/onweb/
Disallow: /phone/compare/?
Allow: /alerts/manage
Allow: /alerts/remove
Disallow: /travel/clk
Disallow: /hotelfinder/rpc
Disallow: /flights/rpc
Disallow: /commercesearch/services/
Disallow: /evaluation/
Disallow: /chrome/browser/mobile/tour
Disallow: /compare/*/apply*
Disallow: /forms/perks/
Disallow: /baraza/*/search
Disallow: /baraza/*/report
Disallow: /shopping/suppliers/search
Disallow: /ct/
Disallow: /edu/cs4hs/
Sitemap: http://www.gstatic.com/culturalinstitute/sitemaps/www_google_com_culturalinstitute/sitemap-index.xml
Sitemap: http://www.google.com/hostednews/sitemap_index.xml
Sitemap: http://www.google.com/sitemaps_webmasters.xml
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml
Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

最後に:robots.txtはセキュリティホールにもなる

以上、有名サイトのrobots.txtを見てきました。検索エンジン経由で見られたくないページっていうのが、公開されているrobots.txtを見ると人の目でも簡単にわかってしまうことがわかるかと思います。無限クロールに陥りやすいページや、重要顧客を対象にしたページなど、いずれもこういう情報が露出していることは、ある意味でセキュリティホールを自ら晒すことでもあります。

本当に見られては困るページは、robots.txtだけでなく、IP制限などを掛けたり、サーバー側キャッシュは残さない設定にしておくことをオススメします。

31 件のコメント

  • 無限クロールに陥りやすいページや、重要顧客を対象にしたページなど、いずれもこういう情報が露出していることは、ある意味でセキュリティホールを自ら晒すことでもあります。 本当に見られては困るページは、robots.t

  • robots.txtにも個性あるんだなぁ / みずほのとか見るとDisallow集められたら困るところもありそうな予感

  • これは面白い記事。robots.txtを見るという発想があまり無かったので気にもとめてなかったけど、場合によってはセキュリティホールにもなりうるというのは注目すべきだと思う。

  • 本当に見られては困るページは、robots.txtだけでなく、IP制限などを掛けたり、サーバー側キャッシュは残さない設定にしておくことをオススメします。

  • "大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴 「robots.txt」というものをご存知でしょうか。あるサイトについて、サイト運営者が検索エンジンのクローラ ..

  • 本当に見られたら困るものはそもそもアクセスできないようにと。 / 実はきちんと対策をとっていて、(それっぽい)リストはダミーだったらすごいなと思ったり(笑)。

  • これ面白いな。|大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

  • robots.txtはセキュリティホールにもなる。本当に見られては困るページは、robots.txtだけでなく、IP制限などを掛けたり、サーバー側キャッシュは残さない設定にしておくことをオススメします。

  • SNSや銀行のサイトに設置されているrobots.txtを並べて見ている。負荷に弱い箇所も羅列するので『ある意味でセキュリティホールを自ら晒すことでもあります』というのは、なるほど。