robots.txt

読み：ロボッツ・ドット・テクスト
外語：robots.txt

品詞：名詞

"A Standard for Robot Exclusion" に基づいて作られた、検索エンジン用ロボット(クローラー、スパイダーなど呼び方は様々)に対する設定ファイル。

概要

Webサーバーのルートディレクトリに "robot.txt" または "robots.txt" という名のファイルを設置することにより、検索ロボットのアクセスを制御できる。

検索ロボットが自動巡回する時には、このrobot(s).txtが参照され、索引化が許可されているか否かを自動で判断する。

大手の検索エンジンサイトが使っているロボットは、この一般的な規則に従って作られたものだと考えられるが、中には、当然(?) "A Standard for Robot Exclusion" に基づいて作られていない、行儀の悪いロボットも存在する。スパム用にメールアドレスを収集してまわるようなタイプのロボットは、当然行儀など考えていないであろう。

特徴

例えば、一行めに "User-Agent: *"、二行めに "Disallow: /" と書いておけば、サイト内の全ての索引化を拒否することになる。

主な記述例は、次の通り。

サイト全ての索引化を拒否する場合

User-Agent: *

Disallow: /
一部のディレクトリの索引化を拒否する場合

User-Agent: *

Disallow: /cgi-bin/

Disallow: /image/
特定の検索ロボットのみの索引化を許可する場合

User-Agent: *

Disallow: /

User-Agent: Lycos

Allow: /

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

通信	電算
科学	国土
鉄道	軍事
文化	萌色
短縮

通信	電算
科学	国土
鉄道	軍事
文化	萌色

robots.txt

目次

概要

特徴

リンク

広告

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

A	B	C	D	E
F	G	H	I	J
K	L	M	N	O
P	Q	R	S	T
U	V	W	X	Y
Z	数字		記号

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン