検索できない
話題が尽きないNYの法律事務所であるローウェンスタインサンドラーですが、現状小室職員のページはgoogle検索では出ない状態になっています。一体これはなぜなんでしょうか?
小室職員のことを事務所は世界に宣伝したくないんでしょうか。小室さんを世界に晒すことが恥ずかしいのかそう思ってしまいますよね。
そして出てきたページも画像は名無しの権兵衛のような画像。この画像のファイル名はgeneric.jpgという汎用的な名前。本当に彼は職員なのか疑問に思う人が多いのは
この意味不明な画像が原因の一つであるかもしれませんね。ちなみになぜ画像のファイル名が分かったかというとCtrl + Shift + Iで使える開発者ツールから
みることができるのです。この開発者ツールではWebサイトのhtmlやcssやJavascriptまで除くことができるのです。そしてhtmlは体の構造、cssは体の特徴や色、Javascriptは体の動作を表している
わけですね。なのでhtmlを見ればこのサイトの構造が丸わかりな訳です。javascriptを解読すれば、このサイトがどのような動きをするのか解読することが可能です。
ちなみにあくまで我々がみれるのはここまでであり、サーバーサイドのコードや変更履歴までは覗くことができないのです。それは内部関係者しか見えないのです。
我々がなぜソースを見れるかというと、サーバーから我々が使うブラウザ(google chrome)にhtmlやcssやJavascriptのソースコードを渡しているからなんですね。
それらがブラウザで読み取られ、サイトを形作ってくれているわけです。google chromeの開発者ツールを使うとそのソースを見れるようにしてくれているわけです。
このページは事実上の隠しページとなっており、知る人ぞ知るようなページになってしまいました。小室さんは未だロークラークのままですが
彼が仮に確率は低いでしょうが、NY司法試験に合格された場合アソシエイト弁護士に昇格します。アソシエイトに進化すれば年収は2000万円になるわけですね。
しかしその2000万円を稼ぐには当然ながら小室さんはその3 ~ 5倍以上は稼がなければならないでしょうね。会社に所属するとはそういうことです。
独立しているなら丸々報酬を得ることはできますが、彼は一応事務所に所属しているようですからね。最近小室君が社長になりたがっているという話が
話題になっていますね。その場合は丸々報酬は獲得できるでしょうが、看板も知名度も嫁に依存している彼がどのようにお金を稼ぐのか、そもそも依頼する人が
いるかは大きな疑問であります。当然お金を稼ぐためには彼と連絡を取らなければいけません。クライアントはgoogle検索を使って彼を調べるかもしれません。
しかしgoogle検索では彼を見つけることはできないのです。一体彼はどこへ行ってしまったんでしょうか。そもそもこの小室職員の連絡先も既に機能してない
メールアドレスかもしれないのです。というのはDavid Latさんという元々優秀な弁護士でジャーナリストである方がいるのですが、彼は取材のために小室職員に
電話をしたようですね。しかし小室君からは返信が返ってくることはなかったそうです。ある日、小室職員の記事を読んだSean MarottaさんはDavid latさんへ連絡を
とったようです。
この1年目のアソシエイトに長時間のインタビューをしてほしい。 これが彼の出番です。 このために生まれてきたのだから。 このために私はSubstackの購読料を払っているのだ。 (でも、本当はどっちでもいいんですけどね)。
小室圭さんには、ローエンスタイン・サンドラーのメールアドレスでインタビューのお願いをしましたが、まだお返事をいただいておりません。もし返事が来て、彼がインタビューに応じてくれれば、このページで紹介します。
なお、小室さんからの不在通知は受け取っていません。この問題を提起してくれたGreg Chernack氏に感謝します。
https://davidlat.substack.com/p/meet-the-biglaw-associate-who-just
David latさんのご返信はこの通りでした。彼の元に小室職員からのご返信があればいいですね。幻なのかもしれませんが。夢幻の如くなり。
なぜ見えない
では小室さんのページがなぜgoogle検索から消えてしまったのかを改めて詳細に説明しましょう。まずgoogleの検索ロボットについて解説しておきましょう。
我々がgoogle検索をするときに、検索窓に文字を入れるはずです。そうすればページがずらっと出てきますよね。しかしこのページの一覧はわざわざ
これらのサイトをいちいち見に行って表示している訳ではないのです。そんなことをすればこの一覧を出すのにあり得ないほど遅い時間がかかってしまうでしょう。
そんな検索エンジンは誰も使うことはないでしょう。さらにサイトを取得しに行ったとき、対象のサイトが落ちていれば目も当てられないですね。
何を見て一覧を出してくれるのでしょうか。それはGoogle Indexから取っているのです。googleが持っている大きな箱と思ってもらっていいでしょう。
googleにはGoogle Botというウェブクローラーがあります。Google Botは絶えず新しいサイトができたり、サイトの更新がないかをWeb上を巡回してくれています。
Google Botが対象のサイトを巡回したときに、そのサイトの内容を把握し、分析しようとします。当然タイトルやURLも取得することになります。そして得た情報をGoogle Indexに保存するのです。
そして我々が検索をしたときにはGoogle Indexから情報を取得し、一覧を表示しているのです。ちなみにGoogleは下記のように主張していますがそれは本当でしょうか。
ユーザーが検索クエリを入力すると、Google はさまざまな要因に基づいて、インデックスから最も関連性の高い回答を見つけようとします。最も精度の高い回答を判断し、ユーザーにとって利便性の高い最適な回答を提供するため、他の要素も考慮します。
https://developers.google.com/search/docs/beginner/how-search-works?hl=ja
この関連どが高い回答を見つけ出す動作に人間の私利私欲、また検閲も介入させることは容易でしょう。それが問題になっているのが現状だと考えます。
ちなみに検索クエリとはsearch?の右にある文字列のことを指しています。専門的にいうと、Getリクエストでクエリパラメーターを付随して送っていると言います。
他のブラウザであるDuckDuckGoやYahooも仕組みは同じでしょう。魚拓をとるWayback Machineもそのような仕組みです。
では小室さんのページに戻ってきましょう。開発者ツールを使ってみて中のソースコードを読んでみましょう。注目すべきところはこの<meta>というところです。
このメタタグとはなんなのでしょうか。<meta>タグに囲まれた情報はそのサイトのメタ情報と呼ばれます。そのサイトに関する情報とでも考えておけばいいです。
このメタ情報をブラウザや検索ロボットは読み込んで、このサイトの扱いを決めてくれるのです。つまりGoogle BotはこのMetaタグも読み込んでる訳です。
<meta name="title" content="Kei Komuro | Our Lawyers | Lowenstein Sandler LLP">
例えばこちらはname属性がtitleで、contentがKei Komuro | Our Lawyers | Lowenstein Sandler LLPですから
この小室職員のページのタイトルはKei Komuro | Our Lawyers | Lowenstein Sandler LLPなんだなとGoogle Botが読み込みGoogle Indexに保存してくれてる訳ですね
そして検索するとこんな感じで一覧表示してくれる訳ですね。
小室がいない
ん、と思われた方いるでしょうか。先ほどの画像ですが、Kei Komuro | Our Lawyers | Lowenstein Sandler LLPとは書かれていません。小室職員のページは
検索には出てきませんので当然でしょう。本来ならばこう出てくるはずですが。
ということはGoogle Indexには小室圭職員のページは保存されていないことになりますね。箱に入れられてないものを我々が検索して取得するのは
無理な話です。ないものはないのですから。それは幻なのです。永遠に見つけることはできません。
そして小室がいない理由はこのメタタグの中に隠されているのです。
<meta name="robots" content="noindex">
こちらはname属性がrobotsでありcontentはnoindexを指しています。これはなんなのでしょうか?
これは検索ロボットにindex登録をするなという命令なのです。つまりGoogle Botはこの小室職員のページを読み込んだときこう判断するのです。
Google Indexにはこの小室職員のページは入れてはならないと。よって小室職員のページはインデックス登録が行われないのです。
そしてこのname = robotsという指定は魔法の言葉であり、Google以外の検索ロボットにも同様の命令を出すのです。
つまりFirefoxでもDuckDuckgoでも、Yahooでも小室職員のページが検索にヒットすることは永遠にないのです。
このnoindexは炎上回避や見られたくないページで埋め込まれる場合があります。バレたら当然炎上します。やってることがせこいです。
例えば昔の話ですがドコモやauの解約手続きページにnoindexが埋め込まれて炎上したケースがあります。もちろんいくらgoogleで検索しても一生見つからないでしょう。せこいです。
https://www.soumu.go.jp/main_content/000735824.pdf
これには総務省も激怒し名指しでご通達を出されています。このようにnoindexを埋め込むような行為はせこいとしか言いようがありません。
noindexを入れるくらいならページごと消せばいいのにと思わなくもないですね。サイトのページは世界に公開するためにあるものですから隠すような真似はやはりせこいです。
せこさ満点でしょう。
そんな無敵のnoindexの命令を無視する最強のrobotがあります。wayback machineのbotです。これらのbotは小室職員のページを巡回しお構いなしで魚拓を取得します。
実際下記のカレンダーを見ると魚拓とられまくってますよね。ガン無視してることがわかります。
https://web.archive.org/web/2021*/https://www.lowenstein.com/people/attorneys/kei-komuro
回避する方法はUser-agent: ia_achiver Disallow:/と書かれたrobots.txtというファイルをサーバーのトップディレクトリに配置すれば回避できますが
lawensteinはやってないみたいですね。残念でした。ちなみに米国政府と軍サイトではrobots.txtさえ無視して読み込みに言ってるそうですが。というか最近はrobots.txtでさえ無視してるぽいですね。強いツールですね笑
さらにwayback machineは米国司法が訴訟の正当な証拠になりうると判断しているのも心強いところですね。
このwayback machineを使えば調査に時間という概念が追加できるので、また新たな調査検証ができると思うのでいろいろなところに使ってみてくださいね。
とても楽しいですよ。
まとめ
- 小室職員のページはgoogle検索にはヒットしません
- 他のブラウザ例えばDuckDuckGoやyahooでもヒットしません
- 探しても永遠に見つかりません。それは無駄な努力です。
- 他の職員はヒットします
- それはnoindexが埋め込まれてるものでした。
- ドコモやauは解約ページにnoindexを仕込んでバレて炎上し、総務省から激怒された歴史があります
- 朝日新聞もですが。。
- フィッシング詐欺サイトにもnoindexが埋め込まれる場合もありますね。対象に直接urlを渡す方式でしょう
- 端的にいうとnoindexを使うのは卑怯で、セコイですね
- 小室職員のページにはそんな卑怯でセコイnoindexが二つも埋め込まれています
しかしWayback Machineはそれを無視します。Wayback Machineは誤魔化せないのです。では次回はWayback
コメント