技術ブログのような何か
About | Profile | Application | Source Code | RSS
投稿日時 2025-01-09 00:28:25 +0900 | カテゴリー 技術
一応このブログも Google の検索に出てきてほしいのでサイトマップを Google Search Console に登録している。
しかし、登録してから 1 ヶ月以上放置しても、以下のように「取得できませんでした」となっている。
ググった感じ「時間経過で解消した」といった事例が散見されたので、放置していたのだが全然解消しなかった。 仕方なく重い腰を上げて調べた。
最初に結論をいうと、途中で調査をやめた。 そのため、サイトマップが登録されない理由は不明なまま。 ただし、理由もなく調査をやめたわけではなく、必要なさそうだったのでやめた。
サイトマップについて - Google 検索セントラル によると、サイトマップ不要な場合があるらしい。
そもそもサイトマップはなぜ必要なのかというと、それも上の記事に説明があった。 ざっと説明を読んで要約すると、サイトマップが必要な理由は以下のとおり。
逆に、サイトが小さくてページがすべて他ページからリンクされており、 必ずページへ到達できるようになっているなら、サイトマップは不要ということ。 特に、このブログは記事をすべてトップページに列挙する作りなので、孤立ページは生まれない。 そのため、先の記事のとおりサイトマップは不要となる。
加えて、いつの間にかこのブログは Google 検索でヒットするようになっていた。
サイトマップは未だに「取得できませんでした」状態のままだけれど、Google 検索でヒットする。 なので Google Search Console は今だに変なことになってるけれど、Google 検索にのせたいって目的は達成出来ている。 そのため、現状のままで特に問題がないから、調査を打ち切った。
まぁ、このブログは自分がスマホからサクッと見られて、転職活動時に他人も見られるならそれで十分だったんだが。
一応調べたこともメモしておく。
サイトマップの構文的には問題ないはず。 Google の XML サイトマップと Sitemaps XML format - sitemaps.orgのプロトコルも確認したが 特段問題なさそうだった。
sitemaps.org による必須要件は次のとおり。
<urlset>
タグで開始して、</urlset>
タグで終了すること<urlset>
タグ内にネームスペース(プロトコル標準)を指定すること<url>
要素を含むこと<url>
親タグごとに子要素として <loc>
を含むことこれ以外のタグはすべて任意。
つまり <lastmod>
とかは別になくていい。
確認した限り、やはり sitemap.xml の仕様を満たしている。 まぁ jekyll-sitemap プラグインを使っているだけなので 変なサイトマップになりようがないはずだが。
一応 content-type も確認したが、application/xml なので、これも意図したもの。 実は html ファイルとして認識されている、的なこともない。
$ curl -v https://jiro4989.github.io/sitemap.xml 2>&1 | grep content-type
< content-type: application/xml
robots.txt からも sitemap.xml の URL は貼ってある。
$ curl https://jiro4989.github.io/robots.txt
Sitemap: https://jiro4989.github.io/sitemap.xml
<loc>
が絶対 URL になっているかサイトマップの作成と送信 - Google 検索セントラルでは、 参照 URL のプロパティは完全修飾された絶対 URL でなければならないと書かれていた。 /mypage.html みたいな相対パスは使ってはいけないらしい。 これも確認したが、絶対 URL になっていたので問題なかった。
たぶん関係ないと思っていたけれど、原因切り分けで blog ってリポジトリを作って GitHub Pages を公開した。 /blog/sitemap.xml を登録して Google Search Console に登録してみたが、同じく「取得できませんでした」だった。 なのでホストしてるパスは関係ない。
ざっと調べたことはこの程度。
まぁ知らん間に、ググってブログがヒットするようになってたので、とりあえず良し。
以上。