一些網站收到 Google Search Console (GSC)通知信,長得像這樣:

主旨:有新的原因導致「」網站上的網頁無法建立索引
內文:導致你的網頁無法編入索引的新原因
Search Console 發現你網站上有部分網頁未編入索引,這是由以下新原因造成:
找不到 (404)
如果這項原因並非刻意設定,建議你修正問題,讓系統能將受影響的網頁編入索引,以便顯示在 Google 服務中。
按鈕:開啟索引報表

點擊開啟索引報表,然後會把人騙到釣魚網頁,騙人輸入 Google 帳號密碼?
Google 自從前幾年強制 MFA 之後,單純靠帳密已經登不進去了,

我當然沒點連結,但這也真的不是詐騙信,
而又是一個黑帽 SEO 在玩弄 Google 搜尋引擎的世界奇觀…

更新: 這一波 /1000 造成的 404 索引錯誤在國外也有討論

什麼是反向連結(Backlinks)

這些玩弄搜尋引擎的方法都牽涉一個搜尋引擎的機制: 反向連結
Google 在判斷網頁的關聯性時,會將連結視為信號,並找出要檢索的新網頁。
Google 透過網頁上的連結找到其他網頁,
以及透過超連結文字(錨定文字),讓使用者和 Google 更容易理解該連結的內容。

所以想要玩弄搜尋引擎的人,可以做一個網頁,然後在網頁上加上各種連結,搜尋引擎就會通通來爬,
來爬的時候碰到主機狀態碼回應 404 找不到頁面的,
就會通知網站 Google Search Console 內的管理員信箱…

本文沒有要討論反向連結與排名相關的事情,
這邊只是單純討論網站程式設計時,跟網站維護時,反向連結會怎樣被有心人士利用。

Google Search Console 的索引狀態報表

網站管理員從 Google Search Console 的產生索引>網頁>網頁未編入索引的原因>找不到 (404),
可以很輕鬆的查到究竟網站裡有哪些網址,Google 想要索引,卻碰到 404 錯誤?

這機制立意是好的,
對於網站管理者而言,例如上稿時要放一個連結,
但因為輸入框太短或是怎樣的狀況,不小心網址打錯了,當然無法正常連結。
被連結網站的網站管理員,也會從他的 GSC 報告中看到網站發生 404 錯誤。
然後可以再用 GSC 的網址檢查工具,查詢到是哪個網站要連結他的頁面,但是放錯連結…

而且這個不管是站內連結,還是站外連結都會通知,
雖然這份報告要等 Google 的搜尋引擎爬蟲來爬,不是即時的,
跟一些會即時爬站內網頁的 404 error 檢查工具不一樣,但還是算堪用。

連結垃圾(link spam)

機制是好用的,但如果對方網站是那種 SEO 垃圾網站呢?

首先這種 404 未編入索引的錯誤,從某一天開始大幅增加(Y軸是發生 404 錯誤的頁面數量)

擅長美化報表數字的人,可能會說網站的反向連結暴增,
表示________(代入賣的行銷產品或服務)很有成效,可喜可賀!

查看了這些開發方式、程式語言各異的網站,
發現這些錯誤的網址,
可能網址少了一半,或是結尾被加了 /1000 之類的。

使用 GSC 的網址檢查工具,看看是從哪個內部頁面或外部網站連過來的,一看…又是連結垃圾網站。

特徵:
1.直接連這些網址是進不去的,進去後可能跳轉到其他隨機廣告頁面,或是要進行人機驗證。
2.真人反而看不到網頁,要換成 googlebot 或其他方式,才可以看到網頁內容。
3.網頁內容通常是上面一張大圖,下面是一堆文章標題、文章重點摘要,還有連到其他網站的連結。

如上圖,這波連結垃圾網站的版型都有高度共通性…

劣質反向連結其實是一種流傳多年的黑帽 SEO 手法,
至於網站管理者要不要花時間花人力去處理?

Google 在禁止連結指向你的網站有明文寫說:

只有在符合以下條件時,你才應該禁止反向連結:
有大量垃圾連結、人工連結或劣質連結指向你的網站,
並且
你的網站已經因為這些連結而受到專人介入處理,或是有可能因此受到專人介入處理。

如果要比較近期的資料,上個月 2023/12/6 在台北舉辦的 Google Search Central Live,
在 SEO 迷思環節,其中有一頁投影片提到:

如果有劣質或有害的隨機連結指向你的網站,可以放心忽略沒問題。

網址參數攻擊-垃圾關鍵字(URL parameter spamming)

開頭的圖片還有另外兩種玩法,接管一些老網站時特別容易碰到。
使用一些關鍵字在 Google 搜尋,也可以輕易找到一堆中標的大型網站…

這手法就是利用網站的站內搜尋功能(search query parameter)、no result page,還有反向連結,
三者合一,成功幫網站注入一些不相關或有害的關鍵字。

Google 即使號稱會使用演算法和程式判斷機制來對付這種手法,
但如今看起來還是道高一尺,魔高一丈,防不勝防…

網站管理員如果要檢查自己網站有沒有這種情況,
一樣到 GSC 裡面查看,網站明明萬年沒增加新頁面、新文章,但是已建立索引的頁面卻越來越多,就需要開始檢查了…

如果是使用 YoastSEO 的 WordPress 網站,
不想要像上面那張圖的一樣,訪客從 Google 進站都是找小姐姐?
可以把以下設定打開,排除任何搜尋結果頁,
步驟:YoastSEO>設定>進階>檢索最佳化>網站內部搜尋結果清理>防止檢索網站內部搜尋結果網址(如下圖)。

其他的網頁也可以改 robots.txt,或是在搜尋結果頁加程式,來達成相同的加護效果。
但最好祈禱廠商窗口聽得懂客人的訴求,跟工程師真的知道怎麼改。

但是這個禁止檢索的方式不適合一種關鍵字 tag 頁的土砲作法,
就是例如文章中有個關鍵字叫「認證」,想要點下去有一頁文章清單,顯示所有被標記成「認證」的文章,用來做 SEO 用途,這功能也不是文章分類。
在某些地方,可能就會教客人用搜尋結果頁來達成,
但如果今天為了避免被 URL parameter spamming,把搜尋結果頁變成禁止搜尋引擎索引?
可能導致那些本來排名名列前茅的頁面從 SERP 中消失…

網址參數攻擊-資訊洩漏

既然講到網址參數與 SEO 相關的主題,就不得不提一下 2023/7 這個經典案例
[爆卦] 原X屋個資外洩拉!!
【公告】關於搜尋原價屋訂單資訊。

簡單來說就是一個電腦3C賣場原價屋,網站上有一個單憑網址就能看到訂單明細的功能,
在原價屋線上訂購過,可能知道訂單頁網址結構規則的,或是用頁面上的文字當關鍵字,在 Google 就能找到這些被 Google 索引過訂單明細頁面。

雖然每一張訂單後面都帶有不同的系統序號,
字數滿長的,是英文大小寫和數字混合,不是單純只用年月日和數字編號而已,
官方也有寫說「善意提醒:請勿將結果公開於網路上,否則將會暴露自身個資」,
但搜尋引擎哪有管這些?
這些訂單明細頁面被檢索成功後,就放到搜尋引擎索引,供大家查詢。

現在用 site:www.coolpc.com.tw inurl:noquery.php 已經找不到半個洩漏的訂單網址,也需要輸入個資才能查詢。

至於當初為什麼這樣設計,因為就是會有沒留手機email只有名字的訂單? 甲方要求乙方只能照做? 專案 costdown 問題? 只有當事人才知道了。

網址參數攻擊-重新轉向

網址參數攻擊還有很多用法,除了偏資安方面的,或是像上面這種惡搞 SEO 的,
還有像是用來網站功能來製造一些額外的轉址連結,
使用者明明看開頭網址是正常的大網站,但點進去卻會跑到其他網站。

之前接手一個舊網站,裡面有個功能,
當使用者點擊外站連結,會先跳到一個提示畫面,然後自動轉址到目標網址的功能。
一看就覺得不妙,把 GSC 報表拉出來看,果然非常精采…

有接到這種轉址功能需求的,實作時要小心,以免創造更多工作機會。

心得

可能是又出現一波使用這種垃圾連結進行 SEO 操作的網站,
導致一些網站都收到這個 Google Search Console 的 404 索引錯誤通知,真是煩人。
有出現錯誤還算好的,萬一真的成功被搜尋引擎索引到,到時候要提交清除,就更麻煩了。

之前自己也有寫過其他關於 GSC 通知信的主題,當時的是 偵測到網站有新的行動裝置可用性問題
當年那些問題網站,現在已經不會再收到這種通知,
可能是 Google 把某些 bug 修好了吧?

比較近期在國外引發討論的還有影片網頁索引的問題,
之前 GSC 也是會寄信來通知「網頁的主要內容不是影片」,
可是影片有時候就是輔助內容,沒有要放在第一個畫面呀?

Google 從 2023/12 月開始把該那些頁面移出影片頁面索引(如上圖),
於是一些網站管理員/內容發布者又開始跟 Google 吵…

可能網站沒問題,各種通知信卻讓網站開發者不堪其擾,真是太可惡了,
但也有些是真的可能有問題,需要網站管理者去關心的。

至於垃圾連結、垃圾關鍵字問題,也是老早之前企鵝演算法相關的東西,
但如今 2024 年還要繼續面對它、處理它,
只能說網站維護是一門吃力不討好的工作。

一般使用者也很難判斷說廠商每年收一大筆網站費用,是真的有在辛苦的管理跟檢查什麼,還是巧立明目賺錢而已?