週末又看到一則新聞 Clubhouse全球6成用戶個資外洩!130萬人免費被看光 – ETtoday國際新聞 | ETtoday新聞雲,哇,是那個在中國大陸也被封鎖,浪費時間聽別人在喇低賽的語音社群軟體耶!我剛好也有帳號,該不會又外洩了吧?一研究之下,想不到又讓「看新聞會與事實脫節」系列多了一篇新廢文。

Clubhouse 資料外洩?全部來自個人公開檔案內容

資料來源又是跟之前介紹過的 近74萬筆台灣人臉書個資外洩!同一個論壇(本文不會放連結,不用找了),有一些國外媒體報導,如cybernews – Clubhouse data leak: 1.3 million scraped user records leaked online for free,然後台灣媒體也跟著報導,各種標題殺人大賽堪稱一絕。

那外洩的資料內容是什麼呢?論壇原 PO 的內容如下,號稱是從 Clubhouse 的 API 爬下來的一些資料,

Hello RaidForums Community,
Today I have uploaded Clubhouse Data Leak for you to download for free, thanks for reading and enjoy!

In 2021, the social media platform known as Clubhouse had its users data scrapped via their API. The result is 1.3 million user’s names, usernames, photos and social links being logged into a dataset which is downloadable below.

Compromised data: Usernames, Display Name (Usually real name), Profile Photo URLs, Social Links (Twitter and Instagram), Follower Counts, Account Creation and whom they were invited by.

這些所謂的外洩資料,一看就發現在莊孝維,例如從 Clubhouse 隨便找個人檔案點進去…

外洩的資料有 10 種資料欄位,上圖就可以得到其中的 9 項,剩下最後一個照片 URL 可以從 Share Profile 的 web 連結裡面取得 https://www.joinclubhouse.com/@froggychiu , 而 Display Name (Usually real name) ? 說得真是對極了,呱吉先生的本名當然就是呱吉,絕對不是南宮博士或邱威傑。

Clubhouse 比較有個資爭議的部分,在這次外洩事件完全沒有體現出來,
1.初期採邀請制,需要開放手機的整個通訊錄名單供 Clubhouse 利用,邀請碼會通過手機簡訊發送,……但這次沒有把使用者的手機號碼外洩出來!
2.語音溝通的方式也為Deepfake 再添一例!駭客成功用 AI 假語音騙到 24 萬美元 之類的邪惡應用,提供了不少素材,而且講話的多半是名人,想必更有利用的價值。
3.Clubhouse 背後使用中國 声网Agora 的語音相關 API 服務,在那個黨說了算的國家,數位個資的相關利用技術發展,肯定是一日千里,是別的民主人權國家難以望其項背的。

總結一下,與其說是個資外洩,不如說是有人把 Clubhouse 六成用戶的公開檔案整理成一份清單吧!可以來點沒公開的資料嗎?
即使都是公開的資訊,還是有機會可以達到不少可怕的用途,但可惜就是沒有手機號碼、每個帳號所屬的通訊錄名單、語音特徵之類的東西。Clubhouse 官方也回應那些資料都是個人公開檔案。

蕃薯藤的 1600 萬筆個資外洩,還有身分證字號

在論壇想查一下我有沒有在 Clubhouse 的外洩資料裡,卻意外在同論壇找到一篇上禮拜(2021/4/9)才發的文章,內容是提供 1600 多萬筆的「蕃薯藤」會員資料供人下載。原PO還將蕃薯藤稱為全台最大影片網站和第二大入口網站,蕃薯藤的頭銜有這麼厲害我都不知道,會員資料竟然還有這麼多筆? 該不會我小時候註冊的小蕃薯資料也又外洩了吧?

Today, I uploaded a complete leak data of Yam.com[16,325,560rows], fields: username,password,email,address,birthday,phone etc. Yam is the largest video website and the second largest portal website in Taiwan, the data was leaked in 2013, old but still useful. enjoy!

現在蕃薯藤比較知名的大概是他們家的地球圖輯隊,持續做出還不錯的主題報導。試了一下登入進去現在的蕃薯藤會員,會員資料非常單純,只剩訂閱電子報、姓名、生日、性別。以前的蕃薯藤會員註冊欄位、會員資料必填欄位不知道究竟有哪些?哪些又有做格式驗證?早就記不得了,竟然會外洩這麼多出去。

資料說是 2013 年外洩的,有一個 7.51GB 的 csv 檔案,裡面有許多不知道是什麼的欄位,但可辨識的至少有:
1.帳號
2.密碼(非明碼)
3.姓名、網路暱稱(兩個是分開的)
中文姓名最多的各種怡君、雅婷,和王小明,最多人用的英文名字是 goodgirl…
4.生日(有西元年份)
5.身分證字號
將近 1/4 有資料有身分證字號,超過2萬筆使用 A123456789,其中還有100多組身分證字號,每組都至少被上百個蕃薯藤帳號使用,隨便抽了幾組,竟然都符合台灣身分證字號驗證規則。
6.手機號碼
至少三成有手機號碼,但亂打的不少,0912345678 至少有4萬多筆,但比較好奇的是,按照手機號碼被拿來註冊蕃薯藤的次數,從多的開始排序,有一些看似正常的手機號碼夾在那些亂打的手機號碼中間,093868**93和091526**56,不知道這是什麼神秘門號?
7.市話號碼
至少 1/4 有市話號碼,但是這裡面又至少有5萬筆是各種花式亂打,各縣市的區碼+連續數字、各縣市的區碼+12345678之類的….,08-09449 有一千多筆。
8.email
有超過 97% 的資料都有 email,換句話說,也有幾十萬筆資料沒有 email。有幾個 email 註冊了上千個蕃薯藤帳號,例如 free2rhy**@yahoo.com,sc1.fa**y@gmail.com,dav**123@yam.com,amigo512**@yam.com,sc01.nan**@gmail.com,yuh**k@xuite.net 不知道是有甚麼用途。
9.地址
至少 1/4 的資料有地址,這份資料裡的地址欄位只有兩個,一個是把縣市區域加路名組成一整條存在一起,另一個欄位是郵遞區號,沒有再細分縣市、區域的欄位。有趣的是台北市各區的羅斯福路八段8號8樓至少超過3萬筆,然後有一些地址同時被幾百個帳號使用,一查發現不少是國小(例如台北縣蘆洲市長安街311號、台中南屯區黎明路一段425號)。但還有一些神秘的地址,被幾百個蕃薯藤帳號所使用,例如桃園市中央街112號、台南市東區仁和路210號、桃園市鎮一街120號之3 四樓…完全不知道這地址當年有什麼特別之處。
10.忘記密碼的提示問題與答案(例如:你的寵物叫什麼名字?沒有)

由於資料更多更詳細,比起臉書個資外洩名單的菜市場名分析,可以做出更多的分析,甚至把地址打在地圖上觀察熱點,但發現不少問題,真要整理成可用資料的話,還得花不少功夫。
– 因為筆數過多、檔案過大,遠遠超過一個 Excel 工作表的所能容納的100萬筆,沒辦法直接在 Excel 裡面直接編輯,直接用程式去跑,也很容易逾時或記憶體用盡,需要更多的技巧查出有問題的資料,再做處理。
– 上萬筆以上有多欄位或少欄位的情況,例如內文不少筆 email 的 .com 打成 ,com之類的,有逗點而導致欄位切錯了,這會讓欄位無法對齊,種種錯誤都需要找出規則然後用程式修成正確的資料。

那篇文章貼出之後過了不到一個週末,論壇的下載數只有顯示不到80人下載,不查還好,查了發現自己又上榜了!雖然當年註冊時,壓根兒還沒辦手機,姓名是亂打的,email 老早就被停用了(申請撥接時的 HiNet E-mail),但還是有其他真實的機敏資料在上面,唉…

https://freshmoviequotes.tumblr.com/post/637350009103433728/tenet-2020

蕃薯藤、PChome、Yahoo 奇摩、亞卓市,各種線上服務都是時代的眼淚,這十幾年來收掉一堆

蕃薯藤信箱也在2015年停止服務,小蕃薯首頁已經連不上,番薯寶寶也一堆 Flash 無法顯示或圖片叉燒包,帳號也已經登不進去,另一個番薯寶寶頁面則有小蕃薯與大家告別的訊息。想到小蕃薯,就覺得心裡好像有什麼東西又開始糾結,跟 Pet Society 一樣,可能是青春流失跟美好回憶不再的感覺吧…

(影片看到最後真的心酸,明明小蕃薯也只是軟體而已)

蕃薯藤外洩的會員個資這麼多筆,而且市話、地址、身分證字號、帳號名稱(有些可能現在現在還在用)、一堆中二到爆的網路暱稱,雖然資料舊了點,密碼也不知道是用啥規則加密的,但論在地化程度,絕對比 Facebook 外洩或 Clubhouse 外洩的更有料多了,但蕃薯藤今年的新聞只有微軟廣編他家系統 IT 架構上 Azure 雲端(yam蕃薯藤上雲 每月省下超過90萬元IT費用),還有跟奇摩知識+即將關閉的新聞,一起被提到而已。竟然沒有半家媒體報導蕃薯藤個資外洩這回事。

為什麼沒人報導呢?是因為記者太年輕,不知道蕃薯藤是什麼嗎?
是記者覺得蕃薯藤的使用者都已經作古,沒有新聞報導價值了嗎?(頂多也才三十多歲吧)
是因為蕃薯藤會員個資外洩事件沒有外媒報導,記者不知道要去哪抄新聞?
還是因為記者與記者主管還有當年養小蕃薯的回憶,一間讓大家擁有一段美好童年時光的公司,不忍再去傷害牠…

2021/5/22更新 查詢自己的蕃薯藤會員資料是否有外洩

論壇的那篇文章出來大概一個半月之後,HaveIBeenPwned 把蕃薯藤的那份外洩資料也整理在他們系統裡了,所以到有介接 HaveIBeenPwned 資訊的網站,像是 Firefox Monitor 也都查得到了。