知識庫
回首頁  >  HOME 〉 知識庫 〉 Twitter地理位置數據有多大意義?
Twitter地理位置數據有多大意義?


騰訊科技訊
(Kathy)北京時間1月21日消息,據國外媒體報導,帕洛阿爾托研究中心(PARC,Palo Alto Research Center)剛剛發布了一份Twitter用戶“地理位置”字段使用報告。 PARC暑期實習生布倫特·赫克特(Brent Hecht)選擇了1萬名活躍的Twitter用戶進行深入研究,結果發現,34%的Twitter用戶沒有在個人資料中填入有效的地理位置。 有些用戶甚至用地理位置字段來開玩笑,表達他們對某個名人的喜愛之情,或是申明他們的位置“不關你的事!”

對於其他和Twitter用戶實際位置相關的所有調查來說,這一研究的意義顯而易見:如果不預先對Twitter信息進行分析,分離出那些不按規則填寫的位置信息,樣本數據可能就不是那麼可靠。 PARC目前已經發現之前的一項著名研究存在這樣的情況。

PARC的研究人員從Spritzer樣品源(它從所有Twitter消息中實時隨機挑選1-2%)收集了3200萬條英語Twitter消息。這些Twitter 消息由5282657名Twitter個人用戶發送。 研究人員從中隨機挑選1萬名(那些發送過5條以上Twitter 消息)活躍用戶的信息,然後提取和檢查了他們的位置字段。

66%的用戶填寫了位置

只有66%的Twitter用戶在這個字段輸入了有效的地理信息,這裡說的“有效”只能算馬馬虎虎。 比如,研究人員把填寫“kcmo - call da po po”這種地址的人也計入在內,因為此人填寫了有效的城市名“密蘇里州堪薩斯城”。 “有效”還包括那些只是寫了身處哪個大洲,以及美國州名為實(如“加州”)但城市名稱是編造的(如“Bieberville”)情況。

實際上,城市和州的名稱都不是編造的情況相當低,但PARC並沒有提供具體數字。

位置是在“賈斯汀·比伯的心裡”

在34%沒有提供真正位置信息的情況中,研究人員發現了一些趨勢。比如該字段經常被人們用來表達對特定名人的仰慕之情。 研究人員在這個字段中發現的名字包括布蘭妮·斯皮爾斯(Britney Spears)、喬納斯兄弟(Jonas Brothers)等,被提及最多的是賈斯汀·比伯(Justin Bieber),有61名用戶在位置字段中提到他。

另一種常見的趨勢是,人們使用位置字段來表達保守隱私的願望,比如他們會填寫“不告訴你”,“關你什麼事”,而且也經常有人在這一字段填寫外太空的位置以及笑話等,有人甚至會表達對自己當前位置的不滿,例如一個用戶寫到,他在“鄉下地獄”。

Twitter數據分析研究的意義

PARC的研究人員還將一部分數據集(16%沒有提供有效位置的情況)輸入雅虎Geocoder(一個可以把地名轉換為緯度和經度坐標的工具)。 但雅虎Geocoder並沒有全部返回“錯誤信息“提示,而是返回了82.1%的數據。比如,“中土世界(Middle Earth)”的經緯度是在得克薩斯州拉伯克北部,“BieberTwon”在密蘇里州,“在彩虹之上的某個地方(somewhere over the rainbow)”在緬因州北部,“wherever yo mama at”是在西伯利亞西南部。

這意味著,研究工作如果只是簡單地把Twitter數據集輸入到geocoder,結果就未必可靠。 Geocoders假設所有輸入信息都是地理位置,因此它會嘗試找到這些坐標。 為了準確地分析Twitter數據集的位置信息,數據應先進行預先分析處理,將非地理信息和地理信息分離開。

並非所有Twitter用戶研究都已經採取了這樣的做法。 PARC研究人員發現,2007年的一項著名研究“我們為什麼使用Twitter” (Why We Twitter: Understanding Microblogging Usage and Communities,作者是Akshay Java, Xiaodan Song, Tim Finin, and Belle Tseng)就沒有對數據進行預先分析。 雖然並不是說這項研究的所有結果(因為這項研究還包括了其他很多方面,比如信息類型等)都不可靠,但這一點的確值得注意。