Kliknięcia zdradzają więcej niż byśmy chcieli
Z najnowszego numeru PNAS (Proceedings of the National Academy of Sciences) dowiadujemy się, że automatyczna analiza publicznie dostępnych danych, a konkretnie kliknięć "Lubię to" na Facebook'u, pozwala na precyzyjne ustalenie wielu danych dotyczących analizowanej osoby. Specjaliści z University of Cambridge i Microsoft Research wykazali, iż sama tylko analiza tych kliknięć pozwala na ustalenie rasy, wieku, poziomu inteligencji, orientacji seksualnej, osobowości, poglądów politycznych oraz określenia czy i z jakich używek korzysta dana osoba.
W badaniach wzięło udział 58 000 użytkowników Facebooka, którzy zgodzili się, by eksperci przeanalizowali ich kliknięcia. Wyniki automatycznej analizy porównano następnie z profilami tych osób i wynikami testów osobowości.
Jak wykazał eksperyment, zastosowane algorytmy pozwoliły na ustalenie z 88% dokładnością orientacji seksualnej mężczyzn, odróżniono Czarnego od Białego Amerykanina z 95-procentową dokładnością, a identyfikacja sympatii politycznych (zwolennik Republikanów bądź Demokratów) przeprowadzono z dokładnością sięgającą 85 procent. Algorytmy potrafiły też w 82% przypadków odróżnić chrześcijanina od muzułmanina. Stan cywilny określono z dokładnością sięgającą 65%, a korzystanie z używek z 73-procentową trafnością.
Analiza nie była prosta. Okazuje się bowiem, że np. tylko 5% homoseksualistów kliknęło "Lubię to" na profilu "Małżeństwa gejów". Algorytmy musiały zbierać i kojarzyć wiele różnych informacji. Profile osobowości były tworzone np. z wykorzystaniem informacji o preferencjach dotyczących słuchanej muzyki czy oglądanych programów telewizyjnych.
Nawet tak trudne do odgadnięcia wydarzenie, jak np. rozwód rodziców do którego doszło zanim badany ukończył 21. rok życia, zostało określone z 60% trafnością. To wystarczająco dużo, by tego typu narzędziami analitycznymi zainteresowali się reklamodawcy.
Często udawało się powiązać ze sobą bardzo odległe dane. Na przykład okazało się, że kliknięcie "Lubię to" na profil Curly Fries było związane z... wyższym IQ, a na profil That Spider is More Scared Than U Are klikały osoby, które nie palą papierosów.
Wyniki powyższych badań będą z pewnością interesujące nie tylko dla reklamodawców. Masowa analiza ogólnodostępnych danych przyda się psychologom czy socjologom. Z pewnością też przyczyni się do rozpoczęcia dyskusji o prawach człowieka i prywatności.
Komentarze (3)
lester, 12 marca 2013, 13:56
Należy dodać, że już samo załadowanie na przeglądanej stronie przycisku "Lubię to" jest aktem śledzenia. Serwery zapisują na jakiej stronie wyświetlił się przycisk oraz u kogo (IP oraz unikalny dla każdej przeglądarki ID losowany w momencie instalacji) i tworzą w ten sposób bazę danych na temat użytkownika, nawet nie posiadającego u nich konta. A jeśli je posiada i zaloguje się, powiązanie zebranej historii z kontem to jak dodać dwa do dwóch.
knezmej, 12 marca 2013, 17:10
Szczegółowe wyniki powiązań mogą być intrygujące, ale przedstawione wyniki mnie rozbawiły:
ustalenie z 88% dokładnością orientacji seksualnej - przypisując z góry każdemu zwykłą płciowość otrzymujemy conajmniej 95% skuteczność;
potrafiły też w 82% przypadków odróżnić chrześcijanina od muzułmanina - muzułmanie stanowią 1% obywateli Stanów Zjednoczonych Ameryki Północnej, czyli nietrafność jest 18 razy wieksza niż jakby nikogo nie uznać za muzułmanina;
wynik badania zwolenników Republikanów i Demokratów wydaje mi się dość łatwy do zbadania;
ciekawe co kryje się pod wynikiem korzystanie z używek z 73-procentową trafnością?
Wybrano poprostu dziwne i słabo trafne wnioski.
Tolo, 12 marca 2013, 22:15
Problem jest prosty ludzie patrzą na to wszystko wybiórczo jak by przez dziurkę od klucza tylko ze za tymi drzwiami jest ktoś kto widzi to wszystko co oni mogą zobaczyć całe jednocześnie albo przynajmniej patrzy przez większą dziurkę.
Ludzie mają problemy z automatycznym (maszynowym) przetwarzaniem wielkich porcji informacji i to juz na takim poziomie ze nie są w stanie sobie wyobrazić tego co takie systemy są w stanie wywnioskować na poziomie statystycznym z pozornie bezużytecznych i nie niosących (pozornie) wielkiej porcji informacji.
knezmej ale to jest całkiem zadowalająca skuteczność. Większej po prostu nie trzeba i to jest kolejna pułapka.