Kulturomika - wiedza o "genomie" ludzkiej kultury
Naukowcy z Harvard University i specjaliści z Google'a ogłosili powstanie nowej dziedziny wiedzy - kulturomiki. Ma ona badać "genom ludzkiej kultury", a powstała dzięki zeskanowaniu przez Google'a milionów książek.
Dotychczas w ramach projektu Google Books przełożono do postaci cyfrowej około 5,2 miliona tytułów. To mniej więcej 4% pisemnego dorobku ludzkości. Dzieła te zawierają w sumie ponad 500 miliardów wyrazów. Około 72% z nich jest w języku angielskim, reszta to książki rosyjsko-, francusko-, hiszpańsko- i chińskojęzyczne.
W ten sposób powstała największa w historii baza danych ludzkiej działalności literackiej. Teraz, gdy znacząca część dzieł literackich została zdigitalizowana, możemy przeprowadzać komputerowe analizy, które ujawnią nam trendy w historii, kulturze, języku czy myśli - mówi Jon Orwant, inżynier z Google'a.
Kulturowa genomika znakomicie ułatwi np. sprawdzenie, kto w jakim okresie był popularny, jakie słowa z jaką częstotliwością się pojawiały czy też pozwoli na zbadanie, jak były cenzurowane poszczególne dzieła w różnych krajach i okresach historycznych.
Od lat 50. ubiegłego wieku naukowcy interesują się wykorzystaniem technik obliczeniowych w naukach humanistycznych i społecznych. Jednak dotychczas wprowadzenie metod ilościowych do badań nad kulturą było bardzo trudne ze względu na brak odpowiednich danych. Teraz mamy olbrzymią bazę danych, która jest dostępna bezpłatnie za pomocą łatwego w obsłudze interfejsu - mówi Jean-Baptise Michel z Wydziału Psychologii Uniwersytetu Harvarda.
Dzięki Google Books uczeni już zauważyli, że co roku język angielski wzbogaca się średnio o 8500 nowych słów. W latach 1950-2000 zasób leksykalny języka angielskiego zwiększył się o 70%, jednak większość z nowych wyrazów nie została opisana w słownikach. Oceniamy, że 52% angielskiej leksyki - a więc większość wyrazów używanych w anglojęzycznych książkach - stanowi leksykalną "ciemną materię", gdyż nie są one uwzględniane w słownikach - napisali uczeni.
Zauważono też, że ludzkość coraz szybciej zapomina o przeszłości. Uczeni zbadali jak często każdy rok z okresu 1875-1975 jest wspominany w piśmiennictwie lat następnych. Okazało się, że np. liczba odniesień do roku 1880 zmniejszyła się o 50% dopiero w roku 1912. Potrzeba zatem było 32 lat. Tymczasem liczba odniesień do roku 1973 spadła o połowę już w roku 1983, czyli w ciągu 10 lat.
Dowiadujemy się również, że wynalazki rozprzestrzeniają się coraz szybciej. Te, które opracowano pod koniec XIX wieku popularyzowały się dwukrotnie szybciej niż wynalazki z początku XIX wieku.
Uczeni zainteresowali się również celebrytami. Ludzie stają się obecnie bardziej sławni niż wcześniej, ale są też szybciej zapominani - piszą. Ponadto obecnie celebryci stają się nimi w młodszym wieku. Znane osoby, urodzone w 1950 roku zdobyły sławę średnio w wieku 29 lat. Tymczasem sławni urodzeni w roku 1800 zdobywali sławę przeciętnie w wieku 43 lat.
Ciekawy trend zauważono też w odniesieniu do rodzaju wykonywanego zawodu przynoszącego sławę. Aktorzy stają się znani wcześniej, bo średnio w wieku 30 lat, niż pisarze (około 40. roku życia) czy politycy, którzy na sławę muszą czekać, aż skończą 50 lat. Jednak ta cierpliwość popłaca, gdyż najbardziej znani politycy są bardziej znani, niż najbardziej znani aktorzy.
Kulturomika jest też przydatna w badaniu cenzury. Okazało się np. że Marc Chagall, artysta żydowskiego pochodzenia, został w literaturze niemieckiej z lat 1936-1944 wspomniany tylko raz. Podobnie stało się z Lwem Trockim w ZSRR, z Placem Tienanamen w Chinach oraz z "Holywoodzką Dziesiątką" - grupą pracowników Hollywood podejrzanych o prokomunistyczne sympatie, którzy w 1947 roku trafili na "czarną listę" - w USA.
Okazuje się również, że w naszej kulturze znacznie mocniej zakorzeniony jest Freud, do którego znajdziemy więcej odniesień niż do Galileusza, Einsteina czy Darwina.
Komentarze (2)
Jurgi, 18 grudnia 2010, 22:43
A gdyby ktoś sam chciał prowadzić badania, tutaj znajdzie narzędzie: http://ngrams.googlelabs.com/
Miłych wrażeń. Ja sobie sprawdziłem, jak bardzo w różnych okresach historii straszono się Szatanem. )
0x00, 21 grudnia 2010, 12:47
Trochę przesadzili panowie z tą nową dziedziną wiedzy. Badanie korpusów językowych się przeprowadza od dawna, a że Ngram Viewerem można robić to w prosty sposób i na dużą skalę jest bardzo fajną sprawą, ale naprawdę nie ma w tym nic rewolucyjnego. A już określenie "genom ludzkiej kultury" to absurdalne nadużycie – może brzmi superefektownie, ale to mylące pomieszanie pojęć; korpus językowy, choćby nie wiem jak rozległy, to tylko ślad (obok muzyki, architektury, sztuk plastycznych i wielu innych) jaki ludzka kultura pozostawiła w historii i ma się nijak do dziedzicznej informacji określającej rozwój organizmu.
Mamy taką dziedzinę wiedzy jak historia kultury, a panowie z HU i Google'a po prostu stworzyli kolejne narzędzie do badań w tej dziedzinie. Niemniej zabawę owym narzędziem bardzo polecam (link w komentarzu powyżej).