Ile zasobów polskiego internetu z lat 90. utraciliśmy?

23 lutego 2021, 13:16 | Ciekawostki

Tylko 22 proc. polskich adresów URL skatalogowanych w przewodniku z 1997 r. jest jeszcze dostępnych. A prawie 80 proc. zasobów przetrwało jako kopie w archiwach Webu – wynikło z badań Marcina Wilkowskiego z Centrum Kompetencji Cyfrowych UW.

Dr Marcin Wilkowski z UW, doktorant Instytutu Badań Literackich PAN, zbadał stan zachowania zasobów polskiego internetu z 1997 roku. Przeanalizował 951 adresów URL, skatalogowanych i opisanych w wydanym w 1997 roku, drukowanym przewodniku „Polish World” autorstwa Martina Miszczaka.

Współcześnie dostępnych jest jedynie niecałe 22 proc. z nich. W archiwach Webu istnieją kopie prawie 80 proc. badanych linków, przy czym ani współczesna dostępność, ani obecność w archiwum Webu nie gwarantuje, że możemy korzystać z oryginalnej postaci strony WWW z początków 1997 roku – podsumowuje Wilkowski w przesłanym PAP komunikacie o swoich badaniach.

Wyniki jego pracy ukazały się w czasopiśmie naukowym Archiwa – Kancelarie – Zbiory.

Wilkowski tłumaczy, że badania historycznego Webu z wykorzystaniem drukowanych przewodników z lat 90. były już podejmowane, przy czym jest to pierwsze takie badanie dla polskiej domeny krajowej.

Ponieważ nie możemy skorzystać z indeksu wszystkich stron WWW dostępnych w określonym czasie, chcąc sprawdzić, ile z nich wciąż jest dostępnych, musimy szukać innych źródeł informacji. Obok drukowanych katalogów i przewodników są nimi katalogi internetowe, popularne przed tym, jak Google zdominowało sposób wyszukiwania w Internecie, czasopisma, w których publikowano recenzje stron WWW czy artykuły naukowe, gdzie linki do zasobów internetowych umieszczano w przypisach – zwraca uwagę Marcin Wilkowski.

Badacze dawnego internetu korzystać mogą niekiedy z indeksów i zasobów archiwów Webu, serwisów na bieżąco gromadzących kopie stron WWW i agregujących dane na ich temat. Archiwa takie powstają od połowy lat 90. – największe z nich tworzone jest przez amerykańską fundację Internet Archive, chociaż większość z nich prowadzona jest przez biblioteki i archiwa narodowe.

W Polsce takie archiwum nie funkcjonuje, chociaż podejmowano próby jego zainicjowania – badacze polskiej domeny krajowej muszą więc korzystać z zasobów Internet Archive, chociaż archiwum to zabezpiecza zasoby internetowe bez wyraźnego planu, dość przypadkowo, często także na żądanie użytkowników – każdy może zgłosić tam link do zabezpieczenia – tłumaczy autor badań.

Badanie stron WWW skatalogowanych w „Polish World” to próba rozpoznania wielkości straty związanej z niedostępnością i zmiennością zasobów polskiej domeny krajowej.

W ocenie Wilkowskiego stabilność zasobów WWW jest kluczowa, choćby w badaniach i komunikacji naukowej czy polityce informacyjnej instytucji rządowych. Niska współczesna dostępność polskich stron z połowy lat 90. nie jest wyjątkiem wobec dostępności zasobów z innych domen – wyjątkowa jest sytuacja, w której osoby zainteresowane korzystaniem z polskich zasobów z przeszłości nie mogą skorzystać z polskiego archiwum, profesjonalnie gromadzącego i udostępniającego kopie stron. Dbałość o stabilność i zachowanie domeny krajowej może być uznane za część suwerenności technologicznej. Jest to szczególnie ważne współcześnie, wobec sytuacji, w której media społecznościowe współtworzą debatę publiczną, a instytucje państwa, kultury i nauki masowo korzystają z nich informując o swoich działaniach i komentując bieżące wydarzenia – zwraca uwagę autor.

Źródło: PAP – Nauka w Polsce

polski internet zasoby adresy WWW