Skuteczne podszywanie

| Ciekawostki
erichhh, CC

Stylometria jest metodą wykorzystywaną przez historyków, w tym historyków literatury, a nawet przez biegłych sądowych. Notatkę lub dzieło analizuje się pod kątem ustalenia statystycznej charakterystyki stylu autora. Okazuje się jednak, że specjalistów można łatwo wprowadzić w błąd, co więcej udaje się to nawet osobom niewytrenowanym językowo i nieznającym odpowiednich programów.

Przed obliczem Temidy za pomocą stylometrii rozstrzyga się, kto jest autorem listu pożegnalnego lub z pogróżkami. W ten właśnie sposób w 1998 r. doprowadzono do skazania amerykańskiego terrorysty Unabombera (Teda Kaczynskiego), który w latach 1978-1995 wysyłał do różnych osób listy-bomby.

Michael Brennan i Rachel Greenstadt z Drexel University udowodnili jednak, że ludzie mogą z powodzeniem oszukiwać oprogramowanie stylometryczne, naśladując styl innej osoby. To istotne, bo dotąd nie zajmowano się raczej słabościami tych technik.

Amerykanie kazali 15 osobom dostarczyć tekst na mniej więcej 5 tys. słów. Miała to być próbka pozwalająca ocenić ich własny styl. Należało uwzględnić teksty o oficjalnej formie, np. eseje szkolne, raporty służbowe czy korespondencję. W ten sposób eliminowano wyrażenia slangowe i charakterystyczne skróty. Każdy badany rozpoczynał eksperyment z 1-5 próbkami dokumentów, które łączono i dzielono na ustępy o długości 500 wyrazów. Potem wszystkich proszono o opisanie w 500 słowach swojego sąsiedztwa przyjacielowi, który nigdy nie był w tych okolicach, a wszystko w sposób maskujący własną manierę wysławiania. Następnie przyszła kolej na fragment à la Cormac McCarthy. Ochotnicy otrzymali urywek (2500 słów) sztuki The Road, na którym mieli się wzorować. Wybrano właśnie tego amerykańskiego pisarza, dramaturga i scenarzystę, ponieważ ma bardzo charakterystyczny styl.

"Dzieła" badanych potraktowano różnymi metodami stylometrycznymi. Mierzono np. długość słów i analizowano interpunkcję, poza tym określano gęstość leksykalną, stanowiącą iloraz liczby unikatowych wyrazów w dokumencie i ogólnej liczby wyrazów.

Autorstwo fragmentów tekstu wzorcowego udawało się określić z co najmniej 80-proc. trafnością, jednak w przypadku tekstów maskujących własny styl trafienia były całkowicie przypadkowe, a gdy ochotnicy mieli udawać McCarthy'ego, komputer uznawał, że próbki zostały napisane właśnie przez niego.

Studium dotyczyło stosunkowo prostych technik stylometrycznych, niewykluczone jednak, że to dopiero początek szerszej debaty na temat tych bardziej skomplikowanych i zaawansowanych (Amerykanie uwzględnią je w przyszłych badaniach). Specjaliści podkreślają, że metody wzięte pod lupę przez Brennana i Greenstadt nie uwzględniają przyimków jako wyrazów pomocniczych o niewielkim znaczeniu. Michael Oakes z University of Sunderland uważa, że to błąd, bo tak naprawdę wnoszą one do analizy bardzo wiele, jeśli nie najwięcej.

stylometria techniki oszukiwać wprowadzać w błąd Michael Brennan Rachel Greenstadt