2022-08-18 Dariusz Jaruga, "Komunikacja sieciowa. Źródła informacji Big Data", Wydawnictwo Naukowe i Edukacyjne SBP, Warszawa 2021 Otaczają nas algorytmy, programy i aplikacje. Są tak powszechne, że przestaliśmy zwracać na nie uwagę. Traktujemy je jak rzeczy oczywiste, ot, zwykłe narzędzia pomocne w znalezieniu rozkładu jazdy, zarezerwowaniu pokoju w hotelu czy sprawdzeniu pogody na weekend. „Użytkownik sieci wymienia informacje, załatwia wiele podstawowych potrzeb życiowych związanych z prozą dnia codziennego – zakupy, sprawy urzędowe, służbowe, prywatne. Internet jest miejscem spotkań, rozrywki, prowadzenia działalności zawodowej” – pisze autor. Dane, które każdego dnia udostępniamy i z których korzystamy, są „fundamentalną składową komunikacji sieciowej”. To one są stanowią o jej działaniu. Cały czas– mniej lub bardziej świadomie – wytwarzamy dane. Karmimy sieć informacjami, przenosząc do niej coraz większy wycinek rzeczywistości, nie tylko tej online. Szukamy produktów w Internecie, piszemy posty na Facebooku czy po prostu przemieszczamy się z włączoną w telefonie usługą lokalizacyjną. To, jakiego prezentu na święta szukamy dla krewniaka, o której godzinie ustawiamy budzik w tygodniu oraz jakie wakacyjne miejscowości oznaczamy na instagramowym profilu, może, w połączeniu z innymi informacjami, stać się imponującym zbiorem informacji dotyczących naszych zwyczajów, pracy, zamożności i poglądów na świat. A nawet z dużym prawdopodobieństwem stwierdzić na kogo oddamy głos w najbliższych wyborach. Z tych informacji, które generujemy, powstają też nowe treści. Udostępniamy je, przetwarzamy, kompilujemy. Ale nie tylko my. Również maszyny zbierają i wykorzystują informacje z sieci. W 2004 roku program komputerowy Brutus I, dzięki automatycznemu gromadzeniu informacji i po odpowiedniemu ich przetworzeniu, sam napisał nowelę i publicznie zacytował jej fragment: „Dave Striver lubił uniwersytet – jego porośniętą bluszczem wieżę zegarową z mocnej starej cegły, jego zalaną promieniami słonecznymi zieleń i pełną entuzjazmu młodzież…”. Czterdzieści razy więcej danych w dziesięć lat Ale co nam to mówi? M.in. to, że ilość danych publikowanych w internecie gwałtownie rośnie, podobnie jak ich „jakość”. Rozwija się także sztuka wykorzystywania ogromnych ilości danych przez zaawansowane programy – oczywiście po uprzednim „nauczeniu” ich tego przez człowieka. Te algorytmy, które wykorzystują informacyjny tłum, są już niemal wszędzie. Analizują obraz z kamer na lotniskach i w centrach handlowych; zbierają informacje z samochodów, telefonów i satelitów by poinformować nas o korkach, wypadkach czy fotoradarach; współtworzą zasoby Wikipedii, rankingi najchętniej słuchanych piosenek i podpowiadają „spersonalizowane” reklamy. Jak ziarna informacji oddziela się od plew Ale są także trudności. Wyłuskania poszukiwanych informacji z informacyjnego szumu jest trochę jak szukanie czterolistnych koniczyn na polanie. Nie dość, że na pierwszy rzut oka wydają się takie same, to jeszcze trzeba wiedzieć gdzie ich szukać. Wyprawa po złote runo Ale żeby zobaczyć, jak te informacje błyszczą złotym światłem, należy najpierw użyć sita, poddać „surowe” dane odpowiedniej obróbce. To w tym momencie zaczyna się rola, którą do odegrania ma Big Data. Zaczyna się rafinowanie zebranych danych, „uszlachetnianie”, oczyszczanie ich ze zbędnych informacji. Nie bez przyczyny system, który został do tego celu zaprojektowany, nazywa się Jazon – tak, jak mitologiczny bohater, który wyruszył na poszukiwanie złotego runa. Bo w dzisiejszym świecie informacja jest nowym złotem.
My wytwarzamy, maszyny analizują
Pisać każdy może
Cztery lata później Philip M. Parker stworzył algorytm, który „pisze” książki. Jak to robi? Wyszukuje i „czyta” fragmenty książek, a następnie kompiluje je i łączy w nowe pozycje. Teksty wyszukuje w bazach danych komputerów firmy Amazon. Parker wraz ze swoim programem „napisał” już 200 000 książek.
Zettabajt (ZB) to jednostka pamięci komputerowej. Równa się tysiącowi bajtów do siódmej potęgi. To jedynka i dwadzieścia jeden zer, czyli 1 000 000 000 000 000 000 000 bajtów. W 2015 roku liczba danych cyfrowych osiągnęła ilość 4,1 ZB. Według przewidywań w ciągu dziesięciu lat od tego czasu światowe zasoby danych zwiększą się do 175 ZB. To ponad czterdziestokrotny wzrost. „Liczba treści multimedialnych wytworzonych i opublikowanych przez zwykłych ludzi (…) osiągnęła rozmiary, które trudno sobie nawet wyobrazić” – pisze autor.
Ogromne ilości danych przyrastają z każdą sekundą na niezmierzonej ilości platform, stron, serwisów i blogów, od Vimeo po Wikipedię. Ich potencjał do czerpania informacji zasadza się na aktualności treści i dostępności danych historycznych.
Jednak trud włożony w analizę i żmudne selekcjonowanie informacji się opłaca, bo gra w analizę danych może toczyć się o dużą stawkę. Jak pisze Dariusz Jaruga, na podstawie informacji zebranych z „(…) forów, blogów i stron internetowych możliwe było z dużą dokładnością przewidywanie wyników wyborów parlamentarnych, a później prezydenckich w 2015 roku”. Informacja to nie tylko pieniądz, to także władza.
Autor pisze, że „przykłady badań nad wykorzystaniem zasobów Big Data pokazują w jak różnorodnym zakresie analiza dużych zbiorów danych może przynieść konkretne korzyści”, oraz że „dane stały się wartościowym surowcem do dalszego przetwarzania w biznesie, naukach społecznych, medycynie itp. Analiza danych może być cennym źródłem dotychczas nieznanych informacji”.
TH