Bądźmy szczerzy: większość z nas ma lepsze rzeczy do roboty niż oglądanie własnych starych filmów na YouTube. Na szczęście sztuczna inteligencja jest tu, by przejąć to egzystencjalne przerażenie. W ostatnim teście poddałem ChatGPT, Claude i Gemini żmudnemu zadaniu faktycznego zrozumienia, co dzieje się w filmie – zarówno z linków YouTube, jak i plików lokalnych. Wyniki wahały się od „imponująco spostrzegawczo” do „przykro mi, nie mogę tego zrobić, Dave”.

Każdemu AI podałem trzy filmy: wyjaśnienie na YouTube o naukowym procesie wyżarzania (tak, jestem tak ekscytujący), cichy MP4, na którym gestykuluję do drona DJI Neo 2, oraz plik MOV o wielkości 1,65 GB, na którym chodzę i mówię o mojej strategii publikowania na YouTube – bez metadanych, bez transkryptów, tylko czysty, nieskażony ja. Prompt był odświeżająco prosty: „Czy możesz obejrzeć ten film?” Bo najwyraźniej proszenie ich o „zrozumienie” lub „podsumowanie” sprawia, że polują na metadane jak cyfrowe szopy.

Zacznijmy od złych wiadomości. Claude – czy to w aplikacji, czy w interfejsie internetowym – był uprzejmym, ale stanowczym murem. Poinformował mnie, mniej więcej, że nie może bezpośrednio oglądać treści wideo, nie może przetwarzać klatek wizualnych ani audio i ogólnie ma zdolność oglądania filmów na poziomie tostera. Claude Max, za 100 dolarów miesięcznie, najwyraźniej kupuje bardzo dobrze sformułowaną odmowę.

Gemini z kolei był kujonem w klasie. Interfejs internetowy poradził sobie ze wszystkim, co mu rzuciłem – adresami URL YouTube, plikiem MP4 o wielkości 625 MB i tym ogromnym plikiem MOV 1,65 GB – prosto w karcie przeglądarki, bez potrzeby instalowania aplikacji. Najbardziej imponującym pokazem był test cichego drona, który nie zawiera żadnego dźwięku ani kontekstu poza mną stojącym na podwórku i machającym rękami. Gemini nie tylko zorientował się, że testuję gesty rąk do sterowania dronem, ale poprawnie wywnioskował, że dron działał jako kamera i dlatego był niewidoczny w nagraniu. Założę się, że spora liczba ludzi – w tym, bądźmy szczerzy, moi sąsiedzi – nie zorientowałaby się. Udało mu się również poprawnie przeanalizować mój film o wyżarzaniu, identyfikując sekcje i konkretne punkty słowne, oraz zrozumieć spacer i rozmowę na tyle, by odnotować lokalizację i tematy komentarzy.

Tam, gdzie Gemini się potknął, było przejście od rozumienia wideo do generowania obrazu. Kiedy poprosiłem go o stworzenie nowej miniatury YouTube na podstawie treści filmu i mojego istniejącego stylu, postanowił wymyślić brodatego mężczyznę (nie mnie, niestety) i przeliterował „FIRE” jako „FCIRE”. Tak blisko, a jednak tak daleko od chwały miniatury.

Potem jest ChatGPT, który to klasyczna sytuacja dobrych i złych wieści. Złe wieści: sam ChatGPT nie mógł odczytać linków YouTube, a choć teoretycznie może przetwarzać filmy, muszą one mieć mniej niż 500 MB. Moje oczywiście nie były. Dobre wieści: połącz go z agentem Codex od OpenAI, a sprawy stają się interesujące. Codex odczytał oba pliki lokalne, poprawnie identyfikując test drona jako „test drona na podwórku”. Dla pliku MOV ze spacerem i rozmową początkowo się wzbraniał, a następnie grzecznie poprosił o pozwolenie na zainstalowanie kodu Pythona i bibliotek do transkrypcji audio. Gdy to zrobił, doskonale zrozumiał kontekst. Gdy Codex nie mógł bezpośrednio oglądać strumienia YouTube, poprosiłem go o pobranie filmu lokalnie – i automatycznie napisał skrypt w Pythonie, zainstalował biblioteki i wynalazł improwizowaną technologię pobierania wideo na poczekaniu.

Stworzenie miniatury wymagało ode mnie bycia pośrednikiem między Codexem a ChatGPT. Codex wybrał klatkę i napisał prompt; ChatGPT wygenerował obraz. Wynik był lepszy niż Gemini – użył mojej rzeczywistej twarzy i podchwycił moją kolorystykę (biały, żółty, czarny) – ale zrobił z aluminiowego pręta kwadratową rurkę zamiast płaskiego materiału, umieścił znaczniki Sharpie pod złymi kątami i nadał gięciu kryminalnie ostry kąt prosty. Kilka poprawek w promptach przybliżyło go, choć nadal wolę robić miniatury ręcznie.

Warte uwagi wnioski: zarówno Gemini, jak i duet ChatGPT/Codex interpretowały filmy w około dwie do trzech minut każdy – znacznie mniej niż rzeczywiste 15 minut.