Давайте честно: у большинства из нас есть дела поважнее, чем пересматривать собственные старые видео на YouTube. К счастью, искусственный интеллект здесь, чтобы взять на себя этот экзистенциальный ужас. В недавнем тесте я подверг ChatGPT, Claude и Gemini изнурительной задаче — действительно понять, что происходит в видео, будь то ссылки с YouTube или локальные файлы. Результаты варьировались от «впечатляюще проницательно» до «извините, я не могу этого сделать, Дэйв».
Я скормил каждому ИИ три видео: объяснение на YouTube о научном процессе отжига (да, я настолько увлекателен), беззвучный MP4, где я жестикулирую перед дроном DJI Neo 2, и файл MOV размером 1,65 ГБ, где я хожу и говорю о своей стратегии публикации на YouTube — без метаданных, без транскриптов, просто чистый, неразбавленный я. Запрос был освежающе прост: «Можешь посмотреть это видео?» Потому что, очевидно, просьба «понять» или «резюмировать» заставляет их охотиться за метаданными, как цифровых енотов.
Давайте сначала разберемся с плохими новостями. Claude — будь то в приложении или веб-интерфейсе — был вежливой, но твердой стеной. Он сообщил мне, в двух словах, что не может напрямую смотреть видео, не может обрабатывать визуальные или аудиокадры и в целом обладает способностью смотреть видео не больше, чем тостер. Claude Max за 100 долларов в месяц, видимо, дает вам очень хорошо сформулированный отказ.
Gemini, с другой стороны, был отличником в классе. Веб-интерфейс справился со всем, что я в него загружал — URL-адреса YouTube, MP4 размером 625 МБ и тот огромный MOV-файл на 1,65 ГБ — прямо в вкладке браузера, без необходимости в приложении. Самым впечатляющим демо был тест с беззвучным дроном: в видео нет звука и никакого контекста, кроме меня, стоящего во дворе и размахивающего руками. Gemini не только понял, что я тестирую жесты рук для управления дроном, но и правильно вывел, что дрон выступал в роли камеры и поэтому невидим в кадре. Держу пари, что немало людей — включая, будем честны, моих соседей — этого бы не заметили. Он также успешно разобрал мое видео про отжиг, определив разделы и конкретные словесные моменты, и достаточно хорошо понял видео «ходьба и разговор», чтобы отметить местоположение и темы комментариев.
Где Gemini споткнулся, так это в переходе от понимания видео к генерации изображений. Когда я попросил его создать новую миниатюру для YouTube на основе содержания видео и моего существующего стиля, он решил изобрести бородатого мужчину (не меня, к сожалению) и написал «FIRE» как «FCIRE». Так близко, и все же так далеко от славы миниатюры.
Затем есть ChatGPT, который является классической ситуацией «хорошие новости — плохие новости». Плохие новости: сам ChatGPT не мог читать ссылки YouTube, и хотя он теоретически может обрабатывать видео, они должны быть меньше 500 МБ. Мои, конечно, не были. Хорошие новости: объедините его с агентом Codex от OpenAI, и все становится интересно. Codex прочитал оба локальных файла, правильно определив тест с дроном как «съемка теста дрона на заднем дворе». Для MOV-файла «ходьба и разговор» он сначала заартачился, а затем вежливо попросил разрешения установить код Python и библиотеки для аудиотранскрипции. Как только он это сделал, он идеально понял контекст. Когда Codex не смог напрямую посмотреть поток YouTube, я попросил его загрузить видео локально — и он автоматически написал скрипт Python, установил библиотеки и на ходу изобрел импровизированную технологию загрузки видео.
Создание миниатюры потребовало от меня выступить посредником между Codex и ChatGPT. Codex выбрал кадр и написал запрос; ChatGPT сгенерировал изображение. Результат был лучше, чем у Gemini — он использовал мое настоящее лицо и уловил мою цветовую схему (белый, желтый, черный) — но он превратил алюминиевый стержень в квадратную трубу вместо плоского материала, разместил метки маркером под неправильными углами и придал изгибу преступно острый прямой угол. Несколько корректирующих запросов приблизили его к цели, хотя я все еще предпочитаю делать миниатюры вручную.
Примечательные выводы: и Gemini, и дуэт ChatGPT/Codex интерпретировали видео примерно за две-три минуты каждое — намного меньше, чем реальные 15 минут.