Firma OpenAI zajmująca się sztuczną inteligencją zaprezentowała w czwartek swój pierwszy w historii model zamiany tekstu na wideo, który spotkał się z ciepłym przyjęciem internautów. I to mimo tego, że sama spółka przyznaje, że przed nią jeszcze wiele pracy.
OpenAI zmieni rynek filmów
OpenAI zaprezentowało 15 lutego swój nowy generatywny model sztucznej inteligencji, nazwany Sora, który ma tworzyć szczegółowe filmy na podstawie prostych podpowiedzi tekstowych (promptów).
Firma podała, że „Sora może tworzyć filmy trwające do 60 sekund, zawierające bardzo szczegółowe sceny, złożone ruchy kamery i wiele postaci wywołujących żywe emocje”.
Według wpisu na blogu z 15 lutego OpenAI stwierdziło, że jej model sztucznej inteligencji może generować sceny przypominające filmy w rozdzielczości do 1080p. Sceny te mogą zawierać wiele postaci, określone typy ruchu oraz dokładne szczegóły obiektu i tła.
Sora działa w oparciu o tak zwany model dyfuzyjny. Dyfuzja odnosi się do generatywnego modelu sztucznej inteligencji „tworzącego swój wynik poprzez wygenerowanie wideo lub obrazu zawierającego coś, co bardziej przypomina „szum statyczny” i stopniowe przekształcanie go poprzez „usuwanie szumu” w kilku etapach”.
Firma zajmująca się sztuczną inteligencją napisała, że Sora została zbudowana na podstawie wcześniejszych badań nad modelami ChatGPT i Dall-E 3, co według firmy sprawia, że model lepiej odzwierciedla dane wejściowe użytkownika.
OpenAI przyznało, że Sora nadal ma jednak nadal kilka słabych punktów i może mieć problemy z dokładnym symulowaniem fizyki złożonej sceny, a mianowicie „poprzez pomieszanie natury przyczyny i skutku” „Na przykład osoba może ugryźć ciasteczko, ale potem ciasteczko może nie mieć śladu ugryzienia”, tłumaczy firma.
Firma stwierdziła, że nowe narzędzie może również mylić „szczegóły przestrzenne”, mieszając lewą i prawą stronę lub nie stosując się do dokładnych opisów kierunków.
Nowa broń?
OpenAI twierdzi, że nowy model AI jest na razie dostępny tylko dla „czerwonych zespołów”, co oznacza badaczy ds. cyberbezpieczeństwa. Chodzi zapewne o to, czy model nie pomoże w wojnie informacyjnej np. wrogim USA państwom.