OpenAI o3: Różnice w wydajności a wyniki benchmarków

Photo of author

By Hania

Ostatnie oceny najnowszego dużego modelu językowego OpenAI, o3, wskazują na znaczącą różnicę między początkowymi deklaracjami dotyczącymi jego wydajności a wynikami zaobserwowanymi w publicznie dostępnych wersjach, co rodzi pytania o raportowanie wyników benchmarków w konkurencyjnym krajobrazie AI.

Pojawia się luka w wydajności

Kiedy model o3 został wprowadzony, OpenAI podkreślało jego zdolność do rozwiązania „niewiele ponad jednej czwartej&#822口味ź” (ponad 25%) problemów w FrontierMath, wymagającym zbiorze zagadek matematycznych na poziomie magisterskim. Było to przedstawiane jako znaczący skok w porównaniu do konkurencji, która rzekomo utknęła poniżej 2%. Jednak późniejsze testy przeprowadzone przez Epoch AI, instytut badawczy, który stworzył benchmark FrontierMath, przedstawiły inny obraz.

Epoch AI oceniło publicznie udostępniony model o3, używając zaktualizowanej wersji benchmarku i stwierdziło, że pomyślnie rozwiązał on około 10% problemów. Chociaż jest to zgodne z dolną granicą wartości wspomnianą w dokumentacji technicznej OpenAI z grudnia, różnica między początkową, wiodącą wartością a wynikiem niezależnego testu jest zauważalna.

OpenAI has released o3, their highly anticipated reasoning model, along with o4-mini, a smaller and cheaper model that succeeds o3-mini. We evaluated the new models on our suite of math and science benchmarks. Results in thread! pic.twitter.com/5gbtzkEy1B

— Epoch AI (@EpochAIResearch) April 18, 2025

Wyjaśnienie rozbieżności

Różnica wydaje się wynikać ze specyficznej wersji testowanego modelu. Zarówno ARC Prize Foundation, jak i inżynier OpenAI potwierdzili, że publicznie udostępniony model o3 nie jest tą samą wersją, która została użyta do osiągnięcia początkowych imponujących wyników benchmarku. Wersja publiczna jest opisana jako „odchudzona i szybsza wersja” specjalnie dostrojona do aplikacji czatowych i ogólnego użytku produktowego, wykorzystująca mniej mocy obliczeniowej.

Jak wyjaśnił inżynier OpenAI, Wenda Zhou, wprowadzono optymalizacje w celu zwiększenia efektywności kosztowej i użyteczności w świecie rzeczywistym, co mogło prowadzić do różnic w wydajności benchmarków. Epoch AI również zauważyło, że czynniki takie jak użycie „potężniejszego wewnętrznego rusztowania” lub różne ustawienia mocy obliczeniowej podczas testów przez OpenAI mogły przyczynić się do różnych wyników.

Raportowanie wyników benchmarków w AI

Ta sytuacja podkreśla, jak wyniki benchmarków, choć przydatne, mogą być czasami trudne do bezpośredniej interpretacji. Różnice w warunkach testowych, użyty konkretny podzbiór danych (sam FrontierMath został zaktualizowany między początkowymi deklaracjami OpenAI a testami Epoch), a także ilość przydzielonych zasobów obliczeniowych mogą znacząco wpływać na raportowane wyniki.

Intensywna konkurencja w sektorze AI często skłania firmy do podkreślania imponujących liczb. Podobna uwaga została niedawno skierowana na inne firmy, w tym xAI Elona Muska, w związku z prezentacją danych z benchmarków dla ich modelu Grok 3.

Co ciekawe, własne mniejsze modele OpenAI, o3-mini-high i nowszy o4-mini, wykazały już lepszą wydajność na benchmarku FrontierMath niż obecny publiczny model o3. OpenAI wskazało również, że wkrótce spodziewane jest wydanie bardziej wydajnego wariantu o3-pro.

Podziel się: