Ostatnie stwierdzenia dotyczące inteligencji artystycznej z branży XII. Otwarte dane testowania GROK 3 na platformie AIME 2025 okazały się kontrowersyjne, co doprowadziło do oskarżenia o możliwe zniekształcenie rzeczywistych wyników. Według IZ, odnosząc się do TechCrunch, przedstawiciele Openai powiedzieli, że wykresy opublikowane przez XII nie uwzględniają metodologii Cons@64, co znacząco wpływa na końcowe oceny modeli. Jednak założyciel XII nalega, aby firma działała w ramach prawidłowej oceny możliwości swojego produktu. XII przedstawił Grok 3 jako najbardziej inteligentną sztuczną inteligencję na świecie, ale nie biorąc pod uwagę specjalnej techniki, która daje konkurentom dodatkową przewagę. Dzięki standardowym testom GROK 3 Beta wykazuje niższą wydajność niż konkurencyjne modele OpenAI, w tym O3-Mini-High. Naukowcy twierdzą, że bez jasnego porównania wszystkich modeli na równych warunkach trudno jest ocenić rzeczywisty wydajność każdego z nich, co tylko zwiększa zamieszanie wśród użytkowników i inwestorów. Ten konflikt. Naukowcy sztucznej inteligencji wielokrotnie podkreślali, że wskaźniki kontroli nie zawsze w pełni odzwierciedlają rzeczywiste możliwości tej technologii. Ponadto kwestia kosztów zasobów, które firmy zużywają dla maksymalnych wskaźników, pozostaje otwarty. W związku z tym wielu ekspertów oferuje jedno podejście do testowania modeli AI, które unikną takich sporów w przyszłości.
Source