Chińska firma technologiczna Alibaba w poniedziałek zaprezentowała Qwen3, nową rodzinę modeli AI, które, jak twierdzi, mogą dorównać, a w niektórych przypadkach przewyższyć najlepsze modele dostępne od Google i OpenAI. Modele te będą dostępne do pobrania na platformach Hugging Face i GitHub, a ich rozmiar waha się od 0,6 miliarda do 235 miliardów parametrów.
- Alibaba zaprezentowała Qwen3, nową rodzinę modeli AI, które mogą dorównać modelom od Google i OpenAI.
- Modele Qwen3 będą dostępne na platformach Hugging Face i GitHub, z rozmiarem od 0,6 miliarda do 235 miliardów parametrów.
- Modele Qwen3 są hybrydowe, co pozwala na elastyczne podejście do rozwiązywania złożonych problemów i szybkiego odpowiadania na prostsze zapytania.
- Niektóre modele Qwen3 wykorzystują architekturę mieszanego eksperta (MoE), co zwiększa efektywność obliczeniową.
- Qwen3 obsługuje 119 języków i był szkolony na zbiorze danych zawierającym prawie 36 bilionów tokenów.
Rewolucja w modelach AI
Wzrost serii modeli pochodzących z Chin, takich jak Qwen, zwiększył presję na amerykańskie laboratoria, takie jak OpenAI, aby dostarczać bardziej zaawansowane technologie AI. Politycy zaczęli wprowadzać ograniczenia, mające na celu ograniczenie zdolności chińskich firm AI do pozyskiwania chipów niezbędnych do szkolenia modeli.
Innowacyjne podejście do przetwarzania
Modele Qwen3 są określane jako „hybrydowe”, co oznacza, że mogą poświęcać czas na „rozwiązywanie” złożonych problemów lub szybko odpowiadać na prostsze zapytania. Jak podano w blogu zespołu Qwen, „bezproblemowo zintegrowaliśmy tryby myślenia i niemyslenia, oferując użytkownikom elastyczność w kontrolowaniu budżetu myślenia.”
Architektura ekspertów w Qwen3
Niektóre modele przyjmują architekturę mieszanego eksperta (MoE), co może być bardziej efektywne obliczeniowo przy odpowiadaniu na zapytania. MoE dzieli zadania na podzadania i deleguje je do mniejszych, wyspecjalizowanych „ekspertów”.
Wsparcie dla wielu języków
Modele Qwen3 obsługują 119 języków i były szkolone na zbiorze danych składającym się z prawie 36 bilionów tokenów. Zbiór ten obejmował podręczniki, „pary pytanie-odpowiedź”, fragmenty kodu, dane generowane przez AI i inne materiały.
Porównanie z konkurencją
W porównaniu do swojego poprzednika, Qwen2, Qwen3 wykazuje znaczne poprawy w wydajności. Największy model Qwen3, Qwen-3-235B-A22B, wyprzedza OpenAI’s o3-mini oraz Google’s Gemini 2.5 Pro na platformie Codeforces, która jest przeznaczona do zawodów programistycznych.
Dostępność modeli Qwen3
Model Qwen-3-235B-A22B nie jest jeszcze publicznie dostępny. Największy publiczny model Qwen3, Qwen3-32B, pozostaje konkurencyjny w stosunku do wielu modeli AI, zarówno własnościowych, jak i otwartych, w tym modelu R1 chińskiego laboratorium DeepSeek.
Opinie ekspertów na temat Qwen3
Alibaba twierdzi, że Qwen3 „wyróżnia się” zdolnościami do wywoływania narzędzi oraz ścisłego przestrzegania instrukcji i kopiowania specyficznych formatów danych. Tuhin Srivastava, współzałożyciel i dyrektor generalny firmy Baseten, zauważył, że Qwen3 jest kolejnym przykładem trendu otwartych modeli, które dotrzymują kroku systemom zamkniętym, takim jak OpenAI.