Polski kontra AI: fakty zamiast mitów

W ostatnich miesiącach w polskich i zagranicznych mediach technologicznych pojawiły się nagłówki sugerujące, że język polski okazał się najlepszym językiem do komunikacji z modelami AI. Źródłem tych interpretacji było badanie naukowe „One ruler to measure them all: Benchmarking multilingual long-context language models", w którym porównano działanie modeli językowych w 26 językach w zadaniach wymagających bardzo długiego kontekstu.

W tym artykule analizuję, co rzeczywiście pokazują wyniki benchmarku ONERULER, jakie są jego ograniczenia oraz dlaczego uproszczone medialne interpretacje mogą prowadzić do błędnego wniosku, że polszczyzna jako taka jest „najlepsza" dla AI. Następnie wyjaśniam, jak na praktyczne działanie modeli wpływają tokenizacja oraz mechanizm attention.

Na czym polegał benchmark ONERULER

ONERULER to zestaw testów zaprojektowany do oceny zdolności modeli językowych do pracy z bardzo długimi sekwencjami tekstu — rzędu dziesiątek lub setek tysięcy tokenów. Zadania obejmowały między innymi:

wyszukiwanie konkretnej informacji ukrytej w ogromnym tekście,
śledzenie zależności w długim dokumencie,
zachowanie spójności odpowiedzi przy narastającym kontekście.

W pracy „OneRuler" autorzy podkreślają, że porównania między modelami są metodologicznie trudne, ponieważ różne modele używają odmiennych tokenizerów. W analizach głównych wyrównują liczbę tokenów, a nie identyczny tekst wejściowy między modelami, co wpływa na interpretację wyników. Dla pełnej przejrzystości autorzy prezentują również warianty z tym samym tekstem wejściowym dla wszystkich porównywanych modeli.

Benchmark OneRuler ocenia modele wyłącznie w zadaniach długiego kontekstu, a wyniki te nie są oceną jakości promptowania ani ogólnego rozumienia języka.

⚠️ Uproszczenia medialne

Autorzy pracy podkreślają, że wyniki dotyczą wyłącznie testów długiego kontekstu i nie stanowią ogólnej oceny języka polskiego w zastosowaniach AI. Media, skracając przekaz do jednego zdania, pominęły te zastrzeżenia — i to właśnie ten skrót myślowy stał się źródłem kontrowersji.

Tokenizacja — pierwszy filtr, przez który przechodzi tekst

Tokenizacja to fundamentalny proces, który często pozostaje niewidoczny dla użytkowników modeli AI, ale ma kluczowe znaczenie dla ich działania. Zanim model językowy „zobaczy" Twój prompt, tekst musi przejść przez tokenizer — algorytm dzielący ciągły tekst na dyskretne jednostki zwane tokenami.

Czym właściwie jest token?

Token to jednostka reprezentacyjna używana w modelach językowych. W zależności od algorytmu tokenizacji (BPE, WordPiece, SentencePiece) może odpowiadać:

całemu słowu — np. "the", "cat", "AI" w tekstach angielskich
fragmentowi słowa — np. "running" może być podzielone na "run" + "ning", lub "unhappy" na "un" + "happy"
sekwencji przyrostków lub innych kombinacji znaków — np. liczby jak "2024" mogą być tokenizowane jako "20" + "24", lub emotikony jako pojedyncze tokeny

W starszych tokenizacjach (np. byte-level BPE) obecność wielobajtowych sekwencji UTF-8 wynikała z technicznych aspektów algorytmu, a nie z fundamentalnej semantyki języka.

Kluczowe jest to, że model nie operuje na tekście bezpośrednio, tylko na ciągach liczb reprezentujących tokeny. Każdy token ma przypisany unikalny identyfikator (token ID), który jest następnie przekształcany w wektor embeddingowy — matematyczną reprezentację znaczenia.

Zobaczmy jak wyglądają nasze prompty dla modeli językowych

Najlepszym sposobem na zrozumienie tokenizacji jest praktyczne eksperymentowanie z narzędziem OpenAI Tokenizer.

Tokenizer to algorytm (program), który przekształca surowy tekst w sekwencję tokenów zgodnie z ustalonym słownikiem (vocabulary). Ten słownik zawiera tysiące lub dziesiątki tysięcy najczęściej występujących fragmentów tekstu z danych treningowych modelu.

Zobaczmy konkretny przykład używając modelu GPT-4:

🇬🇧 Angielski

"Please analyze the configuration file"

tokenów · 37 znaków

🇵🇱 Polski

"Proszę przeanalizować plik konfiguracyjny"

tokenów · 43 znaki

W tej konkretnej konfiguracji tokenizera ten sam tekst w języku polskim generuje ponad trzykrotnie więcej tokenów niż angielski odpowiednik. Różnica wynika ze sposobu działania tokenizera i słownika, który może mieć mniejszą liczbę popularnych polskich segmentów. Przykład nie jest uniwersalny dla wszystkich modeli, ale ilustruje, jak różne tokenizery mogą prowadzić do odmiennych długości reprezentacji tekstu.

3×

więcej tokenów
PL vs EN (GPT-4)

~4 000

tokenów na 1 000 słów
w języku polskim

~1 800

tokenów na 1 000 słów
w języku angielskim

Rola tokenów w NLP

Tokeny są interfejsem między ludzkim językiem a matematycznymi operacjami wewnątrz sieci neuronowej. Wszystkie obliczenia — od attention, przez feed-forward layers, aż po generację odpowiedzi — odbywają się na poziomie tokenów, nie słów.

To sprawia, że tokenizacja ma bezpośredni wpływ na:

Mechanizm attention i jakość odpowiedzi — Mechanizm attention dokonuje obliczeń na wektorowych reprezentacjach tokenów. Gdy ciąg wejściowy zawiera więcej tokenów, ilość par zależności rośnie kwadratowo względem długości sekwencji. To może prowadzić do:
- większego zużycia zasobów obliczeniowych,
- konieczności alokowania uwagi na więcej pozycji,
- potencjalnie trudniejszego utrzymania koncentracji na kluczowych informacjach w bardzo długich kontekstach.
Koszty API — Dostawcy jak OpenAI, Anthropic czy Google rozliczają się za liczbę przetworzonych tokenów. Dłuższy prompt w języku polskim może kosztować 2–3 razy więcej niż równoważny prompt w języku angielskim. W skali dużych aplikacji produkcyjnych, gdzie wykonywane są tysiące zapytań dziennie, różnica ta przekłada się na znaczące koszty operacyjne.

Jak to się ma do pisania promptów?

💡 Praktyczne wskazówki dla prompterów

Świadomość tokenizacji zmienia sposób, w jaki powinniśmy projektować prompty:

Wybór języka ma znaczenie — ten sam prompt w angielskim może być 2–3× krótszy (w tokenach) niż w polskim
Struktura ważniejsza niż elegancja — zwięzłe, punktowe instrukcje często działają lepiej niż długie opisy
Redundancja może być konieczna — w polskim powtarzanie nazw własnych zamiast zaimków zmniejsza wieloznaczność
Testuj z narzędziami tokenizacji — używaj OpenAI Tokenizer przed wysłaniem zapytania

Dlaczego polski może generować dłuższe sekwencje tokenów

W niektórych algorytmach tokenizacji, zwłaszcza byte-level, znaki diakrytyczne (ą, ć, ę, ł, ń, ó, ś, ź, ż) bywały rozbijane na sekwencje bajtów UTF-8. To nie oznacza, że model nie widzi słów semantycznie, lecz że wejście jest reprezentowane jako dłuższa sekwencja tokenów, co:

zwiększa liczbę tokenów,
skutkuje wyższym kosztem obliczeń,
może utrudniać mechanizmowi attention efektywną koncentrację na informacyjnie istotnych fragmentach.

W nowszych tokenizerach (np. tiktoken, SentencePiece, Unigram) segmentacja jest zwykle lepsza, choć różnice nadal występują.

Przyjrzyjmy się konkretnemu przykładowi. Fragment wiersza Jana Brzechwy „W Szczebrzeszynie chrząszcz brzmi w trzcinie" zawiera 225 znaków, ale model potrzebuje aż 138 tokenów do jego zakodowania. Dla porównania, podobnej długości tekst angielski zajmowałby około 40–50 tokenów.

W starszych modelach, takich jak GPT-3, stosowano tokenizację opartą na bajtach (byte-level BPE). Znaki diakrytyczne — „ż", „ś", „ą" — bywały rozbijane na kilka sub-tokenów odpowiadających sekwencjom UTF-8. Taka fragmentacja nie oznacza, że model „nie rozumie" słów, lecz że wejście jest reprezentowane dłuższą sekwencją tokenów, co zwiększa koszt obliczeń i obciąża mechanizm attention. W nowszych tokenizatorach pokrycie języków innych niż angielski jest zwykle lepsze, ale różnice w liczbie tokenów nadal pozostają istotnym czynnikiem w długich kontekstach.

Wpływ na mechanizm attention:

Gdy model przetwarza taki tekst, mechanizm attention musi rozłożyć swoją uwagę na 138 tokenów zamiast na 40–50. Macierz uwagi (attention matrix) jest alokowana na dużo większą liczbę pozycji. To prowadzi do:

większego rozproszenia uwagi na więcej tokenów,
wyższych kosztów obliczeniowych — każdy dodatkowy token to dodatkowe operacje (złożoność O(n²)),
potencjalnie trudniejszego utrzymania koncentracji na kluczowych informacjach w bardzo długich kontekstach.

Jeśli tokenizer był trenowany głównie na tekstach angielskich, może słabiej reprezentować typowe polskie segmenty słów, przez co wyrazy częściej rozpadają się na drobniejsze fragmenty. To istotne rozróżnienie: nie jest to uniwersalna cecha każdego nowoczesnego LLM, lecz efekt konkretnego tokenizera i architektury.

Mechanizm attention — jak modele rozdzielają „uwagę"

Attention jest centralnym mechanizmem Transformerów. W uproszczeniu:

każdy token otrzymuje reprezentację wektorową,
model oblicza, jak silnie każdy token powinien odnosić się do pozostałych,
powstaje rozkład wag określający, które fragmenty kontekstu są najistotniejsze dla bieżącej predykcji.

Mechanizm attention skaluje się względem liczby tokenów (O(n²)), co przy dłuższych sekwencjach zwiększa koszty obliczeniowe. To prowadzi do dwóch skutków:

rośnie koszt obliczeniowy i zużycie zasobów,
przy bardzo długich sekwencjach łatwiej o rozmycie uwagi na elementach mało informacyjnych.

Czasem mówi się, że modele „ignorują" słowa typu „please" czy „dziękuję". W sensie technicznym tokeny te nie są usuwane z wejścia — mogą jedynie otrzymywać bardzo niskie wagi attention w danym kontekście, jeśli nie wnoszą istotnej informacji dla zadania.

Wieloznaczność języka — problem niezależny od tokenów

Poza tokenizacją wieloznaczność jest cechą wszystkich języków naturalnych, a jej wpływ zależy głównie od danych treningowych i sposobu dostrajania modeli. Klasyczny przykład:

Ania powiedziała Oli, że jej zeszyt jest brudny.

Bez dodatkowego kontekstu nie wiadomo, do kogo odnosi się zaimek „jej". Modele językowe próbują rozstrzygać takie przypadki statystycznie, na podstawie danych treningowych, ale nie zawsze robią to zgodnie z intencją autora.

Swobodny szyk zdania, elipsa czy idiomy zwiększają naturalność języka, lecz w zastosowaniach formalnych — dokumentach prawnych, specyfikacjach technicznych, procedurach — mogą prowadzić do niejednoznaczności także dla systemów AI. Dlatego w takich kontekstach warto pisać w stylu precyzyjnym i jednoznacznym.

Co z tego wynika w praktyce

📋 Skutki praktyczne

Różnice w tokenizacji i działaniu attention mają bardzo konkretne konsekwencje:

• Długie polskie prompty mogą szybciej zbliżać się do limitów kontekstu
• W systemach produkcyjnych większa liczba tokenów oznacza wyższe koszty
• Fragmentacja słów może wpływać na stabilność odpowiedzi w długich rozmowach

Język polski może prowadzić do dłuższych sekwencji po tokenizacji w niektórych systemach, co wpływa na koszty obliczeniowe i wykorzystanie kontekstu — ale nie oznacza to, że modele nie potrafią poprawnie przetwarzać polszczyzny.

Podsumowanie

Benchmark ONERULER analizował zadania wymagające bardzo długiego kontekstu. W określonych konfiguracjach język polski osiągał wysokie średnie wyniki, jednak autorzy pracy podkreślają, że porównania są obarczone ograniczeniami metodologicznymi wynikającymi m.in. z użycia różnych tokenizerów oraz sposobu wyrównywania długości wejścia. Wyniki te należy interpretować wyłącznie w kontekście zadań długiego kontekstu i specyficznych modeli testowanych w benchmarku OneRuler. Benchmark ten nie mierzy ogólnej jakości promptowania ani codziennej komunikacji z AI.

Dostępne benchmarki pokazują różnice między językami w określonych konfiguracjach modeli i zadań, jednak nie pozwalają na ogólną ocenę, który język jest „lepszy" lub „gorszy" dla systemów AI w sensie uniwersalnym.

Z perspektywy technicznej kluczowe są dwa mechanizmy: tokenizacja i attention. Mechanizm attention musi rozważyć większą liczbę relacji między tokenami w przypadku dłuższych sekwencji, co zwiększa koszt obliczeń i w bardzo długich sekwencjach może utrudniać koncentrację na fragmentach najbardziej informacyjnych.

🎯 Kluczowy wniosek

Biorąc pod uwagę fragmentację tokenów (2–3× więcej niż angielski), rozproszenie mechanizmu attention, wieloznaczność konstrukcji składniowych oraz charakterystykę architektury Transformer — w analizowanych zadaniach długiego kontekstu język polski nie wykazuje uniwersalnej przewagi nad innymi językami i pod względem kosztów tokenizacji oraz wydajności w architekturach transformerowych może być mniej efektywny niż angielski w wielu praktycznych zastosowaniach. Nie oznacza to, że nie można efektywnie korzystać z AI po polsku, ale wymaga to świadomości ograniczeń i dostosowania strategii tworzenia promptów.

Wnioski są pragmatyczne: skuteczna komunikacja z AI zależy zarówno od struktury promptów, jak i od świadomości ograniczeń narzędziowych (tokenizacja, limity kontekstu, mechanizmy modeli). Interpretacje wyników benchmarku OneRuler jako ogólna ocena języka nie są uzasadnione naukowo.

Źródła i dalsze lektury

„One ruler to measure them all: Benchmarking multilingual long-context language models"

Artykuł naukowy prezentujący benchmark ONERULER — porównanie działania modeli LLM na zadaniach z bardzo długim kontekstem w 26 językach.

Lewis Tunstall, Leandro von Werra, Thomas Wolf — Natural Language Processing with Transformers, Revised Edition

Kompleksowy podręcznik omawiający sieci Transformer, tokenizację i mechanizmy językowe wykorzystywane w nowoczesnych modelach AI.

OpenAI Tokenizer — narzędzie do analizy tokenizacji

Oficjalne narzędzie OpenAI do analizy i wizualizacji sposobu, w jaki tekst jest dzielony na tokeny przez modele.

Hugging Face Tokenizers — dokumentacja różnych algorytmów tokenizacji

Dokumentacja opisująca implementacje tokenizerów (subword, BPE, WordPiece, SentencePiece) stosowanych w bibliotece Transformers.