UTF-32 () – jeden ze sposobów kodowania znaków standardu Unicode. Sposób ten wymaga użycia 32-bitowych słów. Zestaw znaków jest też zdefiniowany w standardzie ISO 10646 jako UCS-4.
Kody obejmują zakres od 0 do 0x7FFFFFFF. Kod znaku zawsze ma długość 4 bajtów i w zapisie big endian przedstawia po prostu numer znaku w tabeli Unikodu. Możliwa jest również odwrotna kolejność – w zapisie little endian, co nakłada obowiązek używania znacznika kierunku BOM.
Stała długość kodu każdego znaku (w przeciwieństwie do m.in. UTF-8) jest dużą zaletą tego kodowania. Kodowanie to jest jednak bardzo nieefektywne – zakodowane ciągi znaków są dwa do czterech razy dłuższe niż ciągi tych samych znaków zapisanych w innych kodowaniach. Kodowanie to z tego powodu jest zwykle stosowane tylko w pamięci operacyjnej w celu ułatwienia obsługi i przetwarzania (np. obliczenie długości czy wycinanie ciągu znaków jest bardzo proste), na innych nośnikach (takich jak połączenia sieciowe czy dysk twardy) stosuje się zwykle bardziej efektywne UTF-8 lub UTF-16.
W systemach uniksowych kodowanie to jest najczęściej używane do wewnętrznego przechowywania napisów Unicode.
Reklama
UTF-32/UCS-4
Reklama
Reklama
Inne zagadnienia
Najnowsze aktualności:
Reklama