Per di piu Unicode definisce anche cio ad esempio chiama “Unicode transformation format” (UTF) ed “Universal character servizio” (UCS): questi non sono altre che razza di le codifiche necessarie a la esibizione esterna di Unicode.
Delle diverse codifiche definite ed usate nella fatto di Unicode, mi limitero per rammentare le con l’aggiunta di importanti (che razza di sono anche lesquelles usate con piu del 90% dei casi).
UTF-16 (fu UCS-2, descritta nel sensuale su che regole U): una trascrizione multibyte che tipo di permette la spettacolo dell’intero elencazione Unicode di nuovo che rappresenta l’intero BMP (65536 codepoint) in una norme di campione “wide” costituita da due byte (questa evo l’originale codifica UCS-2, che razza di era durante rango di visualizzare il solo BMP). Quando UTF-16 ed UCS-2 sono reiteratamente confuse, UTF-16 e l’unica di modo codesto. In UTF-16 ogni carattere viene ratificato per una serie di statura indeciso da 2 verso quattro ottetti (byte), riservando le codifiche per quattro byte per codepoint rarissimi gestiti collegamento “codepoint surrogati”.
Durante UTF-8 ogni grinta viene regolamentato durante una sequenza di statura incognita da 1 per quattro ottetti (byte)
UTF 16 definisce ed indivisible preciso fatica (Byte-Order-Mark ovvero BOM) come si puo sentire a afferrare l’endianness usata nella codifica del registro. Il BOM e rappresentato dal codepoint (esadecimale) U+FEFF quale sopra una dispositivo big-endian viene rappresentato dalla sequenza 0xFE,0xFF ancora dalla sequenza 0xFF,0xFE riguardo a una meccanismo little endian. Giacche il codepoint U+FEFF (Zero-Width Giammai-Break Space : Ambito di capienza zero come non consente interruzioni) non puo in nessun caso abitare il iniziale spirito di una successione codificata laddove il codepoint U+FFFE non e – neanche sara – no ambiente ad indivisible segno bene, l’apparire di uno di questi coppia codepoint all’ coraggio di una successione codificata permette di isolare la endianness dell’intera successione.
Durante UTF-8 non esiste indivis BOM (per motivi gia spiegati) anche se qualche programmi (innanzitutto operanti in ripulito windows) ne inseriscono personaggio (xEF,0xBB,0xBF) riscontro verso quello usato sopra UTF-16. Codesto e vidimazione, ma sconsiderato, dallo standard, ed sopra fondamento non fa ad esempio assillare le scatole.
UTF-32/UCS-4: una codificazione “wide” a altezza pallino: qualunque codepoint di Unicode e ideato da una serie di 4 byte. Si applicano le considerazioni sul BOM in precedenza viste a UTF-16. Questa norme e usata, durante familiarita, abbastanza ogni tanto.
Per motivo dei vantaggi illustrati della codifica F sulla norme U, UTF-8 e oggidi la trascrizione con l’aggiunta di usata verso la esibizione esterna di testi di nuovo testi multilingua. UTF-16 e verso verso alquanto usata nella vista interna delle stringhe (con particolari e quella con metodo durante ciascuno i sistemi operativi Microsoft posteriori verso Windows 2000)
Il concetto fondamentale, rivisitato
Giunti concretamente infine del nostro considerazione (semplificato) dei codici anche codifiche associate, siamo pronti verso cercare di conoscere quali inconvenienti possono promuovere il tematica principale che tipo di ho arringa un qualunque adunanza fa.
Quello come succede e che razza di indivisible testo (file) predisposto per succedere visualizzato con una tempo tripletta (linguaggio, codificazione, endianness) amene per finire su di un prassi dove autorita dei tre componenti viene applicato durante che erronea.
Esiste un’altra preferenza, ovvero che sul prassi fine – colui circa cui viene visualizzato il elenco – non esista il font opportuno per la visualizzazione (quale, mancano i alfabeto Giapponesi). Corrente errore si elimina apertamente installando un attrezzi di font completi (sovente chiamati font Unicode).
Il problema fondamentale e stabilito quando si riescono verso ricostruire la tripletta di inizio, quella di arrivo, addirittura per scoprire la usanza corretta di trasporto entro le due.
Purtroppo, esso che ho detto in precedenza e idoneo addirittura verso dire quello che io (anche io celibe, a lequel come ne so) chiamo “il fede di non calcolabilita della transcodifica”:
0 thoughts on “Il teorema di non calcolabilita della codifica”