Reprezentácia dát: Text

2. Text

Textovú informáciu si počítač ukladá v binárnej podobe. Na rozdiel od čísel, znaky textu nevieme previesť do dvojkovej sústavy, preto bolo potrebné vymyslieť iný spôsob ako jednoznačne priradiť určitému znaku práve jednu kombináciu núl a jednotiek, ktorá tento znak v počítači bude reprezentovať. Keďže neexistuje žiadny univerzálny spôsob ako to urobiť, každý výrobca počítačov tento problém riešil iným spôsobom, preto existuje viacero znakových kódov. Poriadok do tohto chaosu sa snažil zaviesť americký úrad pre normalizáciu, ktorý vyhlásil jeden spôsob, ktorý by mali všetci používať. Tento spôsob kódovania sa volá ASCII (American Standard Code for Information Interchange).

ASCII kód

Znaky kódujeme pomocou tabuľky ASCII kódu, ktorá priraďuje každému znaku z klávesnice číselnú hodnotu. Klávesnica PC má 128 kláves, takže ASCII používa 7 bitov na každý znak. Neskôr sa kódovanie rozšírilo na 8 bitov a 256 znakov. Pritom prvá polovica znakov je pre všetky krajiny rovnaká a zvyšných 128 znakov sa pre každú krajinu stanovil podľa ich potrieb. Nevýhoda takého postupu je zrejmá: opäť chýba univerzálna tabuľka všetkých znakov vo všetkých jazykoch.

Unicode

Na kódovanie diakritických symbolov, iných abecied a ďalších znakov sa používa Unicode, ktorý na každý znak používa až 32 bitov. To umožňuje kódovanie vyše milióna rôznych znakov. Tento počet znakov umožňuje zakódovať znaky všetkých relevantných abecied pomocou jednej medzinárodnej tabuľky. Toto kódovanie zabezpečuje, že ten istý znak má rovnaký kód v každej krajine i na každom type počítača.

Nevýhodou tohto kódovania je, že znaky, ktoré sme predtým vedeli zakódovať iba ôsmimi bitmi (jedným bajtom) v ACSII, v Unicode sú kódované 16 a 24 bitmi (dvomi a tromi bajtami), a teda zaberajú viac pamäte ako by zaberal text v kódovaní ASCII. Istým riešením tohto problému je formát UTF-8.

Podrobnejšie kódovanie textu vysvetľuje video: