A szöveges információ kódolása; adatok tárolása


A számítógép mint fekete doboz

A rendszer egymással kapcsolatban álló elemek összessége, amelyek adott cél érdekében együttműködnek egymással, és működésük során erőforrásokat használnak fel. (Példák rendszerekre: az ember, egy szervezet, egy autó vagy egy repülőgép, egy számítógép stb.)

A rendszer működése során felhasznált erőforrások legfontosabb típusai a következők:

A számunkra legfontosabb példa rendszerre egy digitális számítógép, amelynek egyik legfontosabb képessége az, hogy (legalábbis elvileg) bármilyen adatfeldolgozási feladat elvégzésére képes.

A számítógépes rendszer működését egy fekete dobozként írhatjuk le:

A számítógép mint fekete doboz

A számítógép fekete doboz modellje

A számítógép univerzális, automatikus működésű, kívülről vezérelhető, műszakilag megvalósított rendszer.

A kódolás-dekódolás folyamata; kódok, jelek

A kódolás az információ megadása valamilyen természetes vagy mesterséges nyelven, kódok és kódsorozatok segítségével. Az információátvitel során a kódolt információt fizikai jelekké, ill. jelsorozatokká alakítjuk, hogy egy csatornán keresztül továbbítani tudjuk.

Az észlelt jelsorozatokat a vevő oldalon dekódolással alakítjuk vissza kódsorozatokká, ill. információvá.

Az interperszonális kommunikáció során sok esetben a vevő oldalon az információ dekódolásakor egy kognitív szűrő működését figyelhetjük meg, amely felelős pl.
– a szelektív figyelemért (pl. "csak azt hallom meg, ami érdekel"),
– a szelektív torzításért (pl. "ez nem lehet igaz", "ezt nem úgy értette", "biztosan arra célzott, hogy ...", "ezt csak azért mondja, mert ..." stb.), és
– a szelektív emlékezetért (pl. "csak a szépre emlékezem").

kommunikációs modell
Az információátvitel alapmodellje

Számítógépes kódrendszerek

A számítógépek a szöveges információ kódolására meghatározott kódrendszereket használnak. Egy kódrendszer definiálja
– a kódolás során használható karaktereket (a kódábécét), és
– a karakterek kódját, amely egy 0-tól kezdődő sorszám.
A kódolt karaktereket és a hozzájuk rendelt karakterkódokat legcélszerűbb egy táblázatban ábrázolni.

A karakterkódokat a jelenleg használt számítógépes kódrendszerekben bináris vagy hexadecimális számrendszerben adjuk meg:

Néhány ismertebb kódrendszer:

szimbólumok beszúrása az MS Word 2002-es verziójában
Az MS Word által használt karaktereket tartalmazó 'Szimbólum' tábla részlete

Az információ (technikai) mennyisége

Az információ gyakorlati (technikai) mennyiségét azzal a digitális tárolókapacitással adjuk meg, amely szükséges az adott információnak megfelelő adatmennyiség tárolásához.

Mivel a számítógépek ma is a kettes számrendszert használják az adatok kódolására (vö. Neumann-elvek, 1945), az információ mennyiségének egységei a bit, a bájt és ezek szabványos prefixumokkal (kilo/Kilo, mega/Mega stb.) megadott többszörösei.

A számítógépen tárolt fájlok méretét rendszerint bájtokban adjuk meg:

Például egy 1 Mbájt méretű ANSI (8 bites) kódolású szövegfájl kb. egy millió karaktert tartalmaz.

Adatátvitel esetében (például számítógépes hálózatokban) az átvitt információ mennyiségét rendszerint a másodpercenként maximálisan átvihető bitek számával adjuk meg:

Egy számítógépes hálózatban a másodpercenként maximálisan átvihető bitek számát sávszélességnek nevezzük. Például egy 1 gbps sávszélességű hálózatban másodpercenként maximálisan 1 gbit, azaz 109 bitnyi információt vihetünk át két számítógép között.


Fájlok, adatállományok

A számítógépet működtető operációs rendszer egyik alapfeladata a fájlok szabványos kezelése. Ehhez például a következő adatokat tartja nyilván az egyes fájlokról:

Az MS Windows operációs rendszerben egy adott fájltípushoz mindig egy meghatározott alkalmazás tartozik, amelynek segítségével a fájl megnyitható. Ha szükséges, egy adott fájltípushoz mi is társíthatunk egy olyan alkalmazást, amely a fájlt megnyitja.

Fájltípusok

A különböző fájltípusok az elektronikus levelezésre kidolgozott MIME szabvány szerint például a következőképpen csoportosíthatók:


Fájlrendszer

Egy hierarchikus alkönyvtárstruktúra kialakítása
Példa egy hierarchikus mappastruktúrára

Fájlkezelés

A dir parancs eredménye
Az MS Windows szöveges konzolja
A Total Commander képernyőképe
A Total Commander képernyőképe
A WinSCP képernyőképe
A WinSCP fájlkezelő segédprogram képernyőképe

A Total Commander néhány hasznos parancsa


A szöveges információ kódolása; adatok tárolása

Alapfogalmak

kódok
Az információt rendszerint kódok segítségével adjuk meg. A kódok az információ elemi egységei. A lehetséges kódok halmazát kódábécének nevezzük. A kódábécében szereplő kódokból meghatározott ("nyelvtani") szabályok szerint kódsorozatokat képezünk; az összetett információtartalomnak (pl. egy üzenetnek vagy egy adatállománynak) kódsorozatokat feleltetünk meg.
– A kódok értelmezéséhez egy adat- vagy információfeldolgozó rendszer szükséges.
Példák: latin ábécé, morze ábécé; számítógépes kódrendszerek (pl. ASCII; UNICODE, UCS; cp852, windows-1250, ISO-8859-2; UTF-8 stb. kódrendszerek); HTML entitáskódok és UCS kódok; természetes nyelveken leírt üzenetek; különböző formátumú fájlok (pl. txt formátumú szövegfájlok, jpg formátumú képfájlok, mp3 formátumú zenei fájlok)
fizikai jelek
A jelek fizikai mennyiségek különböző (észlelhető, mérhető) értékei, amelyeket megfeleltetünk a kódábécé egyes elemeinek (pl. egy kottában a zenei hangokhoz meghatározott hangrezgések tartoznak). Ennek megfelelően a kódolt információnak a jelek meghatározott sorozata felel meg. A jelsorozatok pl. adatátvitel vagy adattárolás esetében az információ (fizikai) hordozói.
Példák: írásjelek, beszédhangok; zenei hangok; mágnesjelek (pl. mágneses adathodozók esetében), (apró) bemélyedések vagy ezek hiánya (pits vs. lands; optikai adathordozók esetében)

kódrendszerek

Az informatikában a karakterek kódolására különböző kódrendszereket használnak (pl. ASCII, UNICODE, UTF-8 stb.), ezek jellemzően a bájt többszöröseit feleltetik meg egy karakternek. Például a Windows-1250 vagy ISO-8859-2 8 bitet (max. 256 karakter), a "klasszikus" vagy alap UNICODE 16 bitet (max. 65536 karakter), az UNICODE jelenlegi formája pedig 32 bitet (max. 4,294,967,296 karakter) használ. (Az UNICODE esetében azonban közel sem használjuk ki az összes lehetőséget; jelenleg kb. 100 ezer karakterkód használatos.)

Az UNICODE kódrendszeren alapuló UTF-8 kódolás változó hosszúságú bájtsorozatokat használ: egy kód minimum 1 bájt, maximum 4 bájt hosszúságú.

Az ASCII kódrendszer, amely minden jelenleg használatos kódrendszer alapja, kivétel abból a szempontból, hogy 7 bitet (max. 128 karakter), használ, ami nem a bájt többszöröse. Érdekesség viszont, hogy az internetes címek még a mai napig ezt a kódolást használják, és például az ékezetes karaktereket (amelyek az ASCII kódrendszerben nincsenek benne) több 7 bites karakter sorozatával kódolják.


az ASCII kódtábla

Az ASCII kódtábla

az UNICODE tábla egy részlete

Az UNICODE kódtábla egy részlete (ASCII vagy Latin alapkarakterek)

A teljes UNICODE tábla megtalálható a https://unicode-table.com/hu/blocks/ webcímen.


néhány HTML entitáskód

entitáskód böngészőben megjelenő karakter karakter neve
&lt; < bal kacsacsőr; "kisebb, mint" ("less than")
&gt; > jobb kacsacsőr; "nagyobb, mint" ("greater than")
&amp; & "és" jel (ampersand)
&quot; " idézőjel (quotation mark)
&apos; ' apsztróf (apostrophe)

A HTML entitáskódok táblázata megtalálható a https://dev.w3.org/html5/html-author/charref webcímen.

néhány HTML UCS kód &#;-től &#;-ig

(táblázat frissítése: CTRL R)


további információk:
Kód (2018-02-21)
Character Sets (2018-02-19)
ANSI (2018-02-19)
ASCII (2018-02-19)
852-es kódlap (2018-02-19)
Windows-1250 (2018-02-19)
Code Page 1250 Windows Latin 2 (Central Europe) (2018-02-19)
ISO/IEC 8859-2 (Latin-2) (2018-02-19)
Unicode, UTF-8 (2018-02-19)
Magyar ékezekes karakterek kódkészletekben (2018-02-19)
Unicode character table (A teljes UNICODE kódtáblázat magyarul) (2018-02-19)


Gyakorlati feladat: kódok megjelenítése egy HTML dokumentumban

(1) Hozzunk létre egy új szöveges állományt a Jegyzettömbben a következő tartalommal:

<!DOCTYPE html>
<html>
<body>
Néhány kód:
   &#955; (görög kis lambda),
   &#1041; (cirill nagy be),
   &#1488; (héber alef)
</body>
</html>

A CTRL S billentyűkombináció lenyomásával (Fájl/Mentés) mentsük el a szöveges állományt egy kiválasztott mappába kodok.html néven!

Fontos figyelmeztetés: ahhoz, hogy egy szöveges állományt a Jegyzettömbben .html kiterjesztéssel tudjunk elmenteni, a Windows fájlkezelőjében ("Ez a gép", korábban "Sajátgép") a Nézet menüszalagon be kell kapcsolni a Fájlnévkiterjesztések opciót!
A Windows 10 fájlkezelőjének Nézet menüszalagja

(2) Jelenítsük meg egy böngészőprogramban (pl. Firefox-ban vagy Chrome-ban) a létrehozott kodok.html állományt. (Ha a fájl kiterjesztését jól állítottuk be, akkor a fájlra a Windows fájlkezelőjében duplán rákattintva a fájl az alapértelmezett böngészőben fog megnyílni.) A következőt fogjuk látni a böngészőben:

HTML fájlban megjelenített kódok

Figyeljük meg, hogy a decimális (tízes számrendszerben megadott) kódokkal leírt görög, cirill és héber karakterek eredeti alakjukban fognak megjelenni.

Megjegyzés: a böngészőben (pl. Firefox, Chrome) megjelenített karakterek mérete megnövelhető a CTRL {szürke +} billentyűkombinációval. A [szürke +] a jobboldali számbillentyűzet jobb szélén található, rendszerint két billentyű nagyságú + billentyű formájában alakítják ki. A billentyűzet jobb szélén levő számbillentyűzet

Ha egy karaktert nem a decimális, hanem a hexadecimális (16-os számrendszerben megadott) kódja alapján akarunk megjeleníteni, akkor a &#x....; formát kell alkalmaznunk (ahol x az utána következő hexadecimális kódra utal).

Például a görög kis lambda kétféleképpen jeleníthető meg:

&#955; (λ megadása decimális kóddal)
&#x3BB; (λ megadása hexadecimális kóddal)

(3) Keressünk egy olyan karaktert, amelyet a böngészőprogram az érvényes alapbeállítások mellett nem tud megfelelően megjeleníteni. Válasszunk például egy egyiptomi hieroglifát: &#77824; = 𓀀, amelyet az Unicode karaktertáblázat a következőképpen jelenít meg:
Az A001 egyiptomi hieroglifa megjelenítése az Unicode kódtáblában

Ezek után végezzük el a következő tevékenységeket:

(4) Hozzuk létre az (1) pontban megismert módon a kodok1.html nevű új szöveges állományt Jegyzettömbben a következő tartalommal:

<!DOCTYPE html>
<html>
<body>
Az A001 egyiptomi hieroglifa képe:
<br>
<img src="A001_kepe.jpg">
</body>
</html>

(5) Jelenítsük meg egy böngészőprogramban (pl. Firefox-ban vagy Chrome-ban) a létrehozott kodok1.html állományt. A következőt fogjuk látni a böngészőben:

kodok1.html állomány képernyőképe

Ha az A001_kepe.jpg nem megfelelően jelenik meg a böngészőben, annak több oka lehet:

Ha a kép nem megfelelően jelent meg, próbáljuk meg megtalálni a hibát, és kijavítani. Ha sikerült, frissítsük a böngészőt (pl. a CTRL+R vagy az F5 billentyűkkel).

(6) Nyissuk meg a Total Commander fájlkezelőt, és mind a jobboldali, mind a baloldali panelt állítsuk be arra a mappára, amelyben a létrehozott állományok (pl. kodok.html, A001_kepe.jpg, kodok1.html stb.) megtalálhatóak. (Ez pl. az egér használatával a Windows fájlkezelőjében megszokott módon könnyen megtehető.) Ezután végezzük el a következőket:

Az így kapott tömörített (.zip kiterjesztésű) állományt töltsük fel a tanulmányi rendszerbe, vagy küldjük el email csatolmányként.

további információk:
Unicode character table (2018-02-19)
HTML (2018-02-19)
Mozilla Firefox (2018-02-19)
IrfanView - Wikipédia. (2018-02-19)
IrfanView - Official Homepage (2018-02-19)


Fájlok, fájlszerkezet

A számítógépeken az adatokat fájlok (adatállományok) formájában tároljuk. A fájlokat névvel és kiterjesztéssel látjuk el (célszerű az ékezet nélküli betűk használata, emellett gyakran előfordulnak fájlnevekben a _ és a - karakterek is). A fájlok kiterjesztése megadja, milyen típusú adatokat tárolunk a fájlban, és milyen alkalmazás (program) segítségével tudjuk az adott fájlt megnyitni. Például egy 'docx' kiterjesztésű dokumentumhoz rendszerint a Word alkalmazást társítjuk.

A fájlok további jellemzői: a fájlok mérete, létrehozásuk dátuma és ideje, továbbá a fájlok attribútumai (például a DOS, ill. Windows rendszerben archív fájlok, rendszerfájlok, rejtett fájlok vagy csak olvasható fájlok adhatóak meg ezek segítségével).

Egy mappa (vagy alkönyvtár) tartalmát a Windows parancssoros felhasználói felületének (cmd.exe) megnyitása után a 'dir' paranccsal írathatjuk ki:

A dir parancs eredménye

Egy mappa tartalmát grafikus felületen egy fájlkezelő segédprogram (például a Sajátgép vagy a Total Commander) segítségével írathatjuk ki:

A Total Commander képernyőképe

A fájlokat a számítógép valamelyik háttértárolóján (merevlemez, pendrive, DVD stb.) tároljuk. Mivel rendszerint nagyon sok fájlt tárolunk, a fájlokat egy háttértárolón meghatározott mappákban (vagy alkönyvtárakban) csoportosítjuk. A mappák egy hierarchikus rendszert (ún. "fa-struktúrát") alkotnak, amelynek legfelső szintű eleme az ún. gyökérkönyvtár. Merevlemezek esetén szokás több ún. partíciót is létrehozni (pl. a rendszerprogramokat tároló C partíció mellett egy D partíciót az adatok számára stb.). A különböző partíciókra úgy tekinthetünk, mintha több, egymástól független háttértárolóval rendelkeznénk.

Többfelhasználós operációs rendszerekben (pl. Linux, Unix) a fájlokhoz meghatározott hozzáférési jogosultságok tartoznak, amelyek meghatározzák, hogy az egyes felhasználók milyen műveleteket végezhetnek az egyes fájlokkal.

A WinSCP képernyőképe

A felhasználók hozzáférési jogosultságuk szerint három jogosultsági csoportba tartozhatnak:

A felhasználók számára engedélyezett műveletek megadása a fentiekben megadott felhasználói jogosultsági csoportok szerint történik. Például a fenti ábrában a "Rights" oszlopban az első három karakter a tulajdonos számára engedélyezett műveleteket, a következő három karakter a csoporttagok számára engedélyezett műveleteket, végül az utolsó három karakter az egyéb felhasználók számára engedélyezett műveleteket adja meg a következő karakterek segítségével:

r : a fájl tartalma olvasható (a fájl letölthető stb.)
w : a fájl tartalma írható (a fájl módosítható, pl. törölhető, felülírható stb.)
x : a (program)fájl végrehajtható, ill. az adott könyvtárba lehetséges a belépés (a könyvtár tartalma olvasható)

Amennyiben egy távoli (pl. interneten keresztül elérhető) szerver számítógépen rendelkezünk felhasználói jogosultsággal, a fájljainkat például egy FTP kliensprogram segítségével tudjuk feltölteni, letölteni, ill. módosítani (a fenti ábrán a WinSCP program képernyőképe szerepel, de pl. a Total Commander is rendelkezik FTP kliensfunkcióval). Tűzfalon keresztül történő kommunikáció esetén az FTP kliensprogramot rendszerint ún. passzív üzemmódra kell beállítani (ilyenkor a kliens kérésére a távoli szerver elküldi a saját IP címét és annak a csatornának a portszámát, ahová a kliens kapcsolódhat, majd várja a kliens kapcsolódását).

további információk:
Könyvtárszerkezet kialakítása | Sulinet Tudásbázis (2020-03-10)
Windowsos könyvtárszerkezetek - Informatika tananyag (2020-03-10)
Miért jobb a Total Commander a Windows fájlkezelőnél (2020-03-10)
Hozzáférési jogosultságok (2018-03-13)
FTP - Unix/Linux szerverek üzemeltetése (2020-03-10)


Fájltípusok

A különböző fájltípusokat többféleképpen csoportosíthatjuk. Például az elektronikus levelek (e-mail) formátumának leírására szolgáló MIME szabvány alapján megkülönböztethetjük az alábbi típusokat:

MIME típus MIME altípus (példa) a fájltípus leírása kiterjesztés (példa)
text
text plain szöveges állomány [ld. 1,2,4] .txt
text rtf a Microsoft alternatív dokumentumformátuma (Rich Text Format) [ld. 1,4] .rtf
text html weblap, HTML formátumú dokumentum [ld. 1,2,4] .htm
.html
image
image jpeg jpeg formátumú képfájl [ld. 1,2,4] .jpg
.jpe
.jpeg
image gif gif (Graphics Interchange Format) formátumú képfájl [ld. 1,2,4] .gif
image png png (Portable Network Graphics) formátumú képfájl [ld. 1,2,4] .png
image bmp
x-windows-bmp
a Microsoft (tömörítetlen) képformátuma [ld. 1,2,4] .bmp
audio
audio mpeg
mpeg3
mpga (MPEG Layer 1), mp2 (MPEG Layer 2) vagy mp3 (MPEG Layer 3) formátumú digitális hangfájl [ld. 1,2,4] .mpa
.mpg
.mpga
.mp2
.mp3
audio midi
x-mid
x-midi
Midi formátumú hangfájl [ld. 2,4] .mid
.midi
audio wav
x-wav
a Microsoft (tömörítetlen) hangformátuma [ld. 2,4] .wav
video
video mpeg MPEG formátumú digitális videoállomány [ld. 1,2,4] .mpg
.mpeg
.mpe
.m1v
.m2v
video mp4 MPEG-4 formátumú digitális videoállomány [ld. 1,4] .mp4
video quicktime Apple QuickTime formátumú digitális videoállomány [ld. 1,2,4] .mov
video avi
msvideo
x-msvideo
a Microsoft digitális videóformátuma; avi formátumú digitális videoállomány [ld. 2,4] .avi
application
application msword az MS Word régebbi verziói által használt dokumentum [ld. 1,2,4] .doc
application vnd.openxmlformats-officedocument.wordprocessingml.document az MS Word új verziói (pl. MS Word 2007) által használt dokumentum [ld. 3,4] .docx
application excel
x-excel
vnd.ms-excel
az MS Excel régi verziói által használt táblázatformátum [ld. 1,2,4] .xls
application vnd.openxmlformats-officedocument.spreadsheetml.sheet az MS Excel új verziói (pl. MS Excel 2007) által használt táblázatformátum [ld. 3,4] .xlsx
application pdf pdf (Portable Document Format) formátumú dokumentum [ld. 1,2,4] .pdf
application zip
x-compressed
zip formátumban összecsomagolt (tömörített) fájlok archívuma [ld. 1,2,4] .zip

Az egyes fájltípusok leírása a MIME alaptípus és az altípus összekapcsolásával lehetséges, pl. text/plain, image/jpeg, audio/mpeg, video/mp4, application/zip stb. Így lehetséges elektronikus levelek esetében a levelekhez csatolt fájlok ("csatolmányok") típusát szabványos módon megadni.

további információk:
MIME (2020-03-09)
[1] Media Types (2020-03-09)
[2] The Complete List of MIME Types (2020-03-09)
[3] Register the 2007 Office system file format MIME types on servers (2020-03-09)
[4] Internet Media Types (2020-03-09)


Tartalom
Boda István, 2020/2022.