Byte. Cosa stiamo leggendo dal file?

In generale, queste sono informazioni per principianti. Quando è emerso l'argomento della lettura delle informazioni da un file, è sorta la domanda: se il file contiene lettere, perché leggiamo i numeri da esso sotto forma di byte e cos'è un byte in questo caso? Cos'è un byte è già stato scritto abbastanza bene qui. Ma, dopo aver letto, rimaneva ancora la questione del meccanismo per trasformare le lettere in numeri, quindi ho dovuto scavare un po' più a fondo su Internet. Pertanto quanto scritto di seguito può essere considerato un'aggiunta. Il computer memorizza ogni file come informazione composta da zero e uno in forma binaria. Ogni file è in realtà una raccolta di byte che si susseguono. In genere, esistono due tipi di file di informazioni: un file di testo e un file binario. Il file di testo contiene un tipico set di caratteri leggibili dall'uomo, che possiamo aprire in qualsiasi editor di testo. I file binari sono costituiti da caratteri che non siamo abituati a utilizzare nella vita di tutti i giorni, pertanto è necessario un programma speciale in grado di leggerli. I file di testo sono costituiti da lettere, numeri e altri caratteri comuni. Tali file hanno estensioni .txt, .py, .csv, ecc. Quando apriamo un file di questo tipo, vediamo il solito set di caratteri che formano le parole. Sebbene in realtà questo contenuto non sia memorizzato in questa forma all'interno del computer. Viene memorizzato sotto forma di bit, ovvero 0 o 1. In varie tabelle di codifica ASCII, UNICODE o qualche altro valore di ciascun carattere è definito in forma binaria. Di conseguenza, se un byte può contenere 256 caratteri, allora ogni carattere ha la propria codifica binaria di zero e uno (otto zero o uno scritti consecutivamente danno un carattere). Pertanto, quando il file viene aperto, l'editor di testo traduce ogni valore ASCII in un carattere familiare e lo visualizza nella sua forma abituale. Ad esempio, al numero 65 nella forma binaria del codice ASCII c'è 1000001, che verrà visualizzato nel file con la lettera latina (non cirillica. L'alfabeto cirillico inizia dalla posizione 192) lettera “A”. Cioè, nel sistema ASCII, un byte con il valore 1000001 corrisponde al valore della lettera latina “A”. Ogni riga del file ha la propria interruzione di riga: EOL (End of Line). Spesso questo carattere (due caratteri) è "\n" (valore binario in ASCII: 00001010). Dopo aver letto un carattere del genere, il programma lo interpreta come la fine della riga e una transizione alla riga sottostante. Esistono altri "simboli funzionali" simili. I file binari, come i file di testo, vengono archiviati in formato binario, ma non sono “collegati” a un programma che li decodifica, ovvero non esiste una tabella di decrittografia di tipo ASCII. Fondamentalmente il contenuto di tali file sono immagini, audio e video, che a loro volta sono versioni compresse di altri file, come file autoeseguibili (.exe). Tali file (binari) non sono leggibili dagli esseri umani nel senso comune del termine, quindi un tentativo di aprirli con editor di testo convenzionali mostrerà un mucchio di spazzatura incomprensibile. Di conseguenza, vengono prodotti programmi speciali per leggere correttamente tali file. Anche i file binari vengono archiviati come una serie di byte, ma in questo caso la modifica anche di un solo bit può rendere illeggibile l'intero file. La tabella dei caratteri ASCII può essere visualizzata qui. Pertanto, quando leggiamo un file, 8 caratteri (uno o zero) vengono letti nella variabile byte, che può poi essere convertita da alcuni programmi come Blocco note in caratteri leggibili. La fonte che mi ha aiutato a capirlo.

Commenti

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION