Bytes. ¿Qué estamos leyendo del archivo?

En general, esta es información para principiantes. Cuando surgió el tema de leer información de un archivo, surgió la pregunta: si el archivo contiene letras, ¿por qué leemos números en forma de bytes y qué es un byte en este caso? Lo que es un byte ya está bastante bien escrito aquí. Pero, después de leer, la cuestión del mecanismo para transformar letras en números aún persistía, así que tuve que profundizar un poco más en Internet. Por tanto, lo que se escribe a continuación puede considerarse un añadido. La computadora almacena cada archivo como información que consta de ceros y unos en formato binario. Cada archivo es en realidad una colección de bytes que se suceden unos a otros. Normalmente, existen dos tipos de archivos de información: un archivo de texto y un archivo binario. El archivo de texto contiene un conjunto humano típico de caracteres legibles, que podemos abrir en cualquier editor de texto. Los archivos binarios están formados por caracteres que no estamos acostumbrados a utilizar en la vida cotidiana, por lo que se requiere un programa especial que pueda leerlos. Los archivos de texto constan de letras, números y otros caracteres comunes. Dichos archivos tienen extensiones .txt, .py, .csv, etc. Cuando abrimos un archivo de este tipo, vemos el conjunto habitual de caracteres que forman palabras. Aunque en realidad este contenido no se almacena de esta forma dentro del ordenador. Se almacena en forma de bits, es decir, 0 o 1. En varias tablas de codificación ASCII, UNICODE o algún otro valor de cada carácter se define en forma binaria. En consecuencia, si un byte puede contener 256 caracteres, entonces cada carácter tiene su propia codificación binaria de ceros y unos (ocho ceros o unos escritos consecutivamente dan un carácter). Así, cuando se abre el archivo, el editor de texto traduce cada valor ASCII a un carácter familiar y lo muestra en su forma habitual. Por ejemplo, en el número 65 en forma binaria del código ASCII está 1000001, que se mostrará en el archivo con la letra “A” latina (no del alfabeto cirílico. El alfabeto cirílico comienza en la posición 192). Es decir, en el sistema ASCII, un byte con el valor 1000001 corresponde al valor de la letra latina “A”. Cada línea del archivo tiene su propio salto de línea: EOL (Fin de línea). A menudo este carácter (dos caracteres) es "\n" (valor binario en ASCII: 00001010). Habiendo leído dicho carácter, el programa lo interpreta como el final de la línea y una transición a la línea siguiente. Hay otros "símbolos funcionales" similares. Los archivos binarios, al igual que los archivos de texto, se almacenan en formato binario, pero no están “adjuntos” a un programa que los decodifica, es decir, no existe una tabla de descifrado de tipo ASCII. Básicamente, el contenido de dichos archivos son imágenes, audio y vídeo, que a su vez son versiones comprimidas de otros archivos, como los archivos autoejecutables (.exe). Estos archivos (binarios) no son legibles por humanos en el sentido habitual, por lo que intentar abrirlos con editores de texto convencionales mostrará un montón de basura incomprensible. En consecuencia, se producen programas especiales para leer correctamente dichos archivos. Los archivos binarios también se almacenan como una serie de bytes, pero en este caso, cambiar incluso un bit puede hacer que todo el archivo sea ilegible. La tabla de caracteres ASCII se puede ver aquí.. Por lo tanto, cuando leemos un archivo, se leen 8 caracteres (uno o cero) en la variable de byte, que luego algún programa como el Bloc de notas puede convertir en caracteres legibles. La fuente que me ayudó a resolverlo.

Comentarios

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION