Bytes. O que estamos lendo do arquivo?

Em geral, esta é uma informação para iniciantes. Quando surgiu o tema da leitura de informações de um arquivo, surgiu a pergunta: se o arquivo contém letras, então por que lemos números dele na forma de bytes e o que é um byte neste caso? O que é um byte já foi escrito muito bem aqui. Mas, depois de ler, a questão do mecanismo de transformação de letras em números ainda permanecia, então tive que me aprofundar um pouco mais na Internet. Portanto, o que está escrito abaixo pode ser considerado um acréscimo. O computador armazena cada arquivo como informações que consistem em zeros e uns em formato binário. Cada arquivo é na verdade uma coleção de bytes um após o outro. Normalmente, existem dois tipos de arquivos de informações: um arquivo de texto e um arquivo binário. O arquivo de texto contém um conjunto humano típico de caracteres legíveis, que podemos abrir em qualquer editor de texto. Os arquivos binários consistem em caracteres que não estamos acostumados a operar no dia a dia; portanto, é necessário um programa especial que possa lê-los. Os arquivos de texto consistem em letras, números e outros caracteres comuns. Esses arquivos possuem extensões .txt, .py, .csv, etc. Quando abrimos esse arquivo, vemos o conjunto usual de caracteres que formam palavras. Embora na realidade este conteúdo não seja armazenado desta forma dentro do computador. Ele é armazenado na forma de bits, ou seja, 0 ou 1. Em várias tabelas de codificação ASCII, UNICODE ou algum outro valor de cada caractere é definido em formato binário. Conseqüentemente, se um byte pode conter 256 caracteres, então cada caractere tem sua própria codificação binária de zeros e uns (oito zeros ou uns escritos consecutivamente fornecem um caractere). Assim, quando o arquivo é aberto, o editor de texto traduz cada valor ASCII em um caractere familiar e o exibe em sua forma usual. Por exemplo, no número 65 na forma binária do código ASCII está 1000001, que será exibido no arquivo com a letra “A” latina (não o alfabeto cirílico. O alfabeto cirílico começa na posição 192). Ou seja, no sistema ASCII, um byte com valor 1000001 corresponde ao valor da letra latina “A”. Cada linha do arquivo possui sua própria quebra de linha – EOL (End of Line). Muitas vezes esse caractere (dois caracteres) é "\n" (valor binário em ASCII: 00001010). Depois de ler tal caractere, o programa o interpreta como o fim da linha e uma transição para a linha abaixo. Existem outros "símbolos funcionais" semelhantes. Os arquivos binários, assim como os arquivos de texto, são armazenados na forma binária, mas não estão “anexados” a um programa que os decodifica, ou seja, não existe uma tabela de descriptografia do tipo ASCII. Basicamente, o conteúdo desses arquivos são imagens, áudio e vídeo, que por sua vez são versões compactadas de outros arquivos, como arquivos autoexecutáveis (.exe). Esses arquivos (binários) não são legíveis por humanos no sentido usual; portanto, uma tentativa de abri-los com editores de texto convencionais exibirá um monte de lixo incompreensível. Conseqüentemente, programas especiais são produzidos para ler corretamente esses arquivos. Os arquivos binários também são armazenados como uma série de bytes, mas, neste caso, alterar apenas um bit pode tornar o arquivo inteiro ilegível. A tabela de caracteres ASCII pode ser visualizada aqui. Assim, quando lemos um arquivo, 8 caracteres (um ou zero) são lidos na variável byte, que pode então ser convertida por algum programa como o Bloco de Notas em caracteres legíveis. A fonte que me ajudou a descobrir.

Comentários

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION