Логика сохранения значений потоков в массивы.

Код:

InputStream inputStream = Files.newInputStream(Path.of("file1.txt"));
 //В file 1 находится текст "АБВГД".
 OutputStream outputStream = Files.newOutputStream(Path.of("file2.txt"));
 BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream));
 // 1 вариант
 while (bufferedReader.ready()) {
    outputStream.write(bufferedReader.read());
 }
 // 2 вариант
 byte[] array = new byte[1024];
 while (inputStream.available() > 0) {
     int len = inputStream.read(array);
     outputStream.write(array,0,len);
}

Вопрос по варианту 1: Логика переменной bufferedReader в обертывании inputStream в InputStreamReader, который читает char из потока byte, затем обертываем в BufferedReader, сохраняя в массив char {А,Б,В,Г,Д}. Затем записываем в file2 по одному байту из массива bufferedReader. Получается, что мы берем, например букву А, отбрасываем от нее 24 бита и получаем в итоге число 16, которое = в UTF-8 и такой результат появляется в file2. Хотя в файле немного другое представление, но не суть. В принципе, все понятно, но вопрос, как тогда записать как надо? Я подумал, что раз у нас есть InputStreamReader, то наверное необходимо обернуть outputStream в OutputStreamWriter и уже через него из bufferedReader записать в file2, чтоб получить нормальное представление русских букв, но там в итоге лишь пустой file2. Никакого эффекта. Я понимаю, что скорее всего, этот вариант кажется безумным и если покопаться в этих классах потоков, можно будет сделать все проще, но интересно, как записать через BufferedReader? Вопрос по варианту 2: В этом варианте все работает замечательно. Однако мне стало интересно, каким образом, все записывается в byte, если байт лишь до 127, а у русской А в символьном представлении = 1040. В итоге, через дебагер, глянул, какие значения сохраняются в массиве и вот результат:

Во первых, числа отрицательные, ну да ладно. -48, как мне кажется, это либо обозначение, что работа идет с русскими буквами, либо просто номер строки или чего-то подобного, где они находятся(все это офк предположение). То есть, при записи, в этом варианте outputStream.write записывает в file2 значения, скажем так, группируя первый и второй байты. Так вот, почему числа отрицательные, действует какое-то переполнение или что? Почему запись работает нормально и для записи русских букв метод считывает 2 числа типа байт, в то время, как если бы у нас были в первом файле значения {A,B,C,D,E}, то в таком случае, в массиве было бы нормальное представление этих букв в UTF-8, то есть 65, 66, 67... Спасибо!

Комментарии (6)

популярные
новые
старые

Для того, чтобы оставить комментарий Вы должны авторизоваться

wan-derer.ru

Уровень 40

13 августа 2021, 13:54

Почитай про кодировки. В Java используется Unicode. В текстовых файлах могут быть разные, но чаще всего UTF-8.

fFamous

Уровень 51

13 августа 2021, 13:55

Хорошо, гляну)

Justinian Judge в Mega City One

Master

13 августа 2021, 13:53

если байт лишь до 127

-128..127 127 + 3 = -126 байты бывают signed и unsigned signed это -128..127 unsigned это 0..255 грубо говоря, для компьютера 130 unsigned байт и -126 signed одно и тоже. Просто вопрос, откуда считать 256 значений (2 в 8 степени) Английский алфавит входит в ASCII, поэтому и signed и unsigned будет совпадать а вот для символов расширенной ASCII и тем более для юникода, там уже зависит от чего считать. юникод символы записываются 1-2-3 байтами (больше не встречал), иероглифы могут и тремя записываться. Как компьютер знает если есть байт 1 байт 2 байт3 байт 4 сколько байтов отвечает за какой символ? По простой системе. Он читает первый байт и по его значению уже понимает, что дальше будет еще один или два. Или наоборот, что первый байт все ок, закрыли вопрос. Можешь просто поиграться, метод для записи, метод для чтения. И там английскую букву (одну - для чистоты эксперимента), русскую, иероглиф скопируй с гугля, запиши в файл и прочитай в виде байт. Побуквенно позволит сфокусироваться на значениях, а то когда много чего массивы, конструкции, мозгу в это на порядок сложнее въехать

fFamous

Уровень 51

13 августа 2021, 14:30

Хм, то есть получается, когда мы через поток сохраняем 2 байта в которых значения -48 и -112, то компьютер интерпретирует их в зависимости от первого байта, то есть -48, видит, что это unicode и дальше уже от этого пляшет? Получается, что эти -48 если сравнить, это как когда в двоичной системе последний бит знаковый? Попробовал сейчас китайский символ, там выдало -98 -112, теперь понятно. И получается, что -112 signed, и раз второе число -112, скорее всего это значит, что иероглиф находится в позиции со значением 144. Надо еще получше с этими юникодами разобраться, ну и получше потоки подтянуть, а то я логику понимаю цепочек, но конечный результат, такое... Еще подумать над тем, как русские символы, которые находятся в массиве bufferedReaderа, записать в file2 в нормально представлении.

Justinian Judge в Mega City One

Master

13 августа 2021, 15:14

Надо еще получше с этими юникодами разобраться, ну и получше потоки подтянуть,

не надо. На данном этапе от тебя требуется понимания нескольких вещей, что есть байтовые потоки и есть символьные, чем они отличается. Что есть такая штука как ASCII стандартная и расширенная. Что есть разные кодировки. Что есть signed и unsigned байт, и что в одних случаях на один символ - 1 байт, в других 2 или 3 байта. На данный момент этого с головой, будешь с файлом работать глубже - тогда и разберешься, пока решай задачи, все что тебе нужно знать по этой теме встретиться в задачах и лекциях.

fFamous

Уровень 51

13 августа 2021, 15:28

окей)