JavaRush /Blog Jawa /Random-JV /Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Uni...

tingkat

28 February 2021
35 views
0 comments

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk

Dina iki kita bakal pirembagan bab ngendi krakozyabrs teka saka situs web lan ing program, apa enkoding teks ana lan kang kudu digunakake. Ayo dideleng kanthi luwih rinci babagan sejarah pangembangane, diwiwiti karo ASCII dhasar, uga versi lengkap CP866, KOI8-R, Windows 1251 lan dipungkasi karo konsorsium Unicode modern encoding UTF 16 lan 8. Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 1

Daftar isi:

Kanggo sawetara, informasi iki koyone ora perlu, nanging sampeyan bakal ngerti carane akeh pitakonan aku nampa khusus babagan krakozyabrs crawling (set unreadable karakter). Saiki aku bakal duwe kesempatan kanggo ngrujuk kabeh wong menyang teks artikel iki lan nemokake kesalahanku dhewe. Nah, siyap-siyap nyerep informasi lan nyoba ngetutake alur crita.

ASCII - encoding teks dhasar kanggo aksara Latin

Pangembangan enkoding teks dumadi bebarengan karo pambentukan industri IT, lan sajrone wektu kasebut bisa ngalami owah-owahan sing cukup akeh. Sacara historis, iku kabeh diwiwiti karo EBCDIC, sing rada dissonant ing pronunciation Russian, kang ndadekake iku bisa kanggo encode aksara saka alfabet Latin, angka Arab lan tandha wacan karo karakter kontrol. Nanging isih, titik wiwitan kanggo pangembangan enkoding teks modern kudu dianggep misuwur ASCII (American Standard Code for Information Interchange, sing ing basa Rusia biasane diucapake minangka "takon"). Iki nggambarake 128 karakter pisanan sing paling umum digunakake dening pangguna sing nganggo basa Inggris - huruf Latin, angka Arab lan tandha wacan. 128 karakter sing diterangake ing ASCII iki uga kalebu sawetara karakter layanan kayata kurung, tandha hash, tanda bintang, lsp. Nyatane, sampeyan bisa ndeleng dhewe: Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 2

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 2

Iki 128 karakter saka versi asli ASCII sing dadi standar, lan ing enkoding liyane sampeyan mesthi bakal nemokake lan bakal katon ing urutan iki. Nanging kasunyatane kanthi bantuan siji bait informasi sampeyan ora bisa encode 128, nanging nganti 256 nilai beda (loro kanggo daya wolung padha karo 256), mulane, sawise versi dhasar saka Asuka, kabeh. seri enkoding ASCII lengkap muncul , kang bisa, saliyane 128 karakter dhasar uga bisa dienkode nggunakake karakter enkoding nasional (contone, Russian). Kene, iku mbokmenawa worth ngandika sethitik liyane babagan sistem nomer sing digunakake ing gambaran. Kaping pisanan, kaya sing sampeyan ngerteni, komputer mung bisa digunakake karo angka ing sistem binar, yaiku kanthi nul lan siji ("Aljabar Boolean", yen ana sing njupuk ing institusi utawa sekolah). Siji bait kasusun saka wolung bit, saben kang nggantosi loro kanggo daya saka loro, wiwit saka nul, lan nganti loro kanggo kapitu: Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 3

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 3

Iku ora angel kanggo ngerti sing kabeh bisa kombinasi saka nul lan siji ing construction kuwi bisa. mung dadi 256. Ngonversi nomer saka sistem binar kanggo desimal cukup prasaja. Sampeyan mung perlu kanggo nambah munggah kabeh kakuwasan saka loro karo kang ndhuwur mau. Ing conto kita, iki dadi 1 (2 kanggo daya nol) plus 8 (loro kanggo daya 3), plus 32 (loro kanggo daya kaping lima), plus 64 (kanggo daya enem), plus 128 (menyang daya kapitu). Gunggunge 233 ing notasi desimal. Nalika sampeyan bisa ndeleng, kabeh iku banget prasaja. Nanging yen sampeyan ndeleng kanthi rapet ing tabel kanthi karakter ASCII, sampeyan bakal weruh sing dituduhake ing enkoding heksadesimal. Contone, "tanda bintang" cocog karo nomer heksadesimal 2A ing Aski. Sampeyan mbokmenawa ngerti yen ing sistem nomer heksadesimal, saliyane angka Arab, huruf Latin saka A (tegese sepuluh) nganti F (tegese limalas) uga digunakake. Inggih, kanggo ngowahi nomer binar dadi heksadesimalResor kanggo cara prasaja ing ngisor iki. Saben bait informasi dipérang dadi rong bagéan saka patang bit. Sing. Ing saben setengah byte, mung nembelas nilai (loro kanggo daya papat) bisa dikode ing binar, sing bisa gampang dituduhake minangka nomer heksadesimal. Kajaba iku, ing sisih kiwa bait, derajat kudu diitung maneh wiwit nol, lan ora kaya sing ditampilake ing gambar kasebut. Akibaté, kita entuk nomer E9 dienkode ing gambar. Muga-muga dalane nalar lan solusi teka-teki iki jelas kanggo sampeyan. Nah, saiki ayo nerusake, nyatane, ngomong babagan enkoding teks.

Versi lengkap saka Asuka - CP866 lan KOI8-R encodings karo pseudographics

Dadi, kita wiwit ngomong babagan ASCII, sing, kaya-kaya, minangka titik wiwitan kanggo pangembangan kabeh enkoding modern (Windows 1251, Unicode, UTF 8). Kaping pisanan, mung ana 128 karakter alfabet Latin, angka Arab lan liya-liyane, nanging ing versi lengkap bisa nggunakake kabeh 256 nilai sing bisa dienkode ing siji bait informasi. Sing. Sampeyan bisa nambah simbol aksara saka basa sampeyan menyang Aski. Ing kene kita kudu nyimpang maneh kanggo nerangake kenapa enkoding teks dibutuhake lan kenapa penting banget. Karakter ing layar komputer dibentuk kanthi rong prakara - set wangun vektor (perwakilan) saka macem-macem karakter (padha ana ing file kanthi font sing diinstal ing komputer) lan kode sing ngidini sampeyan narik metu persis sing siji. saka set iki wangun vektor (font file) simbol sing kudu dilebokake ing panggonan tengen. Cetha yen fonts dhewe tanggung jawab kanggo wangun vektor, nanging sistem operasi lan program sing digunakake ing iku tanggung jawab kanggo enkoding. Sing. teks apa wae ing komputer sampeyan bakal dadi sakumpulan bita, sing saben-saben nyandi siji karakter teks iki. Program sing nampilake teks iki ing layar (editor teks, browser, lan sapiturute), nalika parsing kode, maca enkoding karakter sabanjure lan goleki wangun vektor sing cocog ing file font sing dibutuhake, sing disambungake kanggo nampilake iki. dokumen teks. Kabeh iku prasaja lan banal. Iki tegese kanggo encode karakter apa wae sing kita butuhake (contone, saka alfabet nasional), rong syarat kudu dipenuhi: wangun vektor karakter iki kudu ana ing font sing digunakake, lan karakter iki bisa dienkode ing enkoding ASCII lengkap. ing siji bait. Mulane, ana akeh opsi kasebut. Mung kanggo ngodhe karakter basa Rusia, ana sawetara jinis Aska lengkap. Contone, CP866 Originally muncul , kang nduweni kemampuan kanggo nggunakake karakter saka aksara Russian, lan iku versi lengkap ASCII. Yaiku, bagean ndhuwur kasebut cocog karo versi dhasar Aska (128 karakter Latin, nomer lan omong kosong liyane), sing ditampilake ing gambar ing ndhuwur, nanging sisih ngisor tabel kanthi enkoding CP866 katon katon ing gambar ing ngisor iki lan diijini encode liyane 128 karakter (huruf Rusia lan kabeh limo pseudo-grafis): Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 4

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 4

Sampeyan ndeleng, ing kolom tengen nomer diwiwiti karo 8, amarga nomer saka 0 kanggo 7 nuduhake bagean dhasar saka ASCII (ndeleng gambar pisanan). Dadi, huruf Cyrillic "M" ing CP866 bakal duwe kode 9C (dumunung ing persimpangan garis sing cocog karo 9 lan kolom kanthi nomer C ing sistem nomer heksadesimal), sing bisa ditulis ing siji bait informasi. , lan yen ana font sing cocog karo karakter Rusia, huruf iki bakal katon ing teks tanpa masalah. Saka endi jumlah iki?pseudographics ing CP866 ? Intine yaiku enkoding kanggo teks Rusia iki dikembangake maneh ing taun-taun shaggy nalika sistem operasi grafis ora nyebar kaya saiki. Lan ing Dosa lan sistem operasi teks sing padha, pseudographics bisa nggawe paling ora macem-macem desain teks, lan mulane CP866 lan kabeh kanca liyane saka kategori versi lengkap Asuka akeh banget. CP866 disebarake dening IBM, nanging saliyane iki, sawetara enkoding dikembangake kanggo karakter basa Rusia, contone, KOI8-R bisa digandhengake karo jinis sing padha (ASCII ditambahi) : Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 5

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 5

Prinsip operasi tetep padha karo sing saka CP866 diterangake sethitik sadurungé - Saben karakter teks dienkode minangka siji bait siji. Gambar nuduhake setengah kapindho Tabel KOI8-R, amarga setengah pisanan temen konsisten karo Asuka dhasar, kang ditampilake ing gambar pisanan ing artikel iki. Antarane fitur enkoding KOI8-R, bisa dicathet yen huruf Cyrillic ing tabel kasebut ora ana ing urutan abjad, kaya sing ditindakake ing CP866. Yen sampeyan ndeleng gambar pisanan (bagean dhasar, sing kalebu ing kabeh enkoding lengkap), sampeyan bakal weruh yen ing KOI8-R huruf Rusia ana ing sel sing padha ing meja minangka huruf sing cocog karo alfabet Latin. saka bagean pisanan saka meja. Iki ditindakake supaya gampang ngoper saka aksara Rusia menyang aksara Latin kanthi mbuwang siji-sijine (loro kanggo kekuwatan kapitu utawa 128).

Windows 1251 - versi modern saka ASCII lan kok retak metu

Pangembangan enkoding teks luwih lanjut amarga kasunyatane sistem operasi grafis saya tambah populer lan kabutuhan nggunakake pseudographics ing njerone ilang. Akibaté, kabèh klompok muncul sing, ing intine, isih versi lengkap Asuka (siji karakter teks dienkode mung siji byte informasi), nanging tanpa nggunakake simbol pseudographic. Dheweke kalebu enkoding ANSI sing diarani, sing dikembangake dening American Standards Institute. Ing basa umum, jeneng Cyrillic uga digunakake kanggo versi kanthi dhukungan basa Rusia. Conto iki bakal dadi Windows 1251 . Beda banget karo CP866 lan KOI8-R sing sadurunge digunakake amarga panggonan simbol pseudographic ing kono dijupuk dening simbol tipografi Rusia sing ilang (kajaba tandha aksen), uga simbol sing digunakake ing basa Slavik sing cedhak karo. Rusian (Ukrainia, Belarusia, lan sapiturute.) ): Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 6

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 6

Amarga akeh banget enkoding basa Rusia, produsen font lan produsen piranti lunak terus-terusan ngelu, lan sampeyan lan aku, para pembaca sing ditresnani, asring ngalami masalah karo kewan omo sing padha. nalika ana kebingungan karo versi sing digunakake ing teks. Kerep banget padha metu nalika ngirim lan nampa pesen liwat e-mail, kang entailed nggawe tabel konversi banget Komplek, kang, ing kasunyatan, ora bisa ngatasi masalah iki dhasar, lan asring kedhaftar nggunakake transliterasi saka huruf Latin kanggo Correspondence. Nyingkiri omong kosong sing kondhang nalika nggunakake enkoding Rusia kaya CP866, KOI8-R utawa Windows 1251. Nyatane, retakan sing katon tinimbang teks Rusia minangka akibat saka panggunaan enkoding basa sing ora bener, sing ora cocog karo sing ana ing sing pesen teks asline dienkode. Contone, yen sampeyan nyoba nampilake karakter sing dienkode nggunakake CP866 nggunakake tabel kode Windows 1251, banjur bakal metu omong kosong sing padha (setelan karakter sing ora ana gunane), kanthi ngganti teks pesen kasebut. Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 7

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 7

Kahanan sing padha asring kedadeyan nalika nggawe lan nyiyapake situs web, forum utawa blog, nalika teks nganggo karakter Rusia salah disimpen ing enkoding sing salah sing digunakake ing situs kanthi standar, utawa ing editor teks sing salah, sing nambah lelucon sing ora katon. menyang kode kanthi mripat wuda. Pungkasane, akeh wong sing kesel karo kahanan iki kanthi akeh enkoding lan terus-terusan creeping, lan prasyarat muncul kanggo nggawe variasi universal anyar sing bakal ngganti kabeh sing wis ana lan ngrampungake masalah kanthi munculake teks sing ora bisa diwaca. . Kajaba iku, ana masalah basa kaya Cina, ing ngendi karakter basa luwih akeh tinimbang 256.

Unicode - enkoding universal UTF 8, 16 lan 32

Ewonan karakter saka grup basa Asia Tenggara iki ora bisa diterangake ing siji byte informasi sing dialokasikan kanggo enkoding karakter ing versi lengkap ASCII. Akibaté, konsorsium sing disebut Unicode (Unicode Consortium) digawe kanthi kerjasama saka akeh pimpinan industri IT (sing ngasilake piranti lunak, sing ngodhe hardware, sing nggawe font) sing kasengsem ing muncule encoding teks universal. Variasi pisanan sing dirilis ing sangisoré Konsorsium Unicode yaiku UTF 32 . Nomer ing jeneng encoding tegese jumlah bit sing digunakake kanggo encode siji karakter. 32 bit padha karo 4 bita informasi sing bakal dibutuhake kanggo encode siji karakter ing enkoding UTF universal anyar. Akibaté, file sing padha karo teks sing dienkode ing versi lengkap ASCII lan ing UTF-32, ing kasus terakhir, bakal duwe ukuran (bobot) kaping papat luwih gedhe. Iki ala, nanging saiki kita duwe kesempatan kanggo encode nggunakake UTF sawetara karakter witjaksono kanggo loro kanggo daya telung puluh detik ( milyaran karakter sing bakal nutupi sembarang Nilai tenan perlu karo wates kolosal). Nanging akeh negara kanthi basa saka klompok Eropa ora perlu nggunakake akeh karakter ing enkoding, nanging nalika nggunakake UTF-32, ora ana alesan sing nambah bobot dokumen teks kaping papat. lan minangka asil, nambah volume lalu lintas Internet lan volume data sing disimpen. Iki akeh banget, lan ora ana sing bisa mbayar sampah kaya ngono. Minangka asil pangembangan Unicode, UTF-16 muncul , sing dadi sukses banget, mula diadopsi minangka papan dhasar kanggo kabeh karakter sing digunakake. Iku nggunakake rong bita kanggo encode siji karakter. Ayo ndeleng kepiye barang iki katon. Ing sistem operasi Windows, sampeyan bisa ngetutake path "Mulai" - "Program" - "Aksesoris" - "Alat Sistem" - "Tabel Karakter". Akibaté, tabel bakal mbukak kanthi wangun vektor kabeh font sing diinstal ing sistem sampeyan. Yen sampeyan milih set karakter Unicode ing "Opsi lanjutan", sampeyan bakal bisa ndeleng kanggo saben font kanthi kapisah kabeh macem-macem karakter sing kalebu ing. Miturut cara, kanthi ngeklik salah sawijining, sampeyan bisa ndeleng kode rong bait ing format UTF-16 , sing dumadi saka papat digit heksadesimal: Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 8

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 8

Pira karakter sing bisa dienkode ing UTF-16 nggunakake 16 bit? 65.536 (loro kanggo kekuwatan nembelas), lan iki nomer sing diadopsi minangka ruang dhasar ing Unicode. Kajaba iku, ana cara kanggo encode babagan rong yuta karakter nggunakake, nanging padha diwatesi kanggo spasi ditambahi yuta karakter teks. Nanging malah versi sukses Unicode encoding iki ora nggawa akeh kepuasan kanggo wong-wong sing nulis, ngomong, program mung ing basa Inggris, amarga sawise transisi saka versi lengkap ASCII kanggo UTF-16, bobot saka dokumen tikel kaping pindho (siji bait saben). karakter ing Aski lan rong bita kanggo karakter sing padha ing YUTF-16). Iki mung kanggo gawe marem kabeh wong lan kabeh ing konsorsium Unicode sing diputusake nggawe enkoding dawa variabel . Iki diarani UTF-8. Senadyan wolung ing jeneng, iku bener duwe dawa variabel, i.e. Saben karakter teks bisa dienkode dadi urutan siji nganti enem bita. Ing laku, UTF-8 mung nggunakake sawetara saka siji kanggo papat bait, amarga ngluwihi papat bita kode iku ora bisa maneh malah teori bisa mbayangno apa. Kabeh aksara Latin ing kono dienkode dadi siji bait, kaya ing ASCII lawas sing apik. Sing penting yaiku yen mung enkoding aksara Latin, malah program sing ora ngerti Unicode isih bakal maca apa sing dikode ing YTF-8. Yaiku, bagean dhasar saka Asuka mung ditransfer menyang gagasan konsorsium Unicode iki. Karakter Cyrillic ing UTF-8 dienkode ing rong bait, lan, contone, karakter Georgian dienkode ing telung bait. Konsorsium Unicode, sawise nggawe UTF 16 lan 8, ngrampungake masalah utama - saiki kita duwe spasi kode siji ing fonts kita . Lan saiki manufaktur mung bisa ngisi karo bentuk vektor karakter teks adhedhasar kekuwatan lan kemampuane. Ing "Tabel Karakter" ing ndhuwur sampeyan bisa ndeleng manawa font beda ndhukung nomer karakter sing beda. Sawetara font kaya Unicode bisa uga cukup abot. Nanging saiki padha ora beda-beda ing kasunyatan sing padha digawe kanggo encodings beda, nanging ing kasunyatan sing Produsèn font ngisi utawa ora rampung ngisi spasi kode siji karo wangun vektor tartamtu.

Tembung edan tinimbang aksara Rusia - carane ndandani

Ayo saiki ndeleng kepiye krakozyabrs katon tinimbang teks utawa, kanthi tembung liya, kepiye enkoding sing bener kanggo teks Rusia dipilih. Bener, wis disetel ing program sing sampeyan nggawe utawa ngowahi teks iki, utawa kode nggunakake fragmen teks. Kanggo ngowahi lan nggawe file teks, aku pribadi nggunakake apik banget, ing mratelakake panemume, Html lan PHP editor Notepad++ . Nanging, bisa nyorot sintaks atusan basa pemrograman lan markup liyane, lan uga nduweni kemampuan kanggo ditambahake nggunakake plugin. Waca review rinci babagan program sing apik iki ing link sing kasedhiya. Ing menu ndhuwur Notepad ++ ana item "Encodings", ing ngendi sampeyan bakal duwe kesempatan kanggo ngowahi pilihan sing wis ana menyang sing digunakake ing situs sampeyan kanthi standar: Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 9

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 9

Ing kasus situs ing Joomla 1.5 lan luwih dhuwur, minangka uga ing cilik saka blog ing WordPress, sampeyan kudu supaya katon Krakozyabrov milih pilihan UTF 8 tanpa BOM . Apa prefiks BOM? Kasunyatane yaiku nalika ngembangake enkoding YUTF-16, sakperangan alesan dheweke mutusake kanggo nempelake bab kasebut minangka kemampuan kanggo nulis kode karakter kanthi urutan langsung (contone, 0A15) lan mbalikke (150A). . Lan supaya program mangertos urutan maca kode, BOM (Byte Order Mark utawa, ing tembung liyane, teken) iki nemokke, kang ditulis ing nambah telung bait tambahan ing awal banget saka dokumen. Ing enkoding UTF-8, ora ana BOM sing disedhiyakake ing konsorsium Unicode, lan mulane nambahake tandha (telu bita ekstra sing kondhang ing wiwitan dokumen) mung nyegah sawetara program maca kode kasebut. Mulane, nalika nyimpen file ing UTF, kita kudu tansah milih opsi tanpa BOM (tanpa teken). Mangkono, sampeyan bakal nglindhungi dhewe ing advance saka crawling metu saka krakozyabrs . Sing penting yaiku sawetara program ing Windows ora bisa nindakake iki (ora bisa nyimpen teks ing UTF-8 tanpa BOM), contone, Windows Notepad sing kondhang. Iki nyimpen dokumen ing UTF-8, nanging isih nambah tandha (telung bita ekstra) ing wiwitan. Kajaba iku, bait iki bakal padha - maca kode kanthi urutan langsung. Nanging ing server, amarga bab cilik iki, masalah bisa muncul - crooks bakal metu. Mula, aja nganggo notepad Windows biasa ing kahanan apa wae.kanggo ngowahi dokumen ing situs sampeyan yen sampeyan ora pengin retak katon. Aku nganggep editor Notepad ++ sing wis kasebut minangka pilihan sing paling apik lan paling gampang, sing praktis ora ana kekurangan lan mung kalebu kaluwihan. Ing Notepad ++, nalika sampeyan milih enkoding, sampeyan bakal duwe pilihan kanggo ngowahi teks dadi enkoding UCS-2, sing cedhak banget karo standar Unicode. Uga ing Notepad bakal bisa encode teks ing ANSI, i.e. ing hubungane karo basa Rusia, iki bakal dadi Windows 1251, sing wis diterangake ing ndhuwur. Saka endi informasi iki? Kadhaftar ing pendaptaran sistem operasi Windows - sing enkoding kanggo milih ing cilik saka ANSI, kang kanggo milih ing cilik saka OEM (kanggo basa Rusia bakal CP866). Yen sampeyan nyetel basa standar liyane ing komputer, enkoding iki bakal diganti karo sing padha saka kategori ANSI utawa OEM kanggo basa sing padha. Sawise sampeyan nyimpen dokumen ing Notepad ++ ing enkoding sing sampeyan butuhake utawa mbukak dokumen saka situs kanggo nyunting, sampeyan bakal bisa ndeleng jenenge ing pojok tengen ngisor editor: Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 10

Encoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk - 10

Kanggo ngindhari kebingungan , saliyane langkah-langkah sing diterangake ing ndhuwur , bakal migunani kanggo nulis kode sumber ing header kabeh kaca informasi situs babagan enkoding iki, supaya ora ana kebingungan ing server utawa host lokal. Umumé, kabeh basa markup hiperteks kajaba Html nggunakake deklarasi xml khusus, sing nemtokake enkoding teks.

<?xml version="1.0" encoding="windows-1251"?>

Sadurunge ngurai kode kasebut, browser ngerti versi endi sing digunakake lan kepiye carane kudu napsirake kode karakter basa kasebut. Nanging sing penting yen sampeyan nyimpen dokumen ing Unicode standar, deklarasi xml iki bisa diilangi (enkoding bakal dianggep UTF-8 yen ora ana BOM utawa UTF-16 yen ana BOM). Ing kasus dokumen HTML, unsur Meta digunakake kanggo nunjukake enkoding , sing diselehake ing antarane tag Kepala pambuka lan tutup:

<head>
...
<meta charset="utf-8">
...
</head>

Entri iki rada beda karo standar ing Html 4.01, nanging tundhuk karo standar Html 5, lan bakal dimangerteni kanthi bener dening browser sing saiki digunakake. Ing teori, unsur Meta sing nuduhake enkoding dokumen Html bakal luwih apik diselehake paling dhuwur ing header dokumen , supaya ing wektu teks ketemu karakter pisanan ora saka ANSI dhasar (sing tansah diwaca kanthi bener lan ing). variasi apa wae), browser kudu duwe informasi babagan cara napsirake kode karakter kasebut. Link menyang sumber asli: enkoding teks ASCII (Windows 1251, CP866, KOI8-R) lan Unicode (UTF 8, 16, 32) - carane ndandani masalah karo krupuk

Komentar

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION