Spesial (blok Unicode) - Specials (Unicode block)

Dari Wikipedia, Ensiklopedia Gratis

Pin
Send
Share
Send

Spesial
JarakU + FFF0..U + FFFF
(16 poin kode)
PesawatBMP
SkripUmum
Ditugaskan5 poin kode
Tidak terpakai9 poin kode yang dipesan
2 bukan karakter
Riwayat versi Unicode
1.0.01 (+1)
2.12 (+1)
3.05 (+3)
Catatan: [1][2]

Spesial pendek Unicode blok yang dialokasikan di bagian paling akhir Pesawat Multibahasa Dasar, di U + FFF0 – FFFF. Dari 16 titik kode ini, lima telah ditetapkan sejak Unicode 3.0:

  • U + FFF9 ANCHOR ANNOTASI INTERLINEAR, tanda mulai teks beranotasi
  • U + FFFA PEMISAH ANNOTASI INTERLINEAR, menandai awal dari karakter anotasi
  • U + FFFB TERMINATOR ANNOTASI INTERLINEAR, menandai akhir dari blok anotasi
  • U + FFFC KARAKTER PENGGANTI OBYEK, placeholder di teks untuk objek lain yang tidak ditentukan, misalnya di file dokumen gabungan.
  • U + FFFD KARAKTER PENGGANTI digunakan untuk menggantikan karakter yang tidak diketahui, tidak dikenali, atau tidak dapat direpresentasikan
  • U + FFFE <noncharacter-FFFE> bukan karakter.
  • U + FFFF <noncharacter-FFFF> bukan karakter.

FFFE dan FFFF tidak dilepas dalam arti biasa, tetapi dijamin tidak akan menjadi karakter Unicode sama sekali. Mereka dapat digunakan untuk menebak skema pengkodean teks, karena teks apa pun yang mengandung ini secara definisi bukanlah teks Unicode yang dienkode dengan benar. Unicode U + FEFF BYTE ORDER MARK karakter dapat disisipkan di awal teks Unicode untuk menandakannya ketekunan: program yang membaca teks seperti itu dan menemukan 0xFFFE akan mengetahui bahwa ia harus mengganti urutan byte untuk semua karakter berikut.

Nama bloknya di Unicode 1.0 adalah Khusus.[3]

Karakter pengganti

Karakter pengganti

Itu karakter pengganti (seringkali berlian hitam dengan tanda tanya putih atau kotak persegi kosong) adalah simbol yang ditemukan di Unicode standar pada titik kode U + FFFD di Spesial meja. Ini digunakan untuk menunjukkan masalah ketika sistem tidak dapat membuat aliran data ke simbol yang benar. Ini biasanya terlihat ketika data tidak valid dan tidak cocok dengan karakter apa pun:

Pertimbangkan file teks yang berisi kata Jerman bulu (artinya 'untuk') di ISO-8859-1 pengkodean (0x66 0xFC 0x72). File ini sekarang dibuka dengan editor teks yang mengasumsikan inputnya adalah UTF-8. Byte pertama dan terakhir adalah pengkodean UTF-8 yang valid dari ASCII, tetapi byte tengah (0xFC) bukan byte yang valid dalam UTF-8. Oleh karena itu, editor teks dapat mengganti byte ini dengan simbol karakter pengganti untuk menghasilkan string Unicode yang valid poin kode. Seluruh string sekarang ditampilkan seperti ini: "f r".

Editor teks yang diterapkan dengan buruk mungkin menyimpan penggantinya dalam bentuk UTF-8; data file teks akan terlihat seperti ini: 0x66 0xEF 0xBF 0xBD 0x72, yang akan ditampilkan dalam ISO-8859-1 sebagai "f�r" (ini disebut mojibake). Karena penggantiannya sama untuk semua kesalahan, ini tidak memungkinkan untuk memulihkan karakter asli. Desain yang lebih baik (tetapi lebih sulit untuk diterapkan) adalah mempertahankan byte asli, termasuk kesalahan, dan hanya mengonversinya jika menampilkan teks. Ini akan memungkinkan editor teks untuk menyimpan urutan byte asli, sambil tetap menampilkan indikator kesalahan kepada pengguna.

Pada suatu waktu, karakter pengganti sering digunakan ketika tidak ada mesin terbang yang tersedia dalam font untuk karakter tersebut. Namun kebanyakan sistem rendering teks modern malah menggunakan font .notdef karakter, yang dalam banyak kasus merupakan kotak kosong (atau "?" dalam kotak[4]), terkadang disebut "Tahu"(browser ini menampilkan ). Tidak ada titik kode Unicode untuk simbol ini.

Dengan demikian, karakter pengganti sekarang hanya terlihat untuk kesalahan encoding, seperti UTF-8 yang tidak valid. Beberapa perangkat lunak mencoba menyembunyikan ini dengan menerjemahkan byte UTF-8 yang tidak valid ke karakter yang cocok di Windows-1252 (karena itu kemungkinan besar sumber kesalahan ini), sehingga karakter pengganti tidak pernah terlihat.

Bagan unicode

Spesial[1][2][3]
Bagan kode resmi Konsorsium Unicode (PDF)
 0123456789SEBUAHBCDEF
U + FFFx IA
SEBUAH
IA
S
IA
T
Catatan
1.^ Pada Unicode versi 13.0
2.^ Area abu-abu menunjukkan titik kode yang tidak ditetapkan
3.^ Area hitam menunjukkan nonkarakter (poin kode yang dijamin tidak akan pernah ditetapkan sebagai karakter yang dikodekan dalam Unicode Standard)

Sejarah

Dokumen terkait Unicode berikut merekam tujuan dan proses menentukan karakter tertentu di blok Spesial:

Versi: kapanPoin kode terakhir[Sebuah]MenghitungUTC IndoL2 IndoWG2 IndoDokumen
1.0.0U + FFFD1(akan ditentukan)
U + FFFE..FFFF2(akan ditentukan)
L2 / 01-295RMoore, Lisa (2001-11-06), "Motion 88-M2", Risalah dari pertemuan UTC / L2 # 88
L2 / 01-355N2369 (html, dokter)Davis, Mark (2001-09-26), Permintaan untuk mengizinkan FFFF, FFFE dalam UTF-8 dalam teks ISO / IEC 10646
L2 / 02-154N2403Umamaheswaran, V. S. (2002-04-22), "9.3 Mengizinkan FFFF dan FFFE di UTF-8", Draf risalah rapat WG 2 41, Hotel Phoenix, Singapura, 2001-10-15 / 19
2.1U + FFFC1UTC / 1995-056Sargent, Murray (1995-12-06), Rekomendasi untuk menyandikan karakter WCH_EMBEDDING
UTC / 1996-002Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), "Objek Tersemat", UTC # 67 Menit
N1365Sargent, Murray (1996-03-18), Ringkasan Proposal - Karakter Penggantian Objek
N1353Umamaheswaran, V. S .; Ksar, Mike (1996-06-25), "8.14", Draf risalah Pertemuan Kopenhagen WG2 # 30
L2 / 97-288N1603Umamaheswaran, V. S. (1997-10-24), "7.3", Risalah Rapat yang Belum Dikonfirmasi, Rapat WG 2 # 33, Heraklion, Kreta, Yunani, 20 Juni - 4 Juli 1997
L2 / 98-004RN1681Teks ISO 10646 - AMD 18 untuk pendaftaran PDAM dan surat suara FPDAM, 1997-12-22
L2 / 98-070Aliprand, Joan; Winkler, Arnold, "Komentar tambahan tentang 2.1", Risalah pertemuan UTC dan L2 bersama dari pertemuan di Cupertino, 25-27 Februari 1998
L2 / 98-318N1894Teks revisi 10646-1 / FPDAM 18, AMANDEMEN 18: Simbol dan Lainnya, 1998-10-22
3.0U + FFF9..FFFB3L2 / 97-255RAliprand, Joan (1997-12-03), "3.D Proposal for In-Line Notation (ruby)", Risalah yang Disetujui - pertemuan bersama UTC # 73 & L2 # 170, Palo Alto, CA - 4-5 Agustus 1997
L2 / 98-055Freytag, Asmus (1998-02-22), Dukungan untuk Menerapkan Anotasi Inline dan Interlinear
L2 / 98-070Aliprand, Joan; Winkler, Arnold, "3.C.5. Dukungan untuk mengimplementasikan anotasi sebaris dan interlinear", Risalah pertemuan UTC dan L2 bersama dari pertemuan di Cupertino, 25-27 Februari 1998
L2 / 98-099N1727Freytag, Asmus (1998-03-18), Dukungan untuk Menerapkan Anotasi Interlinear seperti yang digunakan dalam Tipografi Asia Timur
L2 / 98-158Aliprand, Joan; Winkler, Arnold (1998-05-26), "Anotasi Inline dan Interlinear", Draf Risalah - Pertemuan bersama UTC # 76 & NCITS Subkelompok L2 # 173, Tredyffrin, Pennsylvania, 20-22 April 1998
L2 / 98-286N1703Umamaheswaran, V. S .; Ksar, Mike (1998-07-02), "8.14", Risalah Rapat yang Belum Dikonfirmasi, Rapat WG 2 # 34, Redmond, WA, USA; 1998-03-16--20
L2 / 98-270Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), Saran untuk proposal anotasi sebaris dan antar lini
L2 / 98-281R (pdf, html)Aliprand, Joan (1998-07-31), "Anotasi In-Line dan Interlinear (III.C.1.c)", Menit yang Belum Dikonfirmasi - UTC # 77 & Subkelompok NCITS L2 # 174 JOINT MEETING, Redmond, WA - 29-31 Juli 1998
L2 / 98-363N1861Sato, T. K. (1998-09-01), Penanda Ruby
L2 / 98-372N1884R2 (pdf, dokter)Whistler, Ken; dkk. (1998-09-22), Karakter Tambahan untuk UCS
L2 / 98-416N1882.zipDukungan untuk Mengimplementasikan Anotasi Interlinear, 1998-09-23
L2 / 98-329N1920Pendaftaran PDAM gabungan dan surat suara pertimbangan di WD untuk ISO / IEC 10646-1 / Amd. 30, AMANDEMEN 30: Latin tambahan dan karakter lainnya, 1998-10-28
L2 / 98-421RSuignard, Michel; Hiura, Hideki (1998-12-04), Catatan tentang karakter anotasi interlinear PDAM 30
L2 / 99-010N1903 (pdf, html, dokter)Umamaheswaran, V. S. (1998-12-30), "8.2.15", Risalah pertemuan WG 2 35, London, Inggris Raya; 1998-09-21--25
L2 / 98-419 (pdf, dokter)Aliprand, Joan (1999-02-05), "Karakter Anotasi Interlinear", Risalah yang Disetujui - Pertemuan Bersama UTC # 78 & NCITS Subkelompok L2 # 175, San Jose, CA - 1-4 Desember 1998
UTC / 1999-021Duerst, Martin; Bosak, Jon (1999-06-08), Pernyataan W3C XML CG pada karakter anotasi
L2 / 99-176RMoore, Lisa (1999-11-04), "Pernyataan Penghubung W3C tentang Karakter Anotasi", Risalah dari pertemuan bersama UTC / L2 di Seattle, 8-10 Juni 1999
L2 / 01-301Whistler, Ken (2001-08-01), "E. Diindikasikan sebagai" sangat tidak disarankan "untuk pertukaran teks biasa", Analisis Penghentian Karakter dalam Standar Unicode
  1. ^ Poin kode dan nama karakter yang diusulkan mungkin berbeda dari poin kode dan nama akhir

Lihat juga

Referensi

  1. ^ "Database karakter Unicode". Standar Unicode. Diakses 2016-07-09.
  2. ^ "Versi Enumerated dari The Unicode Standard". Standar Unicode. Diakses 2016-07-09.
  3. ^ "3.8: Diagram Blok-demi-Blok" (PDF). Standar Unicode. versi 1.0. Konsorsium Unicode.
  4. ^ "Rekomendasi untuk Font OpenType (OpenType 1.7) - Tipografi". docs.microsoft.com. Diakses 18 Oktober 2020.

Pin
Send
Share
Send