メンバー : ログイン |登録 |知識をアップロード
検索
Unicode
1.起源と発展
1.1.歴史
1.2.アーキテクチャと用語
1.2.1.コードポイントプレーンとブロック
1.2.2.一般カテゴリプロパティ
1.2.3.抽象的な文字
1.3.Unicode Consortium
1.4.バージョン
1.5.スクリプトの対象
2.マッピングとエンコーディング
2.1.Unicode変換フォーマットとユニバーサルコード化文字セット [修正 ]
Unicodeでは、Unicode Transformation Format(UTF)エンコーディングとUniversal Coded Character Set(UCS)エンコーディングという2つのマッピング方法を定義しています。エンコーディングは、Unicodeコード範囲の範囲(場合によってはそのサブセット)をコード値と呼ばれる固定サイズ範囲の値のシーケンスにマップします。すべてのUTFエンコーディングは、すべてのコードポイント(サロゲートを除く)をユニークなバイトシーケンスにマップします。エンコーディングの名前の数字は、コード値ごとのビット数(UTFエンコーディングの場合)またはコード値あたりのバイト数(UCSエンコーディングの場合)を示します。 UTF-8とUTF-16がおそらく最も一般的に使用されるエンコーディングです。 UCS-2はUTF-16の廃止されたサブセットです。 UCS-4とUTF-32は機能的に同等です。UTFエンコーディングは次のとおりです。UTF-8の廃止された前身であるUTF-1は、Unicode標準の一部ではなく、ISO 2022との互換性を最大限に高めます。UTF-7は電子メールで時折使用される7ビットエンコーディングであり、しばしば時代遅れとみなされます(Unicode標準には含まれていませんが、情報標準RFCとして文書化されています。UTF-8は、ASCIIとの互換性を最大限にする8ビット可変幅エンコーディングです。UTF-EBCDICは、UTF-8に似ていますが、Unicode標準の一部ではないEBCDICとの互換性のために設計された8ビットの可変幅のエンコーディングです。16ビットの可変幅のエンコーディングであるUTF-16。UTF-32、32ビット、固定幅エンコーディングUTF-8はコードポイントごとに1〜4バイトを使用し、ラテンスクリプトとASCII互換のためにコンパクトであり、Unicodeテキストの交換のための事実上の標準エンコードを提供します。 FreeBSDと最近のLinuxディストリビューションでは、一般的なテキスト処理のレガシーエンコーディングに直接置き換えて使用されています。UCS-2およびUTF-16エンコーディングは、バイトオーダリング検出(またはバイトエンディアン検出)に使用されるテキストファイルの初めに使用するUnicodeバイトオーダーマーク(BOM)を指定します。.BOM、コード・ポイントU FEFFは、使用されるUnicodeエンコードに関係なく、バイト再順序付けに明白な重要な特性を持っています。 U FEFE(U FEFFのバイトスワップの結果)は合法的な文字と等しくなく、テキストの先頭以外の他の場所のU FEFFは、ゼロ幅でない非区切りのスペース合字の形成を防ぐ以外の効果はない)。UTF-8に変換された同じ文字はバイトシーケンスEF BB BFになります。 Unicode標準により、BOMは「文字セットのマークがないUTF-8エンコードされたテキストの署名として機能する」ことができます。一部のソフトウェア開発者は、UTF-8を含む他のエンコーディングにUTF-8をローカルの8ビットコードページと区別するために採用しています。しかし、RFC 3629(UTF-8標準)では、UTF-8を使用するプロトコルではバイトオーダーマークを禁止することが推奨されていますが、これは可能でない場合があります。さらに、UTF-8の可能なパターンに対する大きな制限(例えば、高ビットが設定された孤立したバイトは存在しない)は、BOMに頼らずにUTF-8を他の文字エンコーディングと区別できることを意味する。UTF-32とUCS-4では、1つの32ビットコード値が任意のキャラクタのコードポイントをかなり直接的に表現します(異なるプラットフォーム間で異なるエンディアンはコード値がオクテットシーケンスとしてどのように表示されるかに影響します)。他のエンコーディングでは、各コードポイントは、可変数のコード値によって表されてもよい。 UCC-32は、gccコンパイラを使用してソフトウェアを生成するすべてのUnixオペレーティングシステムが、それを標準の「ワイド文字」エンコーディングとして使用するため、プログラムのテキストの内部表現(格納されたテキストまたは送信されたテキストとは対照的に)として広く使用されています。 Seed7などのプログラミング言語の中には、文字列や文字の内部表現としてUTF-32を使用するものがあります.最近のバージョンのPythonプログラミング言語(2.2で始まる)は、Unicode文字列の表現としてUTF-32を使用するように設定され、高水準コード化されたソフトウェアでそのようなエンコーディングを効果的に普及させます。別のエンコーディング形式であるPunycodeは、Unicode文字列をASCIIベースのDNS(Domain Name System)でサポートされている文字セットにエンコードすることを可能にします。エンコードは、Unicodeでサポートされているすべてのスクリプトで国際化ドメイン名を使用できるシステムであるIDNAの一部として使用されます。これまでの歴史的な提案には、UTF-5とUTF-6があります。GB18030は、中国の標準化管理からのUnicodeのもう1つのコード化形式です。中華人民共和国(PRC)の公式キャラクターセットです。 BOCU-1とSCSUはUnicode圧縮方式です。 2005年のApril Fools 'Day RFCは、2つのパロディーUTFエンコード、UTF-9とUTF-18を指定しています。.
2.2.既製品と複合品の文字
2.3.合字
2.4.標準化されたサブセット
3.採択
3.1.オペレーティングシステム
3.2.入力メソッド
3.3.Eメール
3.4.ウェブ
3.5.フォント
3.6.ニューラインズ
4.問題
4.1.哲学的かつ完全な批判
4.2.従来の文字セットへのマッピング
4.3.インドのスクリプト
4.4.文字を組み合わせる
4.5.異常
[アップロード もっと コンテンツ ]


著作権 @2018 Lxjkh