Unicodeは、世界のほとんどの書記体系で表現されているテキストの一貫したコード化、表現、および処理のためのコンピューティング業界標準です。最新バージョンには、136,755文字のレパートリーが含まれています。 Unicode標準は、ISO / IEC 10646と連動して維持されており、どちらもコード互換コードです。Unicode標準は、視覚的参照のためのコードチャートのセット、標準的な文字エンコーディングのエンコーディングメソッドとセット、一連の参照データファイル、および文字プロパティ、正規化のルール、分解、照合、レンダリング、および双方向の表示順序(アラビア語やヘブライ語などの右から左のスクリプトと、左から右のスクリプトの両方を含むテキストの正しい表示用)。 2017年6月現在、最新バージョンはUnicode 10.0です。標準はUnicode Consortiumによって維持されています。ユニコード文字セットの統合におけるユニコードの成功は、コンピュータソフトウェアの国際化とローカライゼーションに広く普及しています。この標準は、最新のオペレーティングシステム、XML、Java(およびその他のプログラミング言語)、およびNET Frameworkなど、多くの最近のテクノロジで実装されています。Unicodeは異なる文字エンコーディングで実装できます。 Unicode標準では、UTF-8、UTF-16、およびUTF-32が定義されており、他のいくつかのエンコーディングが使用されています。最も一般的に使用されるエンコーディングは、UTF-8、UTF-16、およびUTF-16の先駆者であるUCS-2です。ウェブサイト(主に90%以上)で使用されているUTF-8は、最初の128コードポイントに1バイトを使用し、その他の文字には最大4バイトを使用します。最初の128個のUnicodeコードポイントはASCII文字です。 ASCIIテキストはUTF-8テキストです.UCS-2は文字ごとに2バイト(16ビット)を使用しますが、最初の65,536コードポイント、いわゆるBasic Multilingual Plane(BMP)のみをエンコードできます。 17機の1,114,112コードポイントが可能で、これまでに120,000以上のコードポイントが定義されているため、多くのUnicode文字はUCS-2の手の届かないものです。したがって、UCS-2は廃止されましたが、ソフトウェアではまだ広く使用されています。 UTF-16は、Basic Multilingual PlaneでUCS-2と同じ16ビットエンコーディングを使用し、他のプレーンで4バイトエンコーディングを使用することで、UCS-2を拡張します。予約範囲U 0D800-U 0DFFFにコードポイントが含まれていない限り、UCS-2テキストは有効なUTF-16テキストです。UTF-32(UCS-4とも呼ばれる)は、各文字に4バイトを使用します。 UCS-2と同様に、1文字あたりのバイト数は固定されているため、文字の索引付けが容易です。 UCS-2とは異なり、UTF-32はすべてのUnicodeコードポイントをエンコードできます。ただし、各文字は4バイトを使用するため、UTF-32は他のエンコーディングよりも大幅に多くの領域を占め、広く使用されていません。.
|