型と文字コード
型 | 文字コード | 補足 |
---|---|---|
String | Unicode(※) | DOMString。エンコード方式はUTF-16。 |
Blob | - | StringはUTF-8に変換される |
ソースコード | - | Webでは、UTF-8Nが一般的 |
※JavaScriptは、通常UTF-16のエンコード方式を採用している。
ただし、UTF-8のエンコード方式を使用していることもある。
例:下記の例などで独自に変換した場合
TextEncoder / TextDecoder
var text = "文字列(UTF-16)";
// String(UTF-16) -> TypedArray<Uint8Array>(UTF-8)
var encoder = new TextEncoder('utf-8');
var ab8 = encoder.encode(text);
// TypedArray<Uint8Array>(UTF-8) -> String(UTF-16)
var decoder = new TextDecoder('utf-8');
var utf16 = decoder.decode(ab8);
※UTF-8以外にも対応しています。
Encoding API Encodings - Web APIs | MDN
UTF-8/UTF-16への変換
var text = "文字列(UTF-16)";
// String(UTF-16) -> String(UTF-8)
var utf8 = unescape(encodeURIComponent(text));
// String(UTF-8) -> String(UTF-16)
var utf16 = decodeURIComponent(escape(utf8));
BASE64への変換
var text = "文字列(UTF-16)";
// String(UTF-16) -> String(UTF-8) -> BASE64(UTF-8)
var base64 = btoa(unescape(encodeURIComponent(text)));
// BASE64(UTF-8) -> String(UTF-8) -> String(UTF-16)
var utf16 = decodeURIComponent(escape(atob(base64)));
TypedArrayへの変換
var text = "文字列(UTF-16)";
// String(UTF-16) -> String(UTF-8) -> TypedArray<Uint8Array>(UTF-8)
var ab8 = Uint8Array.from(unescape(encodeURIComponent(text)).split(''), c => c.charCodeAt(0));
// TypedArray<Uint8Array>(UTF-8) -> Uint8Array(UTF-8) -> String(UTF-8) -> String(UTF-16)
var utf16 = decodeURIComponent(escape(String.fromCharCode.apply('', ab8)));
Blobへの変換
// String(UTF-16) -> Blob(UTF-8N)
var text = '文字列(UTF-16)';
var blob8n = new Blob([text], {'type':'text/plain'});
// String(UTF-16) -> Blob(UTF-8)
var bom = new Uint8Array([0xEF, 0xBB, 0xBF]);
var text = '文字列(UTF-16)';
var blob8 = new Blob([bom, text], {'type':'text/plain'});
// Blob(UTF-8N/UTF-8) -> ArrayBuffer(UTF-8N/UTF-8)
// -> TypedArray<Uint8Array>(UTF-8) -> String(UTF-8) -> String(UTF-16)
var blob = blob8n;//blob8;
var ab8 = await blob.arrayBuffer();
var utf16 = decodeURIComponent(escape(String.fromCharCode.apply('', new Uint8Array(ab8))));
※Blob
は、UTF-16の文字列でもUTF-8でエンコードして出力します。
マルチバイト文字の文字列長
var emoji = "😉😉😉"
console.log(emoji.length); // 6
console.log(Array.from(emoji).length);// 3
console.log([...emoji].length); // 3
※スプレッド構文:[...iterableObj]
※絵文字だけでなく、韓国語やタイ語などで同様現象が発生する。
ソースコードの文字コード
Web関連のソースコードの文字コードは、UTF-8Nが一般的です。
BOMありだと処理できないシステムがあるため、UTF-8Nなんだとか。(BOMの文字化けとかが起こる)
ただし、Microsoft ExcelでCSVファイルを扱う場合は、UTF-8にしないと、Shift-JIS扱いされて文字化けします。
URLエンコード(パーセントエンコーディング)
URIで使用できない文字を使う際に行われるエンコードです。URL関連などで使用されます。
var url0 = 'https://.../バグ取りの日々.html';
var url1 = encodeURIComponent(url0);
console.log(url1); // https%3A%2F%2F...%2F%E3%83%90%E3%82%B0%E5%8F%96%E3%82%8A%E3%81%AE%E6%97%A5%E3%80%85.html
var url2 = decodeURIComponent(url1);
console.log(url2); // https://.../バグ取りの日々.html
※「encodeURI」と「encodeURIComponent」の違いは、#$&+,/:;=?@
を含めてエンコードするか否かです
※「application/x-www-form-urlencoded
」では、半角スペース(%20)が「+
」に変換される
Punycode
日本語ドメインなどに使用されている文字符号化方式です。
HTML特殊文字
HTMLには、特別に変換された文字が存在します。&
や。
などです。次に変換処理の参考リンクを示します。
情報古すぎ。
間違えました。