字符编码

字符编码（英語：Character encoding）、字碼、字集碼是把字符集中的字符为指定集合中某一对象（例如：位元模式、自然数序列、八位元或者电脉冲），以便文本在计算机中存储和通过通信网络的传递。

純就字面解釋，這些術語是有不同的概念，但在許多的中文語境，這些術語會混用，有相同的概念。字符集，是指「字符的集合」，如中文字符集、英文字符集，不牽涉到編碼。字符編碼、字集碼、字碼，則是「對於某個字符集，為其字符編碼」，根據語義，有時指單一字符的編碼，有時是指全部字符的編碼。

在計算機支援語言、文字的過程中，要支援某個文字，必然要搜集所使用的字符，為其編碼，因此，初期並未區分字符集和字符編碼的不同。譬如，大五碼、國標碼、ASCII既指字符集，又指針對此字符集的編碼方式。在統一碼之後，則細分字符集和編碼形式的不同。同一個字符集，可以有不同的編碼形式，如UTF-8、UTF-16。

常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中，ASCII将字母、数字和其它符号編號，並用7位元的二进制來表示这个整数。通常會額外使用一个扩充的位元，以便于以1个字节的方式存储。

在计算机技术发展的早期，如ASCII（1963年）和EBCDIC（1964年）这样的字符集逐漸成為標準。但这些字符集的局限很快就变得明显，于是人们开发了許多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符，并且需要一种系统而不是临时的方法实现这些字符的编码。

有時，為強調其所使用的方式而使用其他術語，譬如：為說明「電腦系統『內部』處理文字資料所使用的字符編碼」時，會使用內碼。為「不同電腦系統之間，為了『交換』資料所採用的字符編碼」時，會使用交換碼。

简单字符集

按照惯例，人们认为字符集和字符编码是同义词，因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元（通常一个字符一个单元）。由于历史的原因，MIME和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。

现代编码模型

由統一碼和通用字符集所構成的现代字符编码模型則没有跟从简单字符集的观点。它们将字符编码的概念分为：有哪些字符、它们的编号、这些编号如何编码成一系列的“码元”（有限大小的数字）以及最后这些单元如何組成八位字节流。區分這些概念的核心思想是建立一个能够用不同方法來编码的一个通用字符集。为了正确地表示这个模型需要更多比“字符集”和“字符编码”更为精确的术语表示。在Unicode Technical Report (UTR) #17中，现代编码模型分为5个层次，所用的术语列在下面：

抽象字符表（Abstract character repertoire）是一个系统支持的所有抽象字符的集合。字符表可以是封闭的，即除非创建一个新的标准（ASCII和多数ISO/IEC 8859系列都是这样的例子），否則不允许添加新的符号；字符表也可以是开放的，即允许添加新的符号（統一碼和一定程度上代碼頁是这方面的例子）。特定字符表中的字符反映了如何将书写系统分解成线性信息单元的决定。例如拉丁、希腊和斯拉夫字母表分为字母、数字、变音符号、标点和如空格这样的一些少数特殊字符，它们都能按照一种简单的线性序列排列（尽管对它们的处理需要另外的规则，如带有变音符号的字母这样的特定序列如何解释——但这不属于字符表的范畴）。为了方便起见，这样的字符表可以包括预先编号的字母和变音符号的组合。其它的书写系统，如阿拉伯语和希伯莱语，由于要适应双向文字和在不同情形下按照不同方式交叉在一起的字形，就使用更为复杂的符号表表示。
编码字符集（CCS:Coded Character Set）是将字符集 $C$ 中每个字符映射到1个坐标（整数值对：x, y）或者表示为1个非负整数 $N$ 。字符集及码位映射称为编码字符集。例如，在一个给定的字符表中，表示大写拉丁字母“A”的字符被赋予整数65、字符“B”是66，如此继续下去。多个编码字符集可以表示同样的字符表，例如ISO-8859-1和IBM的代码页037和代码页500含蓋同样的字符表但是将字符映射为不同的整数。由此产生了编码空间（encoding space）的概念：简单说就是包含所有字符的表的维度。可以用一对整数来描述，例如：GB 2312的汉字编码空间是94 x 94。可以用一个整数来描述，例如：ISO-8859-1的编码空间是256。也可以用字符的存储单元尺寸来描述，例如：ISO-8859-1是一个8比特的编码空间。编码空间还可以用其子集来表述，如行、列、面（plane）等。编码空间中的一个位置（position）称为码位（code point）。一个字符所占用的码位称为码位值（code point value）。1个编码字符集就是把抽象字符映射为码位值。
字符编码表（CEF:Character Encoding Form），也称为"storage format"，是将编码字符集的非负整数值（即抽象的码位）转换成有限比特长度的整型值（称为码元code units）的序列。这对于定长编码来说是个到自身的映射（null mapping），但对于变长编码来说，该映射比较复杂，把一些码位映射到一个码元，把另外一些码位映射到由多个码元组成的序列。例如，使用16比特长的存储单元保存数字信息，系统每个单元只能够直接表示从0到65,535的数值，但是如果使用多个16位单元就能够表示更大的整数。这就是CEF的作用，它可以把Unicode从0到140万的码空间范围的每个码位映射到单个或多个在0到65,5356范围内的码值。最简单的字符编码表就是單純地选择足够大的单位，以保证编码字符集中的所有数值能够直接编码（一个码位对应一个码值）。这对于能够用使用八位元组來表示的编码字符集（如多数传统的非CJK的字符集编码）是合理的，对于能够使用十六位元來表示的编码字符集（如早期版本的Unicode）来说也足够合理。但是，随着编码字符集的大小增加（例如，现在的Unicode的字符集至少需要21位才能全部表示），这种直接表示法变得越来越没有效率，并且很难让现有计算机系统适应更大的码值。因此，许多使用新近版本Unicode的系统，或者将Unicode码位對應為可变长度的8位字节序列的UTF-8，或者将码位對應为可变长度的16位序列的UTF-16。
字符编码方案（CES:Character Encoding Scheme），也称作"serialization format"。將定长的整型值（即码元）映射到8位字节序列，以便编码后的数据的文件存储或网络传输。在使用Unicode的场合，使用一个简单的字符来指定字节顺序是大端序或者小端序（但对于UTF-8来说并不需要专门指明字节序）。然而，有些复杂的字符编码机制（如ISO/IEC 2022）使用控制字符转义序列在几种编码字符集或者用于减小每个单元所用字节数的压缩机制（如SCSU、BOCU和Punycode）之间切换。
传输编码语法（transfer encoding syntax），用于处理上一层次的字符编码方案提供的字节序列。一般其功能包括两种：一是把字节序列的值映射到一套更受限制的值域内，以满足传输环境的限制，例如Email传输时Base64或者quoted-printable，都是把8位的字节编码为7位长的数据；另一是压缩字节序列的值，如LZW或者行程长度编码等无损压缩技术。

高层机制（higher level protocol）提供了额外信息，用于选择Unicode字符的特定变种，如XML属性xml:lang

字符映射（character map）在Unicode中保持了其传统意义：从字符序列到编码后的字节序列的映射，包括了上述的CCS, CEF, CES层次。

字符集、代码页，与字符映射

术语字符编码（character encoding），字符映射（character map），字符集（character set）或者代码页，在历史上往往是同义概念，即字符表（repertoire）中的字符如何编码为码元的流（stream of code units）–通常每个字符对应单个码元。

码元（Code Unit，也称「代码单元」）是指一个已编码的文本中具有最短的比特组合的单元。对于UTF-8来说，码元是8比特长；对于UTF-16来说，码元是16比特长；对于UTF-32来说，码元是32比特长^[1]。码值（Code Value）是过时的用法。

代码页通常意味着面向字节的编码，但强调是一套用于不能语言的编码方案的集合.著名的如"Windows"代码页系列，"IBM"/"DOS"代码页系列.

IBM的字符数据表示体系（Character Data Representation Architecture - CDRA）与编码字符集标识符（coded character set identifiers - CCSIDs）常常把charset, character set, code page, or CHARMAP等类似意义的术语混用.

Unix或Linux不使用代码页概念，它们用charmap，比locales具有更广泛的含义.

与上文的编码字符集（Coded Character Set - CCS）不同，字符编码（character encoding）是从抽象字符到代码字（code word）的映射. HTTP（与MIME）的用法中，字符集（character set）与字符编码同义，但与CCS不是一个意思.

字符编码（不全）

ASCII
EBCDIC

西欧标准

DOS字符集（又称IBM代码页）

Windows字符集

亞洲字符集

尤其是漢字編碼。

臺灣

日本

中國大陸及港澳

GB/T 2312
GB/T 12345
EUC
GBK（规定文件为GB13000）
GB 18030
香港增補字符集

朝鲜半岛

越南

越南資訊交換標準代碼

印度

印度文字資訊交換碼

統一碼

字符转换工具

由于有很多种字符编码方法被使用，从一种字符编码转换到另一种，需要一些工具。

跨平台：

网页浏览器–大多数现代的网页浏览器都具有此功能。一般是在菜单"查看"（View）/"字符编码"（Character Encoding）
iconv –程序与编程API，用于字符编码转换
convert_encoding.py –基于Python的转换工具.^[2]
decodeh.py –用于启发性猜测编码方案的算法与模块.^[3]
國際統一碼部件 –一套C语言与Java语言的开源库，由IBM提供，用于統一碼等多语言编码的转换、实现.
chardet – Mozilla的编码自动检测代码的Python语言实现.
新版本的Unix命令File做字符编码的检测.（cygwin与mac都有此命令）

Linux:

recode – ^[4]
utrac – 将整个文件内容从一种字符编码转换到另外一种^[5]
cstocs –
convmv –转换文件名.^[6]
enca –分析编码模式.^[7]

Microsoft Windows:

Encoding.Convert – .NET API^[8]
MultiByteToWideChar/WideCharToMultiByte – Windows API^[9]
cscvt –转换工具^[10]
enca –分析编码方法^[11]

参考文献

^ Glossary of Unicode Terms. [2012-04-07]. （原始内容存档于2015-12-26）.
^ Homepage of Michael Goerz – convert_encoding.py. [2012-03-23]. （原始内容存档于2010-10-28）.
^ Decodeh – heuristically decode a string or text file. [2012-03-23]. （原始内容存档于2008-01-08）.
^ Recode – GNU Project – Free Software Foundation (FSF). [2012-03-23]. （原始内容存档于2021-02-10）.
^ Utrac Homepage. [2006-05-12]. （原始内容存档于2021-01-25）.
^ Convmv – converts filenames from one encoding to another. [2012-03-23]. （原始内容存档于2018-06-11）.
^ Extremely Naive Charset Analyser. [2012-03-23]. （原始内容存档于2010-12-04）.
^ Microsoft .NET Framework Class Library – Encoding.Convert Method. [2012-03-23]. （原始内容存档于2012-04-21）.
^ MultiByteToWideChar/WideCharToMultiByte – Convert from ANSI to Unicode & Unicode to ANSI. [2012-03-23]. （原始内容存档于2015-02-12）.
^ Character Set Converter. [2012-03-23]. （原始内容存档于2012-03-26）.
^ Extremely Naive Charset Analyser. [2012-03-23]. （原始内容存档于2012-03-15）.

參閱

Category:字符编码—关于通用字符编码的文章
Category:字符集—关于特殊字符编码的文章
亂碼—非映射字符集
代码页
字形
位圖
像素
體素
中文軟體
中文系統

外部链接

Character sets registered by Internet Assigned Numbers Authority（页面存档备份，存于互联网档案馆）
Unicode Technical Report #17: Character Encoding Model
SIL's freeware fonts, editors and documentation （页面存档备份，存于互联网档案馆） See SIL
ICU Converter Explorer （页面存档备份，存于互联网档案馆）
The Cyrillic Charset soup（页面存档备份，存于互联网档案馆）
Early history of character set standardization
Character Sets And Code Pages At The Push Of A Button （页面存档备份，存于互联网档案馆）
A complete introduction to Japanese character encodings
A tutorial on character code issues （页面存档备份，存于互联网档案馆）
Online Char (ASCII), HEX, Binary, Base64, etc... Encoder/Decoder with MD2, MD4, MD5, SHA1+2, etc. hashing algorithms
Universal Cyrillic decoder （页面存档备份，存于互联网档案馆）,一个用来帮助恢复由于错误字符编码产生的不可读的西里尔字母的在线程序（以及其它的一些程序）.
Introduction to i18n（页面存档备份，存于互联网档案馆），请参阅Chapter 3 - Important Concepts for Character Coding Systems
汉字字符编码查询
精确解释Unicode （页面存档备份，存于互联网档案馆）

[1] Glossary of Unicode Terms. [2012-04-07]. （原始内容存档于2015-12-26）.

[2] Homepage of Michael Goerz – convert_encoding.py. [2012-03-23]. （原始内容存档于2010-10-28）.

[3] Decodeh – heuristically decode a string or text file. [2012-03-23]. （原始内容存档于2008-01-08）.

[4] Recode – GNU Project – Free Software Foundation (FSF). [2012-03-23]. （原始内容存档于2021-02-10）.

[5] Utrac Homepage. [2006-05-12]. （原始内容存档于2021-01-25）.

[6] Convmv – converts filenames from one encoding to another. [2012-03-23]. （原始内容存档于2018-06-11）.

[7] Extremely Naive Charset Analyser. [2012-03-23]. （原始内容存档于2010-12-04）.

[8] Microsoft .NET Framework Class Library – Encoding.Convert Method. [2012-03-23]. （原始内容存档于2012-04-21）.

[9] MultiByteToWideChar/WideCharToMultiByte – Convert from ANSI to Unicode & Unicode to ANSI. [2012-03-23]. （原始内容存档于2015-02-12）.

[10] Character Set Converter. [2012-03-23]. （原始内容存档于2012-03-26）.

[11] Extremely Naive Charset Analyser. [2012-03-23]. （原始内容存档于2012-03-15）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

查论编字符编码
早期電信	電報電碼（英语：Telegraph code）庫克與惠斯通（英语：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英语：Morse code for non-Latin alphabets）日文（英语：Wabun code）中文西里爾字母（英语：Russian Morse code）韓文（英语：SKATS）博多與莫瑞 Fieldata（英语：Fieldata） ASCII ISO/IEC 646 BCDIC（英语：BCD (character encoding)）電傳文訊（英语：Teletex）與電傳視訊（英语：Videotex）／電視資訊 T.51/ISO/IEC 6937（英语：T.51/ISO/IEC 6937） ITU T.61（英语：ITU T.61） ITU T.101（英语：Videotex character set）世界系統電傳文訊（英语：World System Teletext）字元集（英语：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英语：ISO-IR-111）薩米文（英语：ISO-IR-197）改編威爾斯文（英语：ISO-IR-182）巴倫支西里爾字母（英语：ISO-IR-200）愛沙尼亞文（英语：Code page 922）烏克蘭西里爾字母（英语：Code page 1124）
書目	MARC-8（英语：MARC-8） ANSEL（英语：ANSEL）中文資訊交換碼 ISO 5426（英语：ISO 5426） ISO 5427（英语：ISO 5427） ISO 5428（英语：ISO 5428） ISO 6438 ISO 6862（英语：ISO 6862）
國家標準	ArmSCII BraSCII（英语：BraSCII）中文標準交換碼 DIN 66003（英语：DIN 66003） ELOT 927（英语：ELOT 927） GOST 10859（英语：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英语：JIS X 0212） JIS X 0213（英语：JIS X 0213） KOI-7（英语：KOI-7） KPS 9566 KS X 1001 KS X 1002（英语：KS X 1002） LST 1564（英语：LST 1564） LST 1590-4（英语：LST 1590-4） PASCII Shift JIS SI 960（英语：SI 960） TIS-620（英语：Thai Industrial Standard 620-2533） TSCII VISCII（英语：VISCII） VSCII YUSCII（英语：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英语：ISO/IEC 10367） EUC ISO-IR-165
macOS代码页	亞美尼亞文（英语：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英语：Mac OS Barents Cyrillic）凱爾特語族（英语：Mac OS Celtic）中歐語言克羅埃西亞文（英语：Mac OS Croatian encoding）西里爾字母（英语：Mac OS Cyrillic encoding）梵文波斯文（英语：MacFarsi encoding）字體X（英语：Macintosh Font X encoding）蓋爾文（英语：Mac OS Gaelic）喬治亞文（英语：Mac OS Georgian）希臘文（英语：MacGreek encoding）古吉拉特文（英语：Mac OS Gujarati）古木基文（英语：Mac OS Gurmukhi）希伯來文（英语：Mac OS Hebrew）冰島文（英语：Mac OS Icelandic encoding）因紐特文（英语：Mac OS Inuit）鍵盤（英语：Mac OS Keyboard encoding）拉丁文（英语：Macintosh Latin encoding）馬爾他文／世界文（英语：Mac OS Maltese/Esperanto encoding）歐甘字母（英语：Mac OS Ogham）羅曼語族羅馬尼亞文（英语：Mac OS Romanian encoding）薩米文（英语：Mac OS Sámi）土耳其文（英语：Mac OS Turkish encoding）土耳其西里爾字母（英语：Mac OS Turkic Cyrillic）烏克蘭文（英语：Mac OS Ukrainian encoding） VT100（英语：VT100 encoding）
DOS代碼頁	437 668（英语：Code page 668） 708（英语：Code page 708） 720（英语：Code page 720） 737（英语：Code page 737） 770（英语：Code page 770） 773（英语：Code page 773） 775（英语：Code page 775） 776（英语：Code page 776） 777（英语：Code page 777） 778（英语：Code page 778） 850（英语：Code page 850） 851（英语：Code page 851） 852（英语：Code page 852） 853（英语：Code page 853） 855（英语：Code page 855） 856（英语：Code page 856） 857（英语：Code page 857） 858（英语：Code page 858） 859（英语：Code page 859） 860（英语：Code page 860） 861（英语：Code page 861） 862（英语：Code page 862） 863（英语：Code page 863） 864（英语：Code page 864） 865（英语：Code page 865） 866（英语：Code page 866） 867（英语：Code page 867） 868（英语：Code page 868） 869（英语：Code page 869） 897（英语：Code page 897） 899（英语：Code page 899） 903（英语：Code page 903） 904（英语：Code page 904） 932（英语：Code page 932 (IBM)） 936（英语：Code page 936 (IBM)） 942（英语：Code page 942） 949（英语：Code page 949 (IBM)） 950 951（英语：Code page 951） 1040（英语：Code page 1040） 1042（英语：Code page 1042） 1043（英语：Code page 1043） 1046（英语：Code page 1046） 1098（英语：Code page 1098） 1115（英语：Code page 1115） 1116（英语：Code page 1116） 1117（英语：Code page 1117） 1118（英语：Code page 1118） 1127（英语：Code page 1127） 3846（英语：Code page 3846） ABICOMP（英语：ABICOMP character set） CS Indic（英语：CS Indic character set） CSX Indic（英语：CSX Indic character set） CSX+ Indic（英语：CSX+ Indic character set） CWI-2（英语：CWI-2）伊朗系統（英语：Iran System encoding）卡梅尼茨（英语：Kamenický encoding）馬索維亞（英语：Mazovia encoding） MIK（英语：MIK (character set)）
IBM AIX代碼頁	895（英语：Code page 895） 896（英语：Code page 896） 912（英语：Code page 912） 915（英语：Code page 915） 921（英语：Code page 921） 922（英语：Code page 922） 1006（英语：Code page 1006） 1008（英语：Code page 1008） 1009（英语：Code page 1009） 1010（英语：Code page 1010） 1012（英语：Code page 1012） 1013（英语：Code page 1013） 1014（英语：Code page 1014） 1015（英语：Code page 1015） 1016（英语：Code page 1016） 1017（英语：Code page 1017） 1018（英语：Code page 1018） 1019（英语：Code page 1019） 1124（英语：Code page 1124） 1133（英语：Code page 1133）
Microsoft Windows代碼頁（英语：Windows code page）	CER-GS（英语：CER-GS） 932（英语：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英语：Code page 1169） Extended Latin-8（英语：Extended Latin-8） 1250（英语：Windows-1250） 1251（英语：Windows-1251） 1252 1253（英语：Windows-1253） 1254（英语：Windows-1254） 1255（英语：Windows-1255） 1256（英语：Windows-1256） 1257（英语：Windows-1257） 1258（英语：Windows-1258） 1270（英语：Windows-1270）西里爾字母+芬蘭文（英语：Windows Cyrillic + Finnish）西里爾字母+法文（英语：Windows Cyrillic + French）西里爾字母+德文（英语：Windows Cyrillic + German）希臘語變音符號（英语：Windows Polytonic Greek）
EBCDIC代碼頁	37（英语：Code page 37） EBCDIC中的日文（英语：Japanese language in EBCDIC） DKOI（英语：DKOI）
DEC終端機（VTx（英语：VT220））	MCS（英语：Multinational Character Set） NRCS（英语：National Replacement Character Set）加拿大法文（英语：Code page 1020）瑞士文（英语：Code page 1021）西班牙文（英语：Code page 1023）英國英文（英语：Code page 1101）荷蘭文（英语：Code page 1102）芬蘭文（英语：Code page 1103）法文（英语：Code page 1104）挪威文／丹麥文（英语：Code page 1105）瑞典文（英语：Code page 1106）挪威文／丹麥文（替代）（英语：Code page 1107） 8位元希臘文（英语：Code page 1287） 8位元土耳其文（英语：Code page 1288） SI 960（英语：SI 960）希伯來文（英语：DEC Hebrew）特殊圖形（英语：DEC Special Graphics）技術（英语：DEC Technical Character Set）
特定平臺	1057（英语：Code page 1057） Acorn（英语：RISC OS character set） Adobe標準（英语：PostScript Standard Encoding） Adobe Latin 1（英语：PostScript Latin 1 Encoding） Amstrad CPC（英语：Amstrad CPC character set） Apple II（英语：Apple II character set）雅達利資訊交換標準碼（英语：ATASCII）雅達利ST（英语：Atari ST character set） BICS（英语：Bitstream International Character Set）卡西歐計算機（英语：Casio calculator character sets） CDC（英语：CDC display code） Compucolor II（英语：Compucolor II character set） CP/M+（英语：Amstrad CP/M Plus character set） DEC RADIX 50（英语：DEC RADIX 50） DEC MCS（英语：Multinational Character Set）/NRCS（英语：National Replacement Character Set） DG國際（英语：DG International） Fieldata（英语：Fieldata） GEM（英语：GEM character set） GSM 03.38（英语：GSM 03.38） HP Roman（英语：HP Roman） HP FOCAL（英语：FOCAL character set） HP RPL（英语：RPL character set） SQUOZE（英语：SQUOZE） LICS（英语：Lotus International Character Set） LMBCS（英语：Lotus Multi-Byte Character Set） MSX（英语：MSX character set） NEC APC（英语：NEC APC character set） NeXT（英语：NeXT character set） PETSCII（英语：PETSCII） SEGA SC-3000（英语：Sega SC-3000 character set）夏普計算機（英语：Sharp pocket computer character sets）夏普MZ（英语：Sharp MZ character set）辛克萊QL（英语：Sinclair QL character set）符號電傳文訊（英语：Teletext character set）德州儀器計算機（英语：TI calculator character sets） TRS-80（英语：TRS-80 character set）文圖拉國際（英语：Ventura International） WISCII（英语：Wang International Standard Code for Information Interchange） XCCS（英语：Xerox Character Code Standard） ZX80（英语：ZX80 character set） ZX81（英语：ZX81 character set） ZX Spectrum（英语：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英语：Tamil All Character Encoding） Unicode編碼比較（英语：Comparison of Unicode encodings）
TeX排版系統	科克（英语：Cork encoding） LY1（英语：LY1 encoding） OML（英语：OML encoding） OMS（英语：OMS encoding） OT1（英语：OT1 encoding）
其他代碼頁	ABICOMP（英语：ABICOMP character set） ASMO 449（英语：ASMO 449）大五碼 APL符號數位編碼（英语：Digital encoding of APL symbols） ISO-IR-68（英语：ISO-IR-68） ARIB STD-B24 HZ（英语：HZ (character encoding)） IEC-P27-1（英语：IEC-P27-1） INIS 7位元（英语：INIS character set） INIS-8（英语：8位元） ISO-IR-169（英语：ISO-IR-169） ISO 2033（英语：ISO 2033） KOI -R -RU（英语：KOI8-RU） -U 今昔文字鏡 SEASCII（英语：Stanford Extended ASCII） Stanford/ITS（英语：Stanford/ITS character set） TRON（英语：TRON (encoding)）統合韓文代碼（英语：Unified Hangul Code）
控制字符	摩斯電碼專用代碼（英语：Prosigns for Morse code） C0与C1控制字符 ISO/IEC 6429 JIS X 0211（英语：JIS X 0211） Unicode控制字符空白字元
相關條目	CCSID（英语：CCSID） HTML字符编码字符集探测中日韓統一表意文字硬體代碼頁（英语：Hardware code page）磁性墨水字元識別碼（英语：Magnetic ink character recognition）亂碼中文乱码可变宽度编码
字元集