RDBMS/General

유니코드 UTF-8 / UTF-16 / UTF-32

junsuyoun 2022. 12. 20. 11:16
728x90
반응형

"모든 문자 체계를 온전히 표현한다." 국가간 교류가 많아지면서 특정 국가에만 국한되지 않고 모든 언어/기호를 표현할 수 있도록 설계된게 유니코드이다. 유니코드는 문자셋이고 유니코드를 어떻게 표현할건지에 대한 문자 인코딩 방식이 UTF-8, UTF-16, UTF-32 입니다.

 

유니코드 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 유니의 음반에 대해서는 U;Nee Code 문서를 참고하십시오. 유니코드(영어: Unicode)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된

ko.wikipedia.org


영어권과 유럽에서는 1byte 문자 집합을 통해 언어/기호를 표현했다. 하지만 CJK (중국/일본/한국)과 제2외국어를 사용하는 국가에서는 1byte의 알파벳과 숫자 특정기호들만 가지고 자신의 언어를 표현할 수가 없어 국가별로 자신들의 문자집합을 만들어서 사용하였으며 하나의 문자 집합으로 모든 언어를 표현할 수 없는 문제가 생겼다.
(C: GB2312, GBK, EUC-CN, GB18030 / J: Shiuft-JIS, JIS x0201, JIS x0208, JIS x021, EUC-JP / K: EUC-KR, CP949)

위와 같은 문제를 해결하는것이 모든 언어를 표현할 수 있는 문자 집합 유니코드를 통해 모든 언어를 표현할 수 있도록 되었다. 

  •  UTF-8: 문자 인코딩을 8bit 단위로 쪼개서 표현
  •  UTF-16: 문자 인코딩을 16bit 단위로 쪼개서 표현
  •  UTF-32: 문자 인코딩을 32bit 단위로 쪼개서 표현
구분 UNICODE UTF-8 UTF-16 UTF-32
ASCII 전체 (영어/숫자 등) U+0000 ~ U+007F 1 byte 2 byte 4 byte
일부 문자 U+0080 ~ U+07FF 2 byte 2 byte 4 byte
대부분의 문자(한글 등) U+0800 ~ U+FFFF 3 byte 4 byte 4 byte
BMP속하지 않는 문자들 U+10000 ~ U+10FFFF 4 byte 4 byte 4 byte


 

728x90
반응형