RDBMS/General
유니코드 UTF-8 / UTF-16 / UTF-32
junsuyoun
2022. 12. 20. 11:16
728x90
반응형
"모든 문자 체계를 온전히 표현한다." 국가간 교류가 많아지면서 특정 국가에만 국한되지 않고 모든 언어/기호를 표현할 수 있도록 설계된게 유니코드이다. 유니코드는 문자셋이고 유니코드를 어떻게 표현할건지에 대한 문자 인코딩 방식이 UTF-8, UTF-16, UTF-32 입니다.
유니코드 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 유니의 음반에 대해서는 U;Nee Code 문서를 참고하십시오. 유니코드(영어: Unicode)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된
ko.wikipedia.org
영어권과 유럽에서는 1byte 문자 집합을 통해 언어/기호를 표현했다. 하지만 CJK (중국/일본/한국)과 제2외국어를 사용하는 국가에서는 1byte의 알파벳과 숫자 특정기호들만 가지고 자신의 언어를 표현할 수가 없어 국가별로 자신들의 문자집합을 만들어서 사용하였으며 하나의 문자 집합으로 모든 언어를 표현할 수 없는 문제가 생겼다.
(C: GB2312, GBK, EUC-CN, GB18030 / J: Shiuft-JIS, JIS x0201, JIS x0208, JIS x021, EUC-JP / K: EUC-KR, CP949)
위와 같은 문제를 해결하는것이 모든 언어를 표현할 수 있는 문자 집합 유니코드를 통해 모든 언어를 표현할 수 있도록 되었다.
- UTF-8: 문자 인코딩을 8bit 단위로 쪼개서 표현
- UTF-16: 문자 인코딩을 16bit 단위로 쪼개서 표현
- UTF-32: 문자 인코딩을 32bit 단위로 쪼개서 표현
구분 | UNICODE | UTF-8 | UTF-16 | UTF-32 |
ASCII 전체 (영어/숫자 등) | U+0000 ~ U+007F | 1 byte | 2 byte | 4 byte |
일부 문자 | U+0080 ~ U+07FF | 2 byte | 2 byte | 4 byte |
대부분의 문자(한글 등) | U+0800 ~ U+FFFF | 3 byte | 4 byte | 4 byte |
BMP속하지 않는 문자들 | U+10000 ~ U+10FFFF | 4 byte | 4 byte | 4 byte |
728x90
반응형