9/22/2006

探测常见的文件编码

在处理文本文件时往往因为不知道文件编码而很痛苦

对于一些特别的编码的文件其实是有办法做出判断的
1 . UTF7 所有字节的内容不会大于127
2 . UTF8 前三个字节为"0xEF 0xBB 0xBF"
3 . Unicode big endian 前两个字节为"0xFE 0xFF"
4 . Unicode little endian前两个个字节为"0xFF 0xFE"

little endian和big endian的区别就是高低位颠倒。

No comments: