.net里面的StreamReader读取文本文件默认使用utf-8的编码,因此,如果你写一个最简单的使用StreamReader.ReadToEnd的方法读出一个文本文件放入文本框中,八成出现的是乱码。因为在中文系统上,纯文本文件默认的保存编码是ASCII。 但是使用的时候也不能全部都按照ASCII来读,因为你也无法保证系统上是否会读到UNICODE的文件。因此,需要一个侦测文件编码类型并且能够按照相应类型来读取的方法。 找了一个小时,终于找到了。 如果文件是有特定编码格式的,这个编码会记录在文件的头四个字节里。因此,读出这四个字节,检查是否是Unicode就可以了。如果这四个字节并没有特定的意义,你就只能猜测一个了,一般情况下,就Default就比较合适了。 Public Function LoadFile(ByVal FileName As String) As String Dim enc As Encoding Dim file As FileStream = New FileStream(FileName, FileMode.Open, FileAccess.Read, FileShare.Read) If file.CanSeek Then Dim bom(3) As Byte file.Read(bom, 0, 4) If ((bom(0) = &HEF And bom(1) = &HBB And bom(2) = &HBF) Or (bom(0) = &HFF And bom(1) = &HFE) Or (bom(0) = &HFE And bom(1) = &HFF) Or (bom(0) = 0 And bom(1) = 0 And bom(2) = &HFE And bom(3) = &HFF)) Then enc = Encoding.Unicode Else enc = Encoding.Default End If file.Seek(0, SeekOrigin.Begin) Else enc = Encoding.Default End If Dim FileByte(file.Length) As Byte file.Read(FileByte, 0, file.Length) ''''转成系统对应的编码字符 Dim MyEncoder As Encoding = enc file.Close() file = Nothing Return New String(MyEncoder.GetChars(FileByte)) End Function
|