Go语言中如何正确遍历字符串并获取字符值

2025-11-02 3:55

|

7

|

后端开发

1504 字

|

6 分钟

Go语言中如何正确遍历字符串并获取字符值

本文详细介绍了在go语言中如何正确遍历字符串以获取其字符值，而非原始的字节数值。通过深入理解go字符串的utf-8编码特性和`for…range`循环对字符串的处理机制，演示了如何利用`rune`类型和类型转换来准确地访问和打印字符串中的unicode字符，并提供了清晰的代码示例和注意事项。

在Go语言中处理字符串时，一个常见的需求是遍历字符串并访问其内部的单个字符。然而，由于Go字符串的内部表示是只读的字节切片（[]byte），并且采用UTF-8编码，直接通过索引str[i]访问字符串元素通常会得到字节值，而不是我们期望的Unicode字符。这对于初学者来说可能是一个困惑点，尤其是在处理包含多字节UTF-8字符的字符串时。

Go语言字符串与UTF-8编码

Go语言中的字符串是不可变的字节序列。它默认使用UTF-8编码来表示Unicode字符。这意味着一个字符可能由一个或多个字节组成。例如，英文字符通常占用一个字节，而中文或某些特殊符号可能占用三个或更多字节。

当我们尝试使用传统的索引方式str[i]来访问字符串时，str[i]会返回在索引i处的字节值，其类型为byte（uint8的别名）。如果一个字符由多个字节组成，那么单独获取其中一个字节并不能代表完整的字符。

考虑以下示例代码，它展示了直接通过索引和range循环的初始尝试：

立即学习“go语言免费学习笔记（深入）”；

package main  import "fmt"  func main() {     str := "Hello"     // 尝试1：直接通过索引和range的第二个返回值     for i, elem := range str {         // str[i] 返回的是字节值         // elem 返回的是rune（Unicode码点）的int32表示         fmt.Println(i, str[i], elem)     }      fmt.Println("n--- 仅遍历索引 ---")     // 尝试2：仅遍历range的索引     for elem := range str { // 这里的elem实际上是索引i         fmt.Println(elem)     } }

上述代码的输出可能会是这样：

0 72 72 1 101 101 2 108 108 3 108 108 4 111 111  --- 仅遍历索引 --- 0 1 2 3 4

可以看到，str[i]和elem（在第一个循环中）都输出了数字。str[i]输出的是字符’H’、’e’等的ASCII码（即字节值），而elem也输出了对应的Unicode码点（rune）的整数值。这与我们期望的直接打印字符’H’、’e’等有所不同。第二个循环for elem := range str实际上只迭代了字符串的字节索引，elem在这里是索引值。

使用 for…range 循环正确获取字符

在Go语言中，遍历字符串并获取其字符（Unicode码点）的正确方式是使用for…range循环。当for…range用于字符串时，它会迭代字符串中的Unicode码点。

云雀语言模型

云雀是一款由字节跳动研发的语言模型，通过便捷的自然语言交互，能够高效的完成互动对话

54

查看详情

其语法通常是 for index, runeValue := range StringVariable。

index：表示当前Unicode码点在字符串中第一个字节的起始索引。
runeValue：表示当前Unicode码点的值，其类型为rune（int32的别名）。rune类型专门用于表示一个Unicode码点。

要将这个runeValue转换为可打印的字符形式，我们需要将其显式地转换为string类型。Go语言允许将单个rune值转换为一个包含该字符的字符串。

以下是实现所需输出的正确方法：

package main  import "fmt"  func main() {     str := "Hello"      fmt.Println("--- 仅打印字符 ---")     for _, r := range str { // _ 忽略索引，r 是 rune 类型         c := string(r) // 将 rune 转换为 string         fmt.Println(c)     }      fmt.Println("n--- 打印索引、码点和字符 ---")     for i, r := range str { // i 是字节索引，r 是 rune 类型         // r 是 int32 类型的 Unicode 码点值         // string(r) 将该码点转换为对应的字符串字符         fmt.Println(i, r, string(r))     }      fmt.Println("n--- 包含多字节字符的示例 ---")     multibyteStr := "你好Go"     for i, r := range multibyteStr {         fmt.Printf("索引: %d, Rune值: %d, 字符: %sn", i, r, string(r))     } }

上述代码的输出将是：

--- 仅打印字符 --- H e l l o  --- 打印索引、码点和字符 --- 0 72 H 1 101 e 2 108 l 3 108 l 4 111 o  --- 包含多字节字符的示例 --- 索引: 0, Rune值: 20320, 字符: 你 索引: 3, Rune值: 22909, 字符: 好 索引: 6, Rune值: 71, 字符: G 索引: 7, Rune值: 111, 字符: o

从输出中我们可以观察到：

第一个循环成功地将每个字符单独打印出来。
第二个循环展示了i是当前字符的起始字节索引，r是其Unicode码点（整数值），string(r)则将其转换为对应的字符。
在处理多字节字符串”你好Go”时，可以看到”你”和”好”的索引分别是0和3，这意味着它们各占用了3个字节，而英文字符’G’和’o’则只占用1个字节。range循环正确地识别并处理了这些多字节字符。

注意事项与总结

rune 类型的重要性： 在Go语言中，rune是int32的别名，专门用于表示一个Unicode码点。当你需要处理单个字符时，应始终考虑使用rune类型。
string(r) 的转换： for…range循环返回的rune值是一个整数。要将其作为实际字符打印或使用，必须通过string(r)进行类型转换。
索引的含义： for…range循环中的index变量表示的是当前rune在原始字符串中UTF-8编码的第一个字节的索引，而不是字符的逻辑位置索引。这意味着对于多字节字符，后续字符的索引会跳跃。
无效UTF-8序列： 如果range循环遇到无效的UTF-8序列，它会将该序列视为一个字节，并将runeValue设置为0xFFFD（Unicode替换字符），然后继续处理下一个字节。

通过理解Go字符串的UTF-8编码特性和for…range循环的工作原理，我们可以有效地遍历字符串并准确地访问其字符值。始终记住，当需要处理Go字符串中的单个字符时，使用for i, r := range str并结合string(r)是推荐且最安全的方式。

ai ASCII for go Go语言 String string类切片字符串字节循环类型转换编码

text=ZqhQzanResources

Go语言字符串与UTF-8编码

使用 for…range 循环正确获取字符

注意事项与总结

推荐文章