Go语言：字符串遍历与字符（Rune）处理指南

2025-11-02 1:05

|

7

|

后端开发

1383 字

|

6 分钟

Go语言：字符串遍历与字符（Rune）处理指南

在go语言中，直接索引字符串会得到字节值，而通过`for…range`循环遍历字符串时，第二个返回值是unicode码点（rune）。本文将详细介绍如何在go语言中正确地遍历字符串，获取并处理其字符值，而非原始的字节或数字表示，并通过示例代码演示如何将rune类型转换为可读的字符字符串，确保对多字节字符的正确处理。

理解go语言中的字符串与字符

在Go语言中，字符串是不可变的字节切片，通常以UTF-8编码存储。这意味着字符串的长度是其字节数，而不是字符数。当我们通过索引str[i]访问字符串时，我们实际上获取的是该索引处的字节值（byte类型），而非一个字符。对于ASCII字符，一个字节即一个字符，所以str[i]会返回其ASCII码。然而，对于非ASCII字符（如中文、表情符号或某些特殊符号），一个字符可能由多个字节组成，此时str[i]将无法正确地表示一个完整的字符。

rune是Go语言中用于表示Unicode码点的内置类型，它是int32的别名。在处理需要识别单个字符（无论是单字节还是多字节）的场景时，rune是关键。

常见的遍历误区

许多初学者在遍历字符串时，可能会遇到以下两种情况，导致无法直接获取到期望的字符：

直接索引获取字节值： 当使用传统的for循环并结合str[i]时，会得到每个位置的字节值。

package main  import "fmt"  func main() {     str := "Hello"     fmt.Println("--- 错误示例：直接索引获取字节值 ---")     for i := 0; i < len(str); i++ {         // str[i] 返回的是 byte 类型，打印时会显示其十进制数值         fmt.Printf("索引: %d, 字节值: %d, 字符: %cn", i, str[i], str[i])     }     // 输出：     // 索引: 0, 字节值: 72, 字符: H     // 索引: 1, 字节值: 101, 字符: e     // 索引: 2, 字节值: 108, 字符: l     // 索引: 3, 字节值: 108, 字符: l     // 索引: 4, 字节值: 111, 字符: o }

虽然%c格式化动词可以将字节值解释为字符，但对于多字节字符，str[i]依然是单个字节，无法构成完整字符。

立即学习“go语言免费学习笔记（深入）”；

for…range循环获取rune的数值： Go语言提供了for…range循环来遍历字符串中的Unicode码点。循环的第二个返回值是rune类型。然而，直接打印rune类型变量时，fmt.Println默认会打印其底层的整数值。

package main  import "fmt"  func main() {     str := "Hello"     fmt.Println("n--- 错误示例：for...range 直接打印rune数值 ---")     for i, elem := range str {         // elem 是 rune 类型，直接打印会显示其Unicode码点对应的整数值         fmt.Println(i, elem)     }     // 输出：     // 0 72     // 1 101     // 2 108     // 3 108     // 4 111 }

这种方式虽然正确地迭代了Unicode码点，但输出的是码点数值，而非字符本身。

正确获取字符串字符值的方法

要正确地遍历字符串并获取其字符值，应该使用for…range循环，并将获取到的rune类型值显式地转换为string类型。

TTS Free Online免费文本转语音

免费的文字生成语音网站，包含各种方言（东北话、陕西话、粤语、闽南语）

37

查看详情

for…range语句在遍历字符串时，会按照Unicode码点（rune）进行迭代。每次迭代，它会返回两个值：

第一个值是当前rune的起始字节索引。
第二个值是当前rune的实际值（rune类型）。

通过将这个rune值转换为String类型，我们就可以得到一个包含单个字符的字符串。

package main  import "fmt"  func main() {     str := "Hello Go 你好" // 包含多字节字符的字符串      fmt.Println("--- 正确示例：for...range 遍历并转换为字符字符串 ---")     for i, r := range str {         // r 是 rune 类型 (Unicode 码点)         // string(r) 将 rune 转换为包含该字符的字符串         charStr := string(r)         fmt.Printf("索引: %d, Rune值: %d, 字符: %sn", i, r, charStr)     }      // 期望输出（注意索引是字节索引，不是字符索引）：     // 索引: 0, Rune值: 72, 字符: H     // 索引: 1, Rune值: 101, 字符: e     // 索引: 2, Rune值: 108, 字符: l     // 索引: 3, Rune值: 108, 字符: l     // 索引: 4, Rune值: 111, 字符: o     // 索引: 5, Rune值: 32, 字符:     // 索引: 6, Rune值: 71, 字符: G     // 索引: 7, Rune值: 111, 字符: o     // 索引: 8, Rune值: 32, 字符:     // 索引: 9, Rune值: 20320, 字符: 你     // 索引: 12, Rune值: 22909, 字符: 好 }

在上述示例中，i表示当前rune在原始字符串中的起始字节索引。对于多字节字符（如“你”和“好”），i的增量会大于1，因为它跳过了该字符占用的所有字节。r是rune类型，其值为Unicode码点。string(r)则将这个码点转换成一个包含对应字符的字符串。

注意事项与总结

rune是处理字符的关键： 在Go语言中，如果需要按字符（而非字节）进行操作，始终应该考虑使用rune类型。
for…range是遍历Unicode字符的推荐方式： 它能够正确处理UTF-8编码的多字节字符，每次迭代提供一个完整的Unicode码点。
string(rune)进行类型转换： 当从for…range获取到rune值后，若要显示或进一步处理为字符串形式的字符，务必使用string(r)进行类型转换。
索引的含义： for…range循环返回的第一个值是rune在原始字符串中的字节索引，而不是字符的逻辑索引。如果需要字符的逻辑索引，需要手动维护一个计数器。
处理无效UTF-8序列： 如果字符串中包含无效的UTF-8序列，for…range循环会将其识别为Unicode替换字符（0xFFFD），并继续前进一个字节。

通过掌握for…range循环和rune类型，开发者可以有效地在Go语言中处理字符串，确保对各种字符集（特别是多字节Unicode字符）的正确操作，避免因字节级操作而导致的乱码或逻辑错误。

ai ASCII for go Go语言 String string类切片字符串字节循环类型转换编码

text=ZqhQzanResources

理解go语言中的字符串与字符

常见的遍历误区

正确获取字符串字符值的方法

注意事项与总结

推荐文章