变量与数据的交互方式 – 移动
Rust 中的多个变量可以采用一种比较独特的方式和同一个数据进行交互,如下代码所示,将变量
x
的值赋给
y
:
fn main() {
let x = 1;
let y = x;
}
我们大概可以推论出上述代码的原理:将
1
这个整数绑定给
x
变量,
let y = x
相当于创建了一个
x
的副本,并且将这个副本绑定给了
y
。现在有了两个变量,
x
和
y
,都等于
1
。这也正是事实上发生了的,因为整数是有已知固定大小的简单值,所以这两个
1
被放入了栈中。
上面是已知固定大小的简单例子,现在看一下复杂的例子就是
String
。
fn main() {
let str1 = String::from("hello");
let str2 = str1;
}
复制代码
上述代码看起来和整数的例子非常相似,所以我们可能会假设他们的运行方式也是类似的:也就是说,第二行可能会生成一个
str1
的副本并绑定到
str2
上。不过,事实上并不完全是这样。
首先我们需要知道
String
底层是什么样的,
String
在内存中由三部分组成,如下如所示,是将值
hello
绑定给
str1
的
String
在内存中的表现形式。一个指向存放字符串内容内存的指针,一个长度,和一个容量。这一组数据存储在栈上。右侧则是堆上存放内容的内存部分。
图1
长度表示
String
的内容当前使用了多少字节的内存。容量是
String
从操作系统总共获取了多少字节的内存。长度与容量的区别是很重要的,不过在当前上下文中并不重要,所以现在可以忽略容量。
当我们将
str1
赋值给
str2
,
String
的数据被复制了,这意味着我们从栈上拷贝了它的指针、长度和容量。我们并没有复制指针指向的堆上数据。换句话说,内存中数据的表现如下图所示。
图2
这个表现形式看起来
并不像
下图 中的那样,如果 Rust 也拷贝了堆上的数据,那么内存看起来就是这样的。如果 Rust 这么做了,那么操作
str2 = str1
在堆上数据比较大的时候会对运行时性能造成非常大的影响。
图3
之前我们提到过当变量离开作用域后,Rust 自动调用
drop
函数并清理变量的堆内存。不过图 2 展示了两个数据指针指向了同一位置。这就有了一个问题:当
str2
和
str1
离开作用域,他们都会尝试释放相同的内存。这是一个叫做
二次释放
(
double free
)的错误,也是之前提到过的内存安全性 bug 之一。两次释放(相同)内存会导致内存污染,它可能会导致潜在的安全漏洞。
为了确保内存安全,这种场景下 Rust 有另一个
独到
的处理。与其尝试拷贝被分配的内存,Rust 则认为
str1
不再有效,因此 Rust 不需要在
str1
离开作用域后清理任何东西。看看在
str2
被创建之后尝试使用
str1
会发生什么:
fn main() {
let s1 = String::from("hello");
let s2 = s1;
println!("{}, world!", s1);
}
运行
cargo run
就会报错,因为Rust禁止使用无效的引用:
error[E0382]: use of moved value: `s1`
--> src/main.rs:5:28
|
3 | let s2 = s1;
| -- value moved here
4 |
5 | println!("{}, world!", s1);
| ^^ value used here after move
|
= note: move occurs because `s1` has type `std::string::String`, which does
not implement the `Copy` trait
如果你在其他语言中听说过术语
浅拷贝
(
shallow copy
)和
深拷贝
(
deep copy
),那么拷贝指针、长度和容量而不拷贝数据可能听起来像浅拷贝。不过因为 Rust 同时使第一个变量无效了,这个操作被称为
移动
(
move
),而不是浅拷贝。上面的例子可以解读为
s1
被
移动
到了
s2
中。那么具体发生了什么,如下图 所示。
这就解决了二次释放的错误,因为只有
s2
是有效的,当其离开作用域,它就释放自己的内存,完毕。
另外,这里还隐含了一个设计选择:Rust 永远也不会自动创建数据的 “深拷贝”。因此,任何
自动
的复制可以被认为对运行时性能影响较小。