Rust中unsafe代码的安全使用准则：从编译器契约到工程实践-rust-CSS教程网

Rust中unsafe代码的安全使用准则：从编译器契约到工程实践

引言

Rust的核心价值主张是"内存安全"——在编译期消除悬垂指针、数据竞争和缓冲区溢出。然而，为了实现系统级编程所需的底层控制，Rust提供了一个"后门"：unsafe关键字。许多开发者将unsafe误解为"关闭借用检查器"或"切换到C模式"，这是一种危险的误解。unsafe并非关闭安全检查，而是向编译器声明：“作为开发者，我将承担100%的责任来维护Rust的内存安全不变性，因为编译器无法再验证这一小块代码。”

unsafe代码是构建安全Rust生态的基石（例如Vec、String、Mutex的内部实现），但使用它需要极度的严谨和深刻的理解。本文将面向高级开发者，系统性地剖析unsafe代码的安全使用准则，从编译器契约深入到工程实践。

`unsafe`的五项"超能力"与编译器的契约

unsafe关键字并不改变Rust的语义，它仅仅解锁了五种编译器无法在编译期验证的操作：

解引用裸指针（*const T / *mut T）
调用unsafe函数或方法（包括FFI）
访问或修改可变的静态变量（static mut）
实现unsafe Trait
访问union的字段（赋值除外）

当你写下unsafe块时，你就与编译器签订了一份契约。这份契约的核心内容是：无论unsafe块内部做什么，其对外暴露的接口必须100%安全，且绝不能导致未定义行为（Undefined Behavior, UB）。

准则一：最小化与封装——构建安全抽象

unsafe的第一准则是将其影响范围限制到最小。unsafe块应该尽可能小，其唯一目的应该是构建一个100%安全的上层抽象。

永远不要在业务逻辑中随意使用unsafe。unsafe应该被封装在库的核心数据结构或底层交互模块中，对外暴露一个完全安全的API。

// 示例1：封装`unsafe`以实现安全的Vec
pub struct MyVec<T> {
    ptr: *mut T,
    len: usize,
    capacity: usize,
}

impl<T> MyVec<T> {
    pub fn new() -> Self {
        MyVec {
            ptr: std::ptr::null_mut(),
            len: 0,
            capacity: 0,
        }
    }
    
    // push是一个100%安全的API
    pub fn push(&mut self, item: T) {
        if self.len == self.capacity {
            self.resize(); // 调整容量的逻辑（内部可能unsafe）
        }
        
        // `unsafe`块被严格限制在最小范围
        unsafe {
            // 在这里，开发者向编译器保证ptr + len是有效的
            let end = self.ptr.add(self.len);
            std::ptr::write(end, item);
            self.len += 1;
        }
    }
    
    // ... resize, pop, drop等实现
}

在这个例子中，MyVec::push方法对用户是完全安全的。unsafe块被隔离在内部，用于执行裸指针写操作，而push方法的逻辑（如容量检查）确保了unsafe操作的有效性。

准则二：`# Safety`注释——与未来的自己签订契约

如果说unsafe是与编译器的契约，那么# Safety注释就是这份契约的条款说明。任何unsafe块都必须伴随一个# Safety注释，解释为什么这段代码是安全的。这不是建议，而是工程上的硬性要求。

一个合格的# Safety注释必须说明：

代码在做什么？（例如：解引用裸指针）
为什么这是安全的？（即，你依赖哪些不变性（Invariants）来保证操作合法）

// 示例2：为`MyVec::push`添加`# Safety`注释
impl<T> MyVec<T> {
    pub fn push(&mut self, item: T) {
        if self.len == self.capacity {
            self.resize();
        }
        
        // # Safety
        // 1. `self.ptr`指向一个由`Vec`或`alloc`分配的、
        //    至少`self.capacity`个`T`大小的内存块。
        // 2. `self.resize()`方法保证了`self.capacity > self.len`。
        // 3. 因此，`self.ptr.add(self.len)`指向一块已分配且
        //    未初始化的有效内存，写入操作是安全的。
        // 4. `T`是有效类型，`std::ptr::write`不会引入UB。
        unsafe {
            let end = self.ptr.add(self.len);
            std::ptr::write(end, item);
            self.len += 1;
        }
    }
}

没有# Safety注释的unsafe代码是不可审查的，应在Code Review中被立即拒绝。

准则三：裸指针与生命周期——正确性的核心

unsafe编程中最困难的部分是正确处理裸指针和生命周期。裸指针（*const T / *mut T）是"无生命周期"的，这意味着编译器无法帮你检查它们是否悬垂。

1. 裸指针的有效性

解引用裸指针前，必须100%确保它满足：

非空
已对齐
指向一块已初始化（用于读取）或**已**（用于写入）的有效内存
在操作期间未被别名引用（特别是*mut T和&mut T）

2. `&mut`的排他性不变性

Rust安全代码的基石是&mut T的排他性。unsafe代码绝不能违反这一点。创建两个同时存在的&mut T指向同一数据，或者同时存在&mut T和&T，是立即的未定义行为（UB），无论你是否使用它们。

// 示例3：`unsafe`与`&mut`排他性
// ❌ 立即的未定义行为
fn split_at_mut_bad<T>(slice: &mut [T], mid: usize) -> (&mut [T], &mut [T]) {
    let len = slice.len();
    assert!(mid <= len);
    
    // 错误：创建了两个可变的、可能重叠的引用
    // 即使我们"知道"它们不重叠，`slice`的生命周期也被同时
    // 借用了两次，这是UB。
    unsafe {
        (&mut slice[..mid], &mut slice[mid..])
    }
}

// ✅ 正确的实现
fn split_at_mut_safe<T>(slice: &mut [T], mid: usize) -> (&mut [T], &mut [T]) {
    let len = slice.len();
    let ptr = slice.as_mut_ptr();
    assert!(mid <= len);
    
    // # Safety
    // 1. `slice`是一个有效的`&mut [T]`，`ptr`是有效的。
    // 2. `mid <= len`的断言确保了两个切片在原始切片的边界内。
    // 3. `std::slice::from_raw_parts_mut`是`unsafe`的，
    //    我们保证了`ptr`和`ptr.add(mid)`都是有效的，
    //    并且生成的两个切片[0..mid]和[mid..len]是互不重叠的。
    // 4. 原始的`slice`不再被使用，避免了别名问题。
    unsafe {
        (
            std::slice::from_raw_parts_mut(ptr, mid),
            std::slice::from_raw_parts_mut(ptr.add(mid), len - mid)
        )
    }
}

准则四：FFI与`static mut`——与外部世界交互

1. FFI（外部函数接口）

调用C函数是unsafe的，因为Rust编译器无法验证C代码的契约。

// 示例4：封装FFI调用
use std::ffi::{CStr, c_char};

// 声明外部C函数
extern "C" {
    fn strlen(s: *const c_char) -> usize;
}

// 提供一个安全的Rust封装
pub fn rust_strlen(s: &CStr) -> usize {
    // # Safety
    // 1. `CStr`类型保证了`s.as_ptr()`是一个指向
    //    以空字节结尾的有效C字符串的非空指针。
    // 2. `strlen`的契约是接收一个有效的C字符串指针，
    //    `s.as_ptr()`满足这个契约。
    // 3. `strlen`保证不会修改内存。
    unsafe {
        strlen(s.as_ptr())
    }
}

审查要点：

传递的指针是否满足C函数的（非空、有效性、所有权）要求？
C函数返回的指针，其生命周期和所有权如何管理？
C函数是否线程安全？

2. `static mut`的危害

访问static mut是unsafe的，因为它引入了全局可变状态，这是数据竞争的根源。

准则：永远不要使用static mut。

// 示例5：`static mut`的反模式
static mut COUNTER: u32 = 0;

fn increment() {
    // ❌ 极度危险：线程不安全
    // 即使在单线程中，也可能被重入
    unsafe {
        COUNTER += 1;
    }
}

// ✅ 正确的模式：使用安全的同步原语
use std::sync::atomic::{AtomicU32, Ordering};
use std::sync::OnceLock;

static COUNTER_SAFE: AtomicU32 = AtomicU32::new(0);

fn increment_safe() {
    COUNTER_SAFE.fetch_add(1, Ordering::SeqCst);
}

// 对于需要初始化的情况
static GLOBAL_DATA: OnceLock<Vec<i32>> = OnceLock::new();

Mutex、OnceLock、Atomic等类型提供了安全的内部可变性，它们内部使用了unsafe，但为我们提供了100%安全的API。99.9%的情况下，你需要的不是static mut，而是这些同步原语。

准则五：Miri与工具链——验证你的假设

unsafe代码最大的敌人是未定义行为（Undefined Behavior, UB）。UB不等于崩溃，它可能表现为"正常工作"，直到某次LLVM版本更新或代码重构导致优化器以意想不到的方式破坏你的程序。

Miri是Rust的官方MIR（中级中间表示）解释器，它能够在运行时检测到许多类型的UB，包括：

内存越界访问
使用未初始化的内存
违反别名规则（如&mut排他性）
违反内存对齐
内存泄漏（可选）

工程实践： - 任何包含`unsafe`的crate都必须在CI中运行`cargo miri test`

启用Clippy的pedantic lint集（cargo clippy -- -W clippy::pedantic），它包含大量针对unsafe的警告，如`clippy::undcumented_unsafe_blocks`

结语：`unsafe`的责任

unsafe是Rust赋予开发者的终极工具，它允许我们构建操作系统、嵌入式运行时和高性能库。但这种能力伴随着巨大的责任。安全使用unsafe的核心不在于技巧，而在于**严谨的思维不变性的敬畏**。

永远记住：unsafe代码的审查标准必须比安全代码高出一个数量级。你的目标不是"让它工作"，而是"证明它在所有情况下都无法出错"。

转载请说明出处内容投诉
CSS教程网 » Rust中unsafe代码的安全使用准则：从编译器契约到工程实践

也一样

分享到：

引言

unsafe的五项"超能力"与编译器的契约

准则一：最小化与封装——构建安全抽象

准则二：# Safety注释——与未来的自己签订契约

准则三：裸指针与生命周期——正确性的核心

1. 裸指针的有效性

2. &mut的排他性不变性

准则四：FFI与static mut——与外部世界交互

1. FFI（外部函数接口）

2. static mut的危害

准则五：Miri与工具链——验证你的假设

工程实践： - 任何包含unsafe的crate都必须在CI中运行cargo miri test

结语：unsafe的责任

也一样

发表评论

一个令你着迷的主题！