为甩掉C语言，美国政府企业再想新招：研发AI工具，一键将旧的C代码转为Rust

4lqedz · 发表于 2024-8-17 15:49:31

| CSDN（ID：CSDNnews）

当呼吁起不到实质的效果时，美国政府公司又想出一个加强内存安全编程语言运用率的新办法。

近期，有不少人发掘，美国国防高级科研计划局（DARPA）正在起步一项帮助计划，即推动一款程序代码转换工具 TRACTOR（全叫作为 Translating All C to Rust）的研发，旨在借助 AI 大模型技术独立地将传统的 C 和 C++ 代码直接转换为可用的 Rust 代码。

同期，DARPA最后期盼这款 AI 工具达到的水平能够与经验丰富的Rust程序员带来的结果相当，实现“一劳永逸地消除内存安全漏洞”。

呼吁研发者放弃 C、C++ 的公司们！

毋庸置疑，将 C、C++ 和 Rust 这几种语言摆在一块，DARPA 必然要说到内存安全问题。

在公告中，DARPA指出，内存安全漏洞是已披露的软件漏洞中最平常的类型，重点经过两种方式影响计算机内存：

首要，C 语言等编程语言准许程序员直接操作内存，因此呢很容易在程序中意外引入错误，使看似常规的操作破坏内存状态。其次，当咱们在编写代码时，有时候会遇到一种叫做“未定义行径”的状况。便是说，编程语言的规则（或标准）无知道说明在某些特定状况下程序该怎么运行。因此，倘若咱们写的代码触发了这些不知道的状况，程序可能会以一种咱们意想不到的方式运行，乃至可能引起内存安全问题（例如程序崩溃或产生错误结果）。

正因此呢，过去几年间，美国各大组织的呼吁动作持续，如咱们此前报告的：

2022 年 11 月，美国国家安全局（NSA）发布了关于守护软件研发者和运营商免受内存安全问题影响的指南，列举了微软在2006 年到 2018 年时期，发掘的 70%的漏洞都是因内存安全问题导致的；GoogleChrome 中存在了类似比例的内存安全漏洞...鼓励多个组织将编程语言从 C/C++转为运用内存安全的语言，如 C#、Rust、Go、Java、Ruby 和 Swift，叫作这般能够帮忙软件研发者和运用者预防并缓解软件内存安全问题；彼时，微软 Azure CTO MarkRussinovich 亦呼吁，「是时候停止运用 C/C++ 起步任何新项目」。 2023 年 12 月，美国网络安全和基本设备局 (CISA)亦起始联合 NSA、美国联邦调查局 (FBI) 以及澳大利亚、加拿大、英国和新西兰的网络安全公司发布了一份 23 页的《内存安全路线图指南》，直接点名C 和 C++ 是内存不安全的语言表率，软件研发商应该放弃运用，从而快速采用 Rust、C#、Go、Java、Python 和 Swift 等其他内存安全编程语言 (MSL)。 2024 年 2 月，美国白宫国家网络专家办公室(ONCD)在一份主题为《回到基本构件：通往安全软件之路》的 19 页 PDF 报告中再次剧烈呼吁道，“C、C++ 不安全，新应用研发时就别用了，旧应用应该采取迁移行动”。 2024 年 7 月，美国网络安所有门（CISA）联合美国联邦调查局（FBI）、澳大利亚信号局（ASD）、澳大利亚网络安全中心（ACSC）和加拿大网络安全中心（CCCS）共五大公司发布了一份 22 页的调查报告——《探索关键开源项目中的内存安全》，发掘 172 个项目中有 52% 是运用 C、C++ 和其他所说“内存不安全”的语言编写的，期盼诱发众人的注重。

在连番呼吁之下，内存安全问题确实导致了必定的注重。为此，有些组织亦起始了行动，如：

互联网安全科研小组的 Prossimo 项目与 weedegolf 合作，用 Rust 重写 Network Time Protocol (NTP) ，以供给内存安全的 NTP。早些时候，苹果机构修改了用于构建 iBoot 引导载入程序的 C 编译器工具链，以减少内存和类型安全问题。有信息叫作，微软已然用 3.6 万行 Rust 代码改写了Windows 内核； 2022 年 12 月，Linux 内核 6.1 发布，包括了初始 Rust 支持...

然而，摆在现实中的问题是，即使当代研发者深谙要在编写程序的时候尽可能地运用内存安全的语言，亦做了如上所述的有些尝试，但要晓得 C 语言诞生于 20 世纪 70 年代，发展迄今已然五十数年的历史，早已变得无处不在，无论是现代智能手机，还是太空飞行器等各样应用程序，都有它的身影。

就连 DARPA 亦坦言，美国国防部的长寿命系统对 C 语言等编程语言的依赖程度更高。

手动地一行一行改写代码，也或正确遵守 ISO 标准并认真应用测试工具就能够避免安全漏洞，显然有些不太现实。

DARPA 亦得出了一个结论：经过二十多年对 C 和 C++ 内存安全问题的奋斗，软件工程社区已达成共识，仅仅依靠错误查询工具是不足的。

迁移是巨大的问题

然而此前，美国政府公司在发出呼吁的同期亦指出，向 MSL（内存安全语言）过渡将触及重大投资和高管关注，另外任何此类过渡都必须数年的精心规划。

因此呢，虽然内存安全编程语言能够消除内存安全漏洞已经不是什么奥密，但面临的挑战始终是怎样大规模重写传统代码，以应对庞大的问题。想要弃用，不谈迁移代码带来的技术难度问题，仅是外在的人力、财力、精力成本都大到难以想象。

时下，始于大型语言模型 (LLM) 等设备学习技术的最新突破，DARPA 暗示这创造了一种新处理方法的环境，即“经过大规模自动化，将世界上高度脆弱的遗留 C 代码自动转换成本质上更安全的 Rust 编程语言。”

“你能够拜访任何 LLM 网站，起始与其中一个 AI 聊天设备人聊天，你只必须说‘这是有些 C 代码，请将其转换成安全的 Rust 代码’，而后剪切、粘贴，就会显现有些结果，况且一般效果很好。”DARPA TRACTOR 项目经理 Dan Wallach 博士说。

不外，这是理想状态下的状况，Dan Wallach 暗示，“但现实并非总是如此，科研挑战在于大幅改进从 C 到 Rust 的自动转换，尤其是针对最关联的程序结构。”

TRACTOR 的目的不仅是实现代码转换的自动化，况且要实现熟悉研发人员手动编写 Rust 代码的高质量和风格。

经过这般做，该计划旨在消除 C 程序中固有的内存安全漏洞。除了利用软件分析办法（包含静态和动态分析）外，TRACTOR 还将采用 LLM 支持的处理方法并举办公开竞赛来展示和测试这些创新。

Wallach 暗示，“Rust 迫使程序员把事情做好，处理它强制执行的所有规则可能会让人感到捆绑，但当你适应它们时，这些规则会给你自由。它们就像护栏；一旦你认识到它们是用来守护你的，你就会自由地专注于更重要的事情。”

当前，DARPA 已然公研发布了这一计划，亦期盼有更加多的参赛者参与进来提交关于 LLM 支持的处理方法。DARPA 将于 2024 年 8 月 26 日举办一场活动，针对计划为 TRACTOR 项目提交提案的人。这个活动能够亲自参加，亦能够远程参加。不外，想要参加这个活动的人必要在 8 月 19 日之前进行注册（https://sam.gov/opp/1e45d648886b4e9ca91890285af77eb7/view）。

AI 能一键实现 C、C++ 代码转换成 Rust 代码吗？

从内存安全出发，借助 AI 大模型的潜能，实现区别的语言代码一键转换，确实是一个不错的想法。

据外媒 The Register 报告，Prossimo 项目执行董事 Josh Aas 对此认为，“当今互联网基本设备中运行的海量 C 代码使得运用翻译工具变得特别有吸引力。咱们已然对此进行了尝试，例如咱们近期将基于 C 语言的 AV1 实现转换为 Rust。虽然日前的工具还必须不少手动调节才可让结果正确并符合惯用法，但咱们相信，经过进一步投资，这些工具将会变得更加有效。”

理想状况下，只要用自然语言告诉 AI 将 C、C++ 遗留代码转为 Rust 代码，它确实会帮忙转换，然则这般生成的结果是不是能够直接运用？咱们距离 TRACTOR 项目作为现实又还有多远？

正在负责 TRACTOR 项目的工作 Wallach 坦言，该项目的目的是实现高度自动化，但这必须克服有些棘手的技术挑战。

“其中一个挑战是，当你让大型语言模型（LLMs）转换代码时，它们有时能给出出乎意料的好答案，但亦可能会产生错误的答案。另一个挑战是 C 语言准许代码对指针进行操作，包含算术运算，而 Rust 禁止这些操作。要弥合这一差距，不仅是把 C 语言直接转换成 Rust 这么简单。”

针对这一计划，研发者的看法不一。

网友 mike_heran 认为：

这听起来......很难。尤其是编写 Rust 与 C 语言的习惯完全区别，况且大都数有趣的代码都是用 C++ 编写的。这不就等同于咱们必须在静态分析中确定所有C程序中内存分配的生命周期，包含运用自定义分配器实现的分配，或与专有库交互的分配？数年来，尽管人们对这个问题进行了海量科研，但并无取得明显成果。C/C++程序能够做有些事情，例如将内存分配的生命周期与用户点击的按钮相关，而不是运用引用计数或其他机制来保证安全。虽然这不是一个好的做法，但它们确实能够这么做。编写这种静态分析工具的另一个明显问题是，你所分析的程序本身可能是有漏洞的，生命周期分析可能无道理（倘若生命周期知道，就不会有内存安全漏洞，亦就不必须替换）。我见过的关于静态检测生命周期问题的唯一科研，假定被分析的代码从一起始便是正确的。不外，你能够尝试研发一种程序，它能够检测出没法计算生命周期的地区，并向研发人员寻求帮忙。

另一位研发者 blonk 暗示：

「我个人并不认为这个项目有什么问题。问题更加多在于“代码库有多大”以及“这真的是资源的最佳利用方式吗？”我敢打赌，她们之因此想运用 LLM，是由于她们要移植的代码量很大，因此她们想把这个过程自动化。倘若是代码库庞大，那样我不确定运用 LLM 来加快进程是不是是个好主意。

但这只是我的猜测。亦有可能是这些项目历史上存在海量内存安全问题，而 Rust 能够捉捕到这些问题，在这种状况下，运用 LLM（有可能）是值得的。不管怎么样，我相信几年后咱们会晓得更加多关于这个项目是成功还是劫难的信息。」

还有用户 Rich 2 提出质疑：

“倘若你能研发出将 C 代码转换为 Rust 的工具，那样倘若 C 代码确实包括内存错误，将会出现两种状况之一：

(a)工具会将这些错误一并转换到 Rust 中，但由于 Rust 的语言特性，理论上不该该出现这种状况，由于 Rust 不支持引起这些错误的结构。

(b) 工具会在转换过程中发掘并报告这些错误。

倘若是(a)，即工具只会复制错误，那转换并无任何道理；倘若是(b)，即工具会发掘并报告错误，那样为何不直接修复 C 代码中的错误，而要冒险重写它呢？”

对此，你怎么看？

参考：

https://www.darpa.mil/news-events/2024-07-31a

https://news.ycombinator.com/item?id=41110269

https://www.theregister.com/2024/08/03/darpa_c_to_rust/

声明：本文版权归原作者及原出处所有，内容为作者观点，并不表率本公众号赞同其观点及对其真实性负责。如触及版权等问题，请即时与咱们联系，咱们立即更正或删除关联内容。本公众号持有对此声明的最后解释权。返回外链论坛：www.fok120.com，查看更加多

责任编辑：网友投稿

流星的美 · 发表于 2024-8-23 03:46:06

哈哈、笑死我了、太搞笑了吧等。

		自动登录	找回密码
密码			立即注册