谷歌开源 AI 文件检测工具 Magika 1.0 发布：全面迁移至 Rust

Android • 2025年11月7日 17:07:00 • AI

11月7日，当地时间周四，谷歌宣布推出 Magika 1.0，这是该公司基于人工智能的文件类型检测系统的首个稳定版本，采用 Rust 语言进行重构以提升速度和内存安全性。据谷歌介绍，自去年初开放源代码以来，Magika 已被广泛应用于开源社区，每月下载量超过 100 万次。此次更新带来了全新的架构、性能提升以及对更多文件类型的支持。

如前所述，Magika 1.0 最大的变化就在于其核心引擎已完全采用 Rust 重写，以实现更高的性能和内存安全性。另外，新版 Magika 还提供原生的 Rust 命令行工具，可在单核下每秒识别数百个文件，并能在多核 CPU 上扩展至每秒数千个。

据介绍，该系统使用 ONNX Runtime 进行模型推理，并借助 Tokio 框架实现异步并行处理。谷歌公布的测试数据显示，在 MacBook Pro（M4）上，Magika 每秒可处理约 1,000 个文件。在文件类型支持方面，Magika 1.0 的检测能力扩展至 200 多种文件格式，是初始版本的两倍。此次新增类别包括：

数据科学与机器学习：支持 Jupyter Notebooks（ipynb）、Numpy（npy, npz）、PyTorch（pytorch）、ONNX（onnx）、Apache Parquet（parquet）及 HDF5（h5）等文件；

现代编程与网页开发：新增 Swift、Kotlin、TypeScript、Dart、Solidity、WebAssembly（wasm）及 Zig；

DevOps 与配置文件：支持 Dockerfile、TOML、HashiCorp HCL、Bazel 构建文件及 YARA 规则等；

数据库与图形格式：新增 SQLite、AutoCAD（dwg, dxf）、Photoshop（psd）以及现代网页字体（woff, woff2）等。

Magika 1.0 还提升了区分相似格式的能力，例如可分别识别 JSONL 与 JSON、TSV 与 CSV、Apple 二进制 plist 与 XML plist，以及区分 C 与 C++、JavaScript 与 TypeScript 等语言文件。

在技术实现上，团队面临两大挑战：训练数据规模庞大与部分文件类型样本稀缺。未压缩的数据集超过 3TB，为此谷歌采用自研的 SedPack 数据集库，通过流式加载与解压技术实现高效训练。同时，针对样本不足的文件类型，研究团队使用生成式 AI 工具 Gemini 创建高质量的合成训练数据，将现有代码和结构化文件转换为其他格式，以增强模型的泛化能力。

新版 Magika 还同步更新了 Python 与 TypeScript 模块，简化了开发者在各语言中的集成过程。用户可通过简单命令在 Linux、macOS 或 Windows 上安装原生客户端，也可通过 pipx install magika 安装 Python 包使用 Rust 版命令行工具。谷歌表示，Magika 的未来发展将持续聚焦于性能优化与文件类型扩展。团队鼓励开发者社区参与贡献，包括测试、功能请求及代码提交。

原创文章，作者：Android，如若转载，请注明出处：https://www.kejixun.co/article/738052.html

Android认证作者

0 0

新闻

谷歌推送Android 17正式版深度集成AI模型迎战苹果

谷歌于当地时间周二正式推送了Android 17正式版，同时发布智能手表操作系统Wear OS 7，新版系统率先搭载于Pixel系列设备并同步上线专属功能更新包，新增对音乐生成模型…

Android
12小时前
新闻

谷歌CEO皮查伊斯坦福毕业演讲避谈AI，鼓励毕业生“选择乐观”

当地时间周日，谷歌首席执行官桑达尔·皮查伊在斯坦福大学毕业典礼上发表演讲。与近期其他科技领袖的毕业致辞不同，皮查伊对人工智能几乎只字未提，而是转而鼓励毕业生“选择乐观”。这一回避…

Google
2天前
新闻

Android安全负责人辞职，控诉谷歌“丧失道德底线”

据Business Insider周四报道，谷歌Android平台安全负责人、高级工程师René Mayrhofer已从公司离职。他在一封落款5月18日的内部告别信中直言，谷歌管理…

Android
3天前
产品

谷歌推出DiffusionGemma：本地AI推理速度提升4倍，开源文本扩散模型

谷歌今日发布公告，宣布推出DiffusionGemma——一款基于文本扩散机制的开放AI模型。与当前主流的自回归大语言模型（如GPT、Gemini）逐个生成token的方式不同，扩…

Google
6天前
AI

谷歌AI Plus订阅大幅降价：月费降至4.99美元，云存储翻倍至400GB

近日，谷歌对其Google AI Plus订阅服务进行了重大调整，通过直接降低门槛和提升配置，进一步增强了该服务的市场竞争力。根据最新方案，订阅价格从原来的每月7.99美元下调至4…

柠萌
2026年6月10日
AI

谷歌NotebookLM重大升级：内置代码运行与图表生成，向AI研究助理进化

6月9日，谷歌正式为旗下AI研究与笔记工具NotebookLM推送重大升级。该工具底层模型已原生切换至Gemini 3.5，并深度接入智能体Antigravity，标志着Noteb…

Google
2026年6月10日
AI

谷歌 Gemini 语音助理曝漏洞，黑客利用特殊构造通知信息为 AI“下毒”

6月8日，安全公司 SafeBreach 披露，谷歌 Gemini 存在一种新型安全漏洞。黑客可通过 WhatsApp、短信等渠道发送特殊构造的通知信息，并将恶意指令隐藏在其他语言…

happy
2026年6月8日
新闻

谷歌云服务部门再掀裁员潮，安全团队也未能幸免

据媒体援引知情人士消息，谷歌在过去两周内对其云服务部门进行了新一轮裁员，波及多个团队，其中包括负责追踪全球黑客活动和分析网络攻击事件的GTIG威胁情报小组。消息人士称，该小组已于周…

Google
2026年6月5日
AI

谷歌发布最强开放模型Gemma4，端侧部署实现重大突破

Google DeepMind日前正式发布了有史以来最强大的开放模型Gemma4。虽然该模型参数规模维持在约300亿左右，但“单位参数的智能密度”实现大幅飞跃，在多项核心任务上的性…

net
2026年6月4日
AI

谷歌推出AI应用Dreambeans：整合个人数据生成生活灵感

谷歌实验产品团队Google Labs近日发布了一款名为Dreambeans（梦豆）的人工智能应用，同时登陆苹果iOS与安卓平台。该应用能够调取用户各项谷歌服务中的数据，由AI配图…

Google
2026年6月4日
新闻

谷歌扩大 Quick Share 与 AirDrop 互传适配范围，覆盖更多安卓机型

6月3日，谷歌宣布，可让安卓与苹果手机用户通过隔空投送（AirDrop）互传文件的“快速共享（Quick Share）”功能，现已适配更多设备。以下安卓机型现已支持 Quick …

Google
2026年6月3日
AI

谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题

5月27日，谷歌 DeepMind 最新推出 AlphaProof Nexus，结合大语言模型（LLM）生成证明与 Lean 形式化验证，在 353 个开放的 Erdős 问题中自…

Google
2026年5月27日
新闻

欧盟拟对谷歌处以近10亿欧元罚款，创DMA罚单纪录

据路透社援引德国《商报》报道，欧盟委员会正计划在一项反垄断调查中对谷歌处以接近10亿欧元（约合79.11亿元人民币）的罚款。这将是欧盟自《数字市场法案》生效以来开出的最大罚单，预计…

Google
2026年5月26日
新闻

新加坡与谷歌和OpenAI签署AI合作协议加速区域枢纽建设

新加坡近期与全球知名科技公司谷歌和OpenAI签署了重要的人工智能合作协议，旨在提升该国在全球AI领域的地位，并加速在公共服务、医疗、教育及企业等领域的应用。这一系列合作协议是在新…

泡沫大盗
2026年5月21日
AI

YouTube发布AI进化蓝图：对话式搜索与Deepfake防护全面升级

在2026年谷歌I/O开发者大会上，YouTube对外展示了一套深度集成的AI进化方案。面对生成式AI浪潮，YouTube并未选择激进的“AI原生内容”替代路径，而是通过将Gemi…

AI
2026年5月21日
AI

谷歌街景结合Genie：用真实场景生成可互动3D世界

在今日的2026谷歌I/O开发者大会上，谷歌宣布将谷歌街景（Street View）服务与Project Genie的世界生成能力相结合，进一步扩展这套通用世界模型的能力。 Gen…

好奇宝宝
2026年5月20日
AI

谷歌发布Gemini Spark个人智能体：一句话让AI干多份活

在今日举行的2026谷歌I/O开发者大会上，谷歌正式发布了Gemini Spark个人AI智能体。这款智能体能够听从用户一句话指令，同时处理多项任务，并且24小时实时在线。它运行在…

AI
2026年5月20日
AI

谷歌发布Gemini 3.5 Flash：输出速度4倍于GPT-5.5

在今日举行的2026谷歌I/O开发者大会上，谷歌CEO桑达尔·皮查伊（Sundar Pichai）正式宣布推出Gemini 3.5 Flash模型。该模型在许多基准测试中的表现均优…

小丸子
2026年5月20日
AI

谷歌发布全能模型Gemini Omni：一句话就能让AI修改视频

在今日开幕的2026谷歌I/O开发者大会上，谷歌正式推出了Gemini Omni全能模型。Google DeepMind负责人、诺贝尔奖得主哈萨比斯（Demis Hassabis）…

Google
2026年5月20日
AI

谷歌Gemini神秘智能体Spark曝光：可清理邮件、控制浏览器

本周早些时候，谷歌公布了Gemini即将上线的新界面与自动化功能。而最新泄露信息显示，Gemini还将迎来一次真正接近“智能体”方向的重要升级——一个名为“Spark”的始终在线助…

Google
2026年5月16日

发表回复

登录后才能评论

谷歌开源 AI 文件检测工具 Magika 1.0 发布：全面迁移至 Rust

相关推荐

发表回复