OpenAI开源隐私过滤模型,精准脱敏文本中的个人信息

OpenAI开源隐私过滤模型,精准脱敏文本中的个人信息

近日,OpenAI发布了一款名为Privacy Filter的新模型,旨在帮助开发者有效脱敏文本中的个人身份信息。该模型参数规模达1.5亿,采用混合专家设计,并以Apache 2.0协议在Hugging Face和GitHub平台开源,支持开发者自由下载、定制及商业使用。

Privacy Filter的核心优势在于其深度语言理解能力,能够通过上下文识别非结构化文本中的敏感信息。与传统基于规则的隐私过滤工具不同,该模型可以准确保留公开信息,同时仅对与特定个体相关的敏感数据进行遮盖或脱敏,从而帮助开发者在训练管线、索引流程、日志记录和审核环节中构建更强大的隐私保护机制。该模型支持高达12.8万个Token的上下文窗口,并通过受限维特比算法解码出连贯片段。在PII-Masking-300k基准测试中,Privacy Filter的F1分数达到96%,经修正标注问题后进一步提升至97.43%,展现了其识别个人敏感信息的高效性。

不过OpenAI明确表示,Privacy Filter并非匿名化工具,也无法替代合规认证。在法律、医疗和金融等高敏感性场景中,人工审核及领域特定的评估与微调仍然必不可少。此外,该模型设计为可在本地设备上运行,用户在使用AI工具时无需担心个人信息泄露。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/751271.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论