bet9刷水
2020年7月27日

bet9刷水脸书开发用于预防隐私外泄的AI数据分类系统

作者 逍遥子

bet9刷水与传统的数据外泄防护方法相比,脸书的新系统更具可扩展性,应用机器学习技术能灵活地侦测新数据类型bet9刷水

脸书结合多种数据讯号、可扩展的系统基础架构,bet9刷水以及机器学习技术,建构了一个数据分类系统,以侦测语义类型,脸书提到,这对于以多种格式储存数据的组织特别重要,先以分类系统分类数据,后续才能让组织得以执行像是访问控制政策等,自动化隐私与安全相关的政策。

传统的数据外泄防护(Data Loss Prevention,DLP)系统,是利用数据指纹进行辨识,透过监控端点以侦测与指纹相符的数据,但脸书表示,这种方法对于拥有大量且不断变化数据资产的组织来说,不只难以扩展,而且也无法有效率的探索数据的所在。而脸书的新系统,强调采用可缩放的基础架构,以多种讯号以及机器学习技术,透过持续训练模型来解决这个问题,且可扩展应用到持久性与非持久性用户数据,处理各种数据类型和格式。

脸书提到,数据通常以两种形式进入组织,因此需要使用两种不同的策略,来侦测和分类这些数据。对于脱机储存的持久性数据,系统必须了解数据资产的范围,该系统会在不使客户端和其他资源过载的情况下,收集每个数据储存的元数据,并且建立成目录,使得数据检索更有效率。该系统会根据目录中需要扫描的资产,个别启动工作程序对数据资产进行实际的bet9刷水扫描。

 

每个工作程序都是已编译的二进制文件,并对可用的新数据进行采样,这些数据会被分成几列,并以列为单位截取特征,预测服务会根据这些特征,启用基于规则的机器学习分类,预测每列数据的卷标,所有下游程序都能够从数据集读取这些预测结果,也可以从实时数据目录API读取预测结果。

而在线的非持久性数据,也需要受到保护,因此系统提供了一个在线API,可对非持久性流量产生实时的分类预测,该实时预测系统可对流出的流量、流入机器学习模型的流量,以及任何的实时数据进行分类。另外,脸书也设计了特别的机器学习系统,来处理非结构化数据分类。

脸书提到,企业通常需要制定一套明确的隐私政策,以保护人们的个人资料隐私,因此企业需要了解哪些元数据与特定讯息相关联,以加快政策执行并且减少错误发生。脸书的新系统为自家数十个来源的数据资产,进行数据类型分类,以确保隐私与安全政策的执行,而且比传统数据外泄防护服务更灵活,能够简单增加对其他数据类型的侦测支持,并在有限的内存使用下,bet9刷水进行低延迟分类。