1.2 章节概览
本书对于当前隐私保护机器学习领域中用到的基本算法和主流实现方案进行了介绍,旨在服务于具有计算机专业相关背景并且想对隐私保护机器学习领域进行全面了解的读者。对于书中提到的算法和应用框架,本书给出了参考文献,以供有意于对其来源进行更加深入细致了解的读者参考。
本书共包括13个章节,第1章“引言”简要概述了隐私保护机器学习的背景和现状,强调了针对人工智能中隐私保护问题的法律规范;第2章“机器学习简介”阐述了当前机器学习算法的分类和主流算法的基本原理,包括线性模型、树模型和人工神经网络和图神经网络等;第3章“安全计算技术原理”中我们重点介绍了当前主流安全计算技术原理,包括不经意传输、混淆电路、秘密分享、同态加密、可信执行环境和差分隐私等方法,它们构成了隐私保护机器学习算法的基石。
在第4章“场景定义”中,我们给出了基于数据切分和安全模型划分的不同隐私保护机器学习场景。其中包括了基于数据切分的数据水平切分和数据垂直切分的两种场景,以及基于安全模型划分的半诚实模型和恶意模型的两种安全模型。另外,我们还给出了几种不同的多方联合计算模式。在这一章中我们还给出了从攻击后果和防御强度两方面评估的计算协议或可信执行环境的安全等级。在第5章“隐私求交”中,我们介绍了隐私求交的概念、应用及基于密码学实现的技术方案,它主要解决的是多方集合求交集,但只泄露最终交集结果而不泄露各方集合中的非交集元素这一经典问题。
在第6章“MPC计算框架”中,我们对安全多方计算框架进行了重点分析,在这一部分,我们首先介绍了一般安全多方计算框架自底向上的层级和架构,然后介绍了当前流行的安全多方计算框架,如Sharemind、ABY、SPDZ、BMR等框架的主要功能及基本运行原理。在第7章“线性模型”中,我们以逻辑回归模型为例,介绍了在多方联合计算的场景下建立保护隐私的线性模型的两种方案,分别是基于秘密分享的方案及基于秘密分享和同态加密混合协议(HESS)的方案。接下来,在第8章“共享树模型”中我们介绍了安全树模型的相关内容,这其中包含传统的基于MPC的决策树算法原理、Secure Boost算法和蚂蚁金服自研的可证安全HESS-XGB。在第9章“共享神经网络”中,我们介绍了联邦学习、拆分学习、基于密码学方法的神经网络和服务器辅助的隐私保护机器学习这几种隐私保护共享神经网络实现方法。
在第10章“推荐系统”中,我们从实用的角度出发,首先介绍了不考虑隐私保护的常见推荐算法,然后以隐私保护矩阵分解、隐私保护因子分解机和SeSoRec为例,详细介绍了隐私保护推荐算法。在第11章“基于TEE的机器学习系统”中,我们介绍了可信执行环境Intel SGX的相关特性和开发方法,并对实际应用中SGX的集群化和侧信道加固方法进行了阐述;在第12章“安全多方计算编译优化方法”中,我们介绍了安全多方计算编译器的现状及主要的编译优化方案。
最后,我们在第13章“总结与展望”中对本书内容进行了总结,并且从技术和社会两个层面阐述了隐私保护机器学习的挑战与展望。