阿尔伯塔大学姜蓓教授应邀到统计学院讲学

编辑:时间:2022-01-07 16:12:33 浏览次数:

1月5日上午,应统计学院邀请,阿尔伯塔大学姜蓓教授为统计学院师生带来一场题为《Synthetic Data Generation: Balancing between Data Utility and Privacy Preservation》(综合数据生成:数据效用与隐私保护的平衡)的线上讲座。本次讲座由统计学院副院长刘小惠主持,统计学院部分教师和研究生参加。

讲座伊始,姜蓓教授简要介绍了研究背景。如今人们越来越期望政府资助研究所收集的数据应该公开可用,从而确保研究的可重复性,但同时这也增加了人们对数据隐私的担忧。Rubin(1993)曾提出使用多重插补(MI)合成数据集,但是该方法一方面会导致综合数据集的部分信息损失,另一方面综合数据集需从指定模型中生成,一旦模型设定错误,综合数据集的统计性质将丢失。在此基础上,姜蓓教授提出一个新的DA-MI方法,该方法在Rubin(1993)的基础上增加了数据增强步骤,使得其数据利用效率显著提高。并且,DA-MI方法引入了调节参数,使得使用者可以通过调节参数来控制X中多少信息被转移到伪变量W中,从而平衡统计推断质量和信息暴露风险。

随后,姜蓓教授将该方法应用于加拿大硬皮病研究小组(CSRG)的数据中,并将其与其他隐私保护方法进行了比较,发现经过DA-MI方法干扰后的数据与原数据所得统计结论最为接近,其产生的 95%的置信区间,与原数据构建的置信区间平均重叠率为98.5%。而其余方法的置信区间重叠率则仅有73.9%到91.9%。

讲座最后,姜蓓教授认为,以上这些研究发现表明DA-MI框架整合了集成噪声加法和基于MI的合成方法,在保留Rubin原始MI方法易用性的基础上,通过引入数据增强掩蔽(Masking)步骤来防止模型误设,并且产生完整的可用于公开发布的合成数据集,在保障数据效用的同时提供隐私保护。

此次姜蓓教授的精彩演讲,为平衡数据效用与隐私保护从而生成综合数据提供了借鉴,同时也为统计学院师生从事相关研究工作提供了有益示例。

【延伸阅读】

阿尔伯塔大学是加拿大最大的研究型大学之一,其研究氛围和研究条件在全加甚至北美享有盛誉。阿尔伯塔大学校友包含第16任加拿大总理,三位诺贝尔奖得主,75位罗德学者, 111位加拿大首席研究教授。其人工智能专业在全球居于领先地位,强化学习之父Rich Sutton以及Alpha Go的主要作者David Silver和Aja Huang均来自阿尔伯塔大学。

姜蓓,加拿大阿尔伯塔大学数学与统计科学系副教授、博士生导师。博士毕业于密歇根大学生物统计系。主要研究领域包括隐私数据分析、贝叶斯分层建模、多视图数据集成的联合建模等。相关研究成果被广泛应用于妇女健康、心理健康、神经学、生态学等领域。姜蓓教授已在JASA,JRSSC,NeurIPS等期刊及会议上发表三十余篇论文。

(图文/彭钰奇 编辑/刘梦楠 审核/林阳 陶春海)