PCIC(the Pacific Causal Inference Conference,泛太平洋因果推断大会)由北京大学讲席教授、北京大学公共卫生学院生物统计系系主任、北京大学北京国际数学研究中心生物统计和信息研究室主任周晓华等组织发起,由北京大学、国际生物统计学会中国分会等机构主办、华为诺亚方舟实验室、集智俱乐部等机构协办。
PCIC 是因果科学领域一年一度的盛会,盛会将于 9 月 17 日至 18 日线上举办。会议期间会议组委会,北京大学北京国际数学研究中心和华为诺亚方舟实验室今年继续组织了 PCIC 2022 华为因果推理挑战赛。本次大会吸引了海内外一大批因果科学相关领域的学术大拿汇聚一堂,共同探讨因果科学的新进展,探索新的科研方向,吸引了非常多优秀的科研工作者投身于该领域,推动了因果科学的研究进程。
此次竞赛分为两个赛道。赛道 1 的目标是设计一个针对时间序列数据的迁移学习解决方案。该任务来源于家庭宽带接入网络运维中的故障预测场景(网络具体架构如下图 1 所示),要求参赛者使用带有标签的源数据集(城市 A)以及少量带有标签的目标数据集(城市 B),针对目标城市 B 训练一个故障预测模型,由于相同类型的故障在不同的城市局点往往遵循相同的因果产生机制,我们鼓励参赛者从因果推断的视角解决该任务。赛道 2 是在电影推荐系统中预测用户偏好标签,其中每部电影都对应于数个标签 ; 不同于预测用户对电影评分的传统任务,本次竞赛是预测用户对特定标签的偏好,其主要挑战包括了数据的非随机缺失和大量偏差的存在,包括 User Selection Bias,Popularity Bias 等,另外数据中不可观测的 confounder 的存在也将引入更多非预期的偏差。
图 1:家庭宽带光接入网络架构图
图 2:因果推荐系统分析框架
竞赛的数据集为经过抽取脱敏的实际数据或者根据实际场景抽象出来的模拟数据。获奖团队获得现金奖励和证书,并邀请在 12 月初举办的竞赛主题 workshop 上做相应技术报告。
时间安排
2022 年 9 月 18 日 : 竞赛开放。
2022 年 9 月 27 日 : 北京时间晚上 11:59,初赛开始。
2022 年 10 月 25 日 : 北京时间晚上 11:59,报名和组队截止。
2022 年 10 月 27 日 : 初赛结束。
2022 年 10 月 29 日 : 公布排名。
2022 年 11 月 1 日 : 北京时间晚上 11:59,复赛开始。
2022 年 11 月 15 日 : 北京时间晚上 11:59,竞赛结束。
2022 年 11 月 22 日 : 宣布获胜进入决赛答辩队伍。
2022 年 12 月 3 日 : Competition Workshop,将邀请优胜团队在竞赛 workshop 上进行技术报告,并确定最终排名。
竞赛奖励
对于获胜者将给予现金奖励及证书。每个赛道的奖金总额均为:$5,000(USD),其中
第一名 : $ 2,000
第二名和第三名 : $ 1,000
第四名和第五名 : $ 500
基于因果的迁移学习赛道:
https://competition.huaweicloud.com/information/1000041792/introduction
预测用户电影标签偏好赛道:
https://competition.huaweicloud.com/information/1000041793/introduction
PCIC 2022 Huawei Causal Inference Competition
The goal of causal inference is to combine external knowledge and study design to draw a causal conclusion between variables. It has gained popularity in numerous fields, including statistics, biostatistics, biomedical science, computer science, economics, epidemiology, and various social sciences. To promote both research and application on real-world problems, Huawei Noah's Ark Lab and Peking University jointly organize this competition focusing on building a Causal-based transfer learning solution and predicting user preferences. The datasets used in the competition are either directly collected from or generated according to real-world scenarios.
The competition consists of two tracks. Track 1 focuses on building a transfer learning solution for time series data which originates from a real AIOps scenario named home broadband network failure prediction ( see figure 1 ) .In this competition, you are asked to build a transfer learning solution using a labeled source dataset ( city A ) plus a small labeled target dataset ( city B ) to train a failure prediction model for city B. We encourage participants design solutions from the causal sight due to the common fault in different cities generally follows the same causal generation mechanism. Track 2 focuses on the problem of predicting user preferences in movie recommendation systems, where each movie is typically associated with a descriptive tag. Different from predicting the ratings of specific user-movie pairs, you are asked to estimate user preferences for specific tags. Challenges include the data missing-not-at-random and the presence of many biases, such as user selection bias and popularity bias. In addition, the data suffers from unobserved confounders that will further lead to unexpected biases in the observational data.