人大师生获VLDB 2024最佳论文提名奖
8月29日,数据管理与数据库领域国际学术会议VLDB 2024公布了论文获奖名单,我院魏哲巍教授、张骁助理教授与复旦大学黄增峰教授、阿里巴巴集团李飞飞博士合作的论文“Optimal Matrix Sketching over Sliding Windows”获得了最佳论文提名奖(Best Research Paper Nominations)。魏哲巍教授担任本文通讯作者,其与张骁助理教授指导的硕士生尹涵燕、博士生文东勰和李家郡为学生作者。VLDB(International Conference on Very Large Data Bases)会议是数据管理与数据库领域的三大国际顶尖学术会议之一,被中国计算机学会(CCF)推荐为A类国际会议。VLDB 2024会议于2024年8月26-30日在广州召开。
论文介绍:
流数据上的矩阵略图算法的优化及其在在线机器学习领域的应用获得了越来越多的关注,本文关注流数据挖掘和学习领域的开放性难题——“在滑动窗口数据流上以 ε 的误差近似一个 N×d 的矩阵最少需要多大的空间?”。该工作证明了任何确定性算法的空间复杂度都至少为 Ω(d/ε) 的下界,并提出了达到该最优空间复杂度下界的确定性算法。 此前,渐进空间复杂度最低的滑动窗口上的矩阵略图算法是魏哲巍教授课题组、阿里巴巴李飞飞博士等合作于发表在SIGMOD 2016上的论文Matrix Sketching Over Sliding Windows上提出的:以 ε 的误差近似一个 N×d 的矩阵需要 O(d/ε?log(1/ε)) 的空间。由于该工作仅仅研究了如何将流数据场景下的最优矩阵略图确定性算法Frequent Directions与通用滑动窗口算法框架相结合,且这些框架通常需要带来额外的空间开销,使得该算法的空间复杂度与最优界 Ω(d/ε) 之间相差一个系数项 log(1/ε) 。
继该工作之后,经过8年仔细探索Frequent Directions算法在滑动窗口场景下的理论,论文原课题组师生终于完成了对最优界的攻关,并设计了可以达到该最优界的算法实例,且该算法的实现同样简单。在实验中,论文作者在多个合成与真实场景数据流上进行了大量实验,实验结果显示,该工作提出的算法的空间开销均优于基线算法,从理论和实验两方面证实了我们算法的正确性和有效性。该工作为滑动窗口上的矩阵略图应用于的在线学习算法的优化提供了更高效的算法实现。
此外,学院师生近期还有多篇论文获奖。
徐君教授团队论文“A Taxation Perspective for Fair Re-ranking”获信息检索领域国际学术会议SIGIR 2024长文最佳论文提名奖(Best Paper Honorable Mention Award);团队短文“ReCODE: Modeling Repeat Consumption with Neural ODE”获最佳短文提名(Best Short Paper Nominees)。
毛佳昕副教授参与的长文“Scaling Laws for Dense Retrieval”被评为SIGIR 2024 最佳论文奖(Best Paper Award);毛佳昕副教授作为通讯作者的演示论文“CoSearchAgent: A Lightweight Collaborative Search Agent with Large Language Models”获最佳短文提名(Best Short Paper Nominees)。
分享1 |