做为世界数据挖掘行业最高级别国际会议,原定于 8 月 23 日~27 日在美国圣地亚哥举行的第 26 届 ACM SIGKDD,因为因疫情影响,将以线上形式举行。
始终败兴,KDD 为来自学术界、企业界的科研人员和数据挖掘从业者供给了学术交流和展示科研成果的理想场所。而因其严苛的审稿与接收率,KDD 始终保持着它在数据挖掘行业的权威性和知名度。
KDD 2020 官方已然颁布了本年度的论文录取状况,其中 Research Track 共收到 1279 篇论文,共有 216 篇接收,接收率为 16.8%;Applied Data Science Track共收到 756 篇论文,共有 121 篇被录用,接收率为 16%。
按照 KDD 近五年来的论文录用状况来看,KDD 的投稿数量呈逐年提升趋势,数据挖掘正受到越来越多学者的关注。其中,今年 Research Track 的接收率相较于去年有所提高,但仍然小于过去几年的接收率;而 Applied Data Science Track,近两年的接收率呈下降趋势。想要高中 KDD,可谓是难度是直线提升。
下面咱们就来瞧瞧,按照 AMiner 平台对 KDD(2016-2019)过去五年来接收论文与学者数据的统计分析,KDD 收录论文的关键词、高产作者、高被引作者以及高被引用论文的详细状况。
论文关键词:
KDD 大会触及的议题大多跨学科且应用广泛。过去五年,KDD 接收论文的关键词重点集中在设备学习、深度学习、社交网络、反常检测、多任务学习、数据科学等行业。关键词云图如下图所示。
收录学者特征:
按照 AMiner 对过去五来年 KDD 接收论文作者数据的分析,能够看出,男性作者占比达 84.53% ,女性作者仅占 15.47%。从学者分布状况来看,来自美国和中国的投稿学者远超过其他国家,分别占比 44.46%、26.78%,日本、印度、新加坡等国家分列第三至第五位。
高产作者与高引学者TOP10
高产作者TOP10
从这份榜单能够看出,排在前 10 的作者中华人学者就占据了 9 位,遥遥领先于其他国家。这些作者近五年来在 KDD 大多发布了 14 篇以上论文。
TOP1熊辉,现任百度科研院副院长、百度商场智能实验室专家、百度设备人与自动驾驶实验室专家等,美国罗格斯-新泽西州立大学罗格斯商学院管理科学与信息系统系正教授 (终身教授)、院长讲席教授,并担任中国科学技术大学大师讲席教授(客座),IEEE Fellow。熊辉教授始终致力于数据挖掘、大数据分析、商务智能、互联网证券和信息安全等行业的科学科研,近年来共发布高水平学术论文180余篇。
TOP1(并列)叶杰平,滴滴人工智能实验室负责人,滴滴出行副总裁,美国密歇根大学教授,IEEE Fellow。美国明尼苏达大学博士毕业,重点从事设备学习、数据挖掘和大数据分析行业的科研。他在国际顶级期刊和会议发布高水平论文 200 余篇,引用次数超过 8000 次,担任包含 IEEETPAMI、DMKD、IEEETKDE、NIPS、ICML、KDD 等多个国际顶级期刊编委及国际顶级会议程序委员会主席和行业主席。
TOP2崔鹏,清华大学计算机系长聘副教授,博士生导师。科研行业包含大数据环境下的因果推理与稳定预测、网络表征学习、社会动力学建模,及其在金融科技、智慧医疗及社交网络等场景中的应用。他已在数据挖掘及多媒介行业顶级国际期刊和会议上发布论文百余篇,并先后得到7项国际会议及期刊最佳论文奖,包含中国入选数据挖掘行业顶级国际会议 KDD 最佳论文专刊的首篇论文。
美国伊利诺伊大学香槟分校(UIUC)计算机系教授韩家炜,清华大学计算机系教授朱文武,清华大学计算机系教授唐杰,布法罗大学计算机科学与工程系副教授高静,伊利诺伊大学厄本那-香槟分校计算机科学系的副教授 Hanghang Tong,卡内基梅隆大学计算机科学系教授 Christos Faloutsos,京东集团副总裁、京东数字科技首席数据科学家郑宇亦相继位列高产作者 TOP 榜单。
高引学者TOP10
这份高引学者榜单与高产作者有很强区别,不少国外学者上榜,其中高产作者中的崔鹏副教授与朱文武教授一样榜上有名。
TOP1
Carlos Guestrin 是华盛顿大学 Paul G. Allen 计算机科学与工程学院的亚马逊设备学习教授。他是 Turi(最初是 GraphLab Inc.)的联合创始人兼首席执行官,专注于大规模设备学习和图形分析的科研。他曾在 KDD、IPSN、VLDB、NIPS、、ICML 等多个顶级学术会议及期刊发布太多篇论文,曾荣获 IJCAI 计算机与思想奖和总统专家与工程师初期职业奖(PECASE)。
TOP2
陈天奇是设备学习行业著名的青年华人学者之一,本科毕业于上海交通大学 ACM 班,硕士周期亦就读于上海交通大学,博士毕业于华盛顿大学计算机系,科研方向为大规模设备学习。他曾参与研发了 XGBoost、Apache MxNet、Apache TVM ( https://tvm.ai/ )等著名设备学习工具,是最大开源分布式设备学习项目 DMLC 的发起人之一。
TOP3
Jure Leskovec,斯坦福大学计算机科学系的副教授,亦是图网络行业的专家,图暗示学习办法 node2vec 和 GraphSAGE 作者之一。他还是 Pinterest 的首席专家,以及 Chan Zuckerberg Initiative 慈善基金会的首席调查员。他的科研行业包含网络结构的统计建模、网络演化、以及信息、病毒等在网络上的传播,同期他还致力于文本挖掘和设备学习的应用等。
斯坦福大学计算机科学专业博士生 Aditya Grover,加利福尼亚大学欧文分校的计算机科学助理教授 Sameer Singh,微软科研院的研究员 Marco Túlio Ribeiro,清华大学副教授崔鹏,清华大学计算机系教授朱文武,比萨大学教授 Dino Pedreschi,比萨 ISTI-CNR 的科研员 Mirco Nanni 位列 TOP10。
高引论文TOP10榜单
TOP1:XGBoost: A Scalable Tree Boosting System
作者:Tianqi Chen,Carlos Guestrin
论文位置: https://aminer.cn/pub/573696046e3b12023e517cb1
被引用量:6033
这是陈天奇发布于 2016 年的文案,重点是大名鼎鼎的 XGBOOST 算法的介绍。XGBOOS T广泛用于各样比赛和实质应用中,是非常实用的算法。提高树是非常有效且广泛应用于设备学习的办法。在这篇论文中,作者描述了可扩展的、端到端的提高树系统,叫做 XGBoost。在非常多设备学习的挑战中,数据专家经常运用该系统实现卓越的效果。作者提出了一个针对稀疏数据的新颖办法----稀疏感知和加权的分位近似树。更重要的,她们提出了有些有效的办法来实现缓存,数据压缩,分片构建提高树系统。综合这些有效的特点,在数据规模超过 10 亿的状况下,XGBoost 要比当前的其它系统运用较少的资源。
TOP2:node2vec: Scalable Feature Learning for Networks
作者:Aditya Grover,Jure Leskovec
论文位置: https://aminer.cn/pub/57aa28de0a3ac518da9896d5
被引用量:3274
该文是斯坦福大学的 Aditya Grover、Jure Leskovec 发布于 2016 年的一篇文案。在论文中作者提出,基于网络中节点和边的预测任务中的特征工程总是很繁杂,虽然暗示学习的自动学习特征已然有很大的帮忙,但现有的特征学习方式没法对网络中连接模式的多样性进行足够的捉捕。
本论文提出了一种对网络中的节点学习连续特征表达的框架——node2vec。在这个算法中,学习了一种结点映射到低维特征空间,同期最大限度的保留网络里结点的邻域(neighborhoods)。定义网络的结点邻域并触及了一种(biased)偏置的随机游走过程,将这些随机游走转化为计算嵌入的办法是一种智能的优化方式。首要为每一个节点分配一个随机层,(例如长度为N的高斯向量),而后针对每对源相邻节点,作者期盼经过调节这些层来最大化它们的点积。同期最后,最小化随机节点对的点积,这般做的效果是学习了一组嵌入,这些嵌入倾向于在相同的遍历过程中高点积的节点。该文展示了 node2vec 相针对现有的最新技术在多标签归类和链接预测中,在几个来自区别行业的实质网络中的功效,表率了一种有效学习繁杂网络中与任务无关的最新暗示的新办法。
TOP3:"Why Should I Trust You?": Explaining the Predictions of Any Classifier
作者:Marco Túlio Ribeiro,Sameer Singh,Carlos Guestrin
论文位置: https://aminer.cn/pub/573695fd6e3b12023e51117d
被引用量:3063
设备学习模型尽管已然得到了广泛采用,但大部分仍旧是黑箱。然而,理解预测背面的原由在评定该预测是不是可信上是相当重要的,这是人们计划基于预测采取行动或选取是不是需要安排一个新模型时的基本。这般的理解亦能供给对模型的见解(insight),其可被用于将不值得信任的模型或预测转化得可信任。
在本论文中,作者提出了 LIME——一种可经过围绕预测局部地学习一个可诠释的模型,从而以一种可诠释的和可信的方式解释任何归类器的预测的全新解释技术。她们还提出了一种以非冗余方式经过给出表率性的单个预测及其解释来对模型进行解释的办法,这种办法将这一任务视作是一个子模块的优化问题(submodular optimization problem)。经过解释用于文本(如随机森林)和图像归类(如神经网络)的区别模型而证明了这些办法的灵活性。经过在多种需要信任的情形上进行了模拟的和以人类为对象的全新实验,从而展示认识释的实用性——这些任务需要一个人决定是不是相信一个预测、在模型之间做出选取、改进不值得信任的归类器和确定一个归类器不该该被信任的原由。
TOP4:Trajectory pattern mining
作者:Fosca Giannotti,Mirco Nanni,Fabio Pinelli,Dino Pedreschi
论文位置: https://aminer.cn/pub/53e99853b7602d970208a525
被引用量:1174
TOP5:Structural Deep Network Embedding
作者:DAIXIN WANG,Peng Cui,Wenwu Zhu
论文位置: https://aminer.cn/pub/57aa28de0a3ac518da9896d6
被引用量:1063
TOP6:Collaborative Deep Learning for Recommender Systems
作者:Hao Wang,Naiyan Wang,Dit-Yan Yeung
论文位置: https://aminer.cn/pub/5550416845ce0a409eb3b00b
被引用量:925
TOP7:Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-day Readmission
Rich Caruana,
作者:Yin Lou,Johannes Gehrke,Paul Koch,Marc Sturm,Noemie Elhadad
论文位置: https://aminer.cn/pub/5736973b6e3b12023e62b254
被引用量:613
TOP8:Certifying and Removing Disparate Impact
作者:Michael Feldman,Sorelle A. Friedler,John Moeller,Carlos Scheidegger,Suresh Venkatasubramanian
论文位置: https://aminer.cn/pub/5736973c6e3b12023e62b9e5
被引用量:591 TOP9:metapath2vec: Scalable Representation Learning for Heterogeneous Networks
作者:Yuxiao Dong,Nitesh V. Chawla,Ananthram Swami
论文位置: https://aminer.cn/pub/59ae3c262bbe271c4c71f4a2
被引用量:562
TOP10:Inferring Networks of Substitutable and Complementary Products
作者:Julian J. McAuley,Rahul Pandey,Jure Leskovec
论文位置: https://aminer.cn/pub/5736973b6e3b12023e62b11d
被引用量:531
历届KDD仔细数据可查看: https://aminer.cn/conference/5eeb1307b5261c744f15bcd3
KDD 2020 可查看: https://www.aminer.cn/conf/kdd2020
|