bob综合体育app下载_bob综合网页版欢迎您!
产品中心
PRODUCT CENTER
SERVICE PHONE
+86-4000-99877

咨询热线

+86-0000-96877
地址:广东省广州市番禺区工业开发区
电话:+86-0000-99877
传真:+86-0000-98877
邮箱:admin@dede58.com

bob综合体育入口数据发掘范畴巨匠俞士纶团队新

发布时间:2021/11/08 点击量:

  BOB·体育(中国)官方网站图灵奖患上主 Yoshua Bengio 以及 Yann LeCun 在 2020 年的 ICLR 大会上指出,自监视进修无望使 AI 发生类人的推理才能。该概念为将来 AI 范畴指清楚明了新的研讨标的目的——自监视进修是一种再也不依靠标注,而是经由过程提醒数据各部门之间干系,从数据中天生标签的新进修范式。

  比年来,自监视进修逐步普遍使用于计较机视觉、天然言语处置等范畴。跟着该手艺的兴旺开展,自监视进修在图机械进修以及图神经收集上的使用也逐步普遍起来,图自监视进修成了图深度进修范畴的新开展趋向。

  本文是来自澳大利亚蒙纳士大学(Monash University)图机械进修团队结合中科院、联邦大学,以及数据迷信威望 Philip S. Yu 对图自监视进修范畴的最新综述,从研讨布景、进修框架、办法分类、研讨资本、实践使用、将来的研讨标的目的的方面,为图自监视进修范畴描画出一幅雄伟而片面的蓝图。

  比年来,图深度进修普遍使用于电子商务、交通流量猜测、化学份子研讨以及常识库等范畴。但是,大大都事情都存眷在(半)监视进修的进修形式中,这类进修形式次要依靠标签信息对模子停止锻炼,招致了深度进修模子获患上标签本钱高、泛化才能才能欠安、鲁棒性差等范围性。

  自监视进修是一种加重对标签数据的依靠,从而处理上述成绩的新手腕。详细地,自监视进修经由过程处理一系列帮助使命(称为 pretext task,代办署理使命)来停止模子的进修,如许监视旌旗灯号能够从数据中主动获患上,而无需野生标注的标签来对模子停止监视锻炼。

  自监视进修今朝曾经被普遍使用于计较机视觉(CV)以及天然言语处置(NLP)等范畴,详细手艺包罗词嵌入、大范围言语预锻炼模子、图象的比照进修等。但是,与 CV/NLP 范畴差别,因为图数据处于不划定规矩的非欧多少里无暇间,其拥有共同的特性,包罗:1)需求同时思索特性信息与不划定规矩的拓扑构造信息;2)因为图构造的存在,数据样本(节点)间常常存在依靠干系。因而,图范畴的自监视进修(graph self-supervised learning)没法间接迁徙 CV/NLP 范畴的代办署理使命设想,从而为图自监视进修带来了独占的观点界说以及分类办法。

  图自监视进修的汗青最早可追溯到典范的图嵌入办法,包罗 DeepWalk、Line 等,而典范的图自编码器(GAE)模子也可被视为一种图自监视进修。自 2019 年以来,一系列新事情囊括了图自监视进修范畴,触及到的手艺包罗但不限于比照进修、图性子猜测、图天生进修等。但是,今朝短少体系性的分类法对这些办法停止归类,同时该手艺相干的框架与使用也没有获患上标准化的统计与查询拜访。

  为了弥补这一空白,本文对图自监视进修范畴相干事情做了综合、片面、及时的综述。本文的次要奉献有:1)以数学言语同一了的图自监视进修框架,并供给了体系的分类法;2)对现有办法停止了综合且及时更新的收拾整顿;3)统计了相干的研讨资本以及使用处景;4)指出了将来潜伏的研讨标的目的。

  野生标签 vs 伪标签:野生标签指需求人类专家或事情者手动标注的标签数据;伪标签指机械能够从数据中主动获患上的标签数据。凡是,自监视进修中不会依靠野生标签,而是依靠伪标签来停止进修。

  下流使命 vs 代办署理使命:下流使命指详细用于权衡所进修表征以及模子机能的图阐发使命,好比节点分类、图分类等;代办署理使命指特地设想的、用于协助模子无监视地进修更优表征从而鄙人游使命上获患上更高机能的帮助使命。代办署理使命普通接纳伪标签停止锻炼。

  监视进修、无监视进修与自监视进修:监视进修指经由过程野生标签来锻炼机械进修模子的进修范式,而无监视进修是一种无需野生标签来进修的进修范式。作为无监视进修的子类,自监视进修指从数据自己获患上监视旌旗灯号的进修范式,在自监视进修中,模子由代办署理使命停止锻炼,从而鄙人游使命重获患上更好的机能以及更佳的泛化性。

  本文次要研讨图数据。图由节点汇合以及边汇合组成,此中节点的个数计为 n,边的个数计为 m。图的拓扑构造普通用 n*n 的毗邻矩阵 A 来暗示,A_ij=1 暗示节点 i 以及节点 j 之间存在毗连干系,A_ij=0 则暗示两者无毗连干系。关于属性图,存在一个特性矩阵 X 来包罗每一一个点以及每一条边的特性向量。

  关于大部门图自监视进修办法,图神经收集(GNN)作为编码器而存在。GNN 输入毗邻矩阵 A 以及特性矩阵 X,经由过程可进修的神经收集参数,天生低维的表征矩阵 H,此中每一举动对应节点的表征向量。关于图级此外使命,普通接纳读出函数 R 将节点表征矩阵聚合为一个图表征向量,从而停止图级此外属性进修。

  本文用编码器 - (encoder-decoder)框架来标准化图自监视进修。此中编码器 f 的输入是原始图数据(A,X),输出为低维表征 H;代办署理 p 以表征 H 为输入,输出代办署理使命相干的信息。在此框架下,图自监视进修能够暗示为:

  操纵锻炼好的编码器 f,所天生的表征 H 被进一步用于下流使命的进修傍边。经由过程引入下流 q,下流使命的进修可暗示为:

  在此框架下,本文经由过程下列多少个维度停止分类:1)经由过程进一步细分公式 (1) 中的代办署理 p 以及丧失函数 L_ssl,对图自监视进修办法停止分类;2)经由过程进一步细分代办署理使命以及下流使命的干系,对三种自监视进修形式停止分类;3)经由过程进一步细分公式 (2) 中的下流 q 以及丧失函数 L_sup,对下流使命停止分类。

  本文将图自监视进修办法分为 4 个种别:基于天生的图自监视进修办法,基于属性的图自监视进修办法,基于比照的图自监视进修办法,以及混淆型办法。此中,基于天生的办法(generation-based method)次要将重构图的特性信息或构造信息作为代办署理使命,完成自监视进修;基于属性的办法(Auxiliary Property-based method)经由过程猜测一些能够主动获患上的图相干的属性,来停止模子的锻炼;基于比照的办法(Contrast-based method)则是经由过程最大化统一样本的两个增广实体之间的互信息来停止进修;最初,混淆型办法(Hybrid method)经由过程组合差别的上述多少种代办署理使命,接纳多使命进修的形式停止自监视进修。

  基于代办署理使命以及下流使命之间的差别干系,自监视进修的形式分为下列 3 类:预锻炼 - 微调(Pre-training and Fine-tuning,PF)、结合进修(Joint Learning,JL)以及无监视表征进修(Unsupervised Representation Learning)。此中,PF 起首接纳代办署理使命对编码器停止预锻炼,而后接纳下流使命对编码器停止微调;JL 则是接纳多使命进修的方法,同时操纵代办署理使命以及下流使命对编码器停止锻炼;URL 起首无监视地对编码器用代办署理使命停止锻炼,而后间接用获患上的表征 H 来锻炼下流使命的。

  下流使命的分类则触及了大大都图机械进修相干的传统使命,按照其数据样本的标准差别,本文将下流使命分类为节点级别使命(如节点分类),边级别使命(如边分类)以及图级别使命(如图分类)。

  按照上述对图自监视进修办法的分类方法,本文对相干事情停止了收拾整顿、分类与汇总,分类树以下图所示。

  基于天生的办法次要经由过程重构输入数据以获患上监视旌旗灯号。按照重构的工具差别,本文将该类办法进一步细分为两个子类:特性天生以及构造天生。

  特性天生办法经由过程代办署理对特性矩阵停止重构。模子的输入为原始图大概颠末扰动的图数据,而重构工具可所以节点特性矩阵,边特性矩阵,大概颠末 PCA 降维的特性矩阵等。对应的自监视丧失函数通常是均方偏差(MSE)。比力有代表性的办法为 Graph Completion,该办法对一些节点的特性停止粉饰,其代办署理使命的进修目的为重构这些被粉饰的节点特性。

  构造天生办法来源于典范的图自编码器(GAE),普通接纳基于表征类似度的对图的毗邻矩阵 A 停止重构。因为毗邻矩阵的二值性,对应的丧失函数通常是二分类穿插熵(BCE);而因为毗邻矩阵的稠密性,普通接纳负采样等手腕完成种别均衡。

  基于属性的办法从图中主动获患上一些有效的属性信息,以此作为监视旌旗灯号对模子停止锻炼。这种办法在情势上与监视进修比力相似,都是接纳 “样本 - 标签” 的数据形式停止进修,其区分在于这里的 “标签” 信息为伪标签,而监视进修所用的为野生标签。按照监视进修的分类形式,本文将该类办法细分为两个子类:属性分类以及属性回归。

  属性分类办法主动地从数据中归结出离散的属性作为伪标签,作为代办署理使命的进修目的供模子进修,对应的丧失函数通常是穿插熵。经由过程获患上伪标签的手腕差别,该类办法可进一步分为:1)基于聚类的属性分类:2)基于点对干系的属性分类。前者接纳基于特性或构造的聚类算法的对节点付与伪标签,然后者则是经由过程两个点之间的干系获患上一个点对的伪标签。

  属性回归办法从数据中获患上持续的属性作为伪标签,对应的丧失函数为均方偏差(MSE)。一个典范的例子是提取节点的度(degree)作为其属性,经由过程代办署理编码器对该特征停止回归,完成对模子的自监视锻炼。

  基于比照的办法引入了互信息最大化的观点,经由过程猜测两个视角(view)之间的相容性来停止自监视进修。本文从三个角度对该类办法停止收拾整顿,别离是:1)图增广方法;2)图比照进修代办署理使命;3)互信息估量方法。

  图增广手艺用于从原始数据天生出增广数据,从而组成比照进修中差别的视角。图增广办法有特性增广、构造增广、混淆增广。特性增广次要对图数据中的特性信息停止变更,最多见的手腕是节点特性粉饰(NFM),即随机的将图中的一些特性量置为 0;别的,节点特性乱序(NFS)也是一种特性增广办法,其手腕为对换差别节点的特性向量。构造增广的手腕是对图构造信息停止变更,常见的构造增广为边修正(EM),包罗对边的增长以及删除了;另外一种构造增广为图弥散(Graph diffusion,GD),其对差别阶的毗邻矩阵停止加权乞降,从而获患上更全局的构造信息。混淆增广则分离了上述两种增广情势,一个典范的手腕为子图采样(SS),即从原图数据中采模样构造成为增广样本。

  关于比照式的代办署理使命,本文经由过程其比照样本的标准停止进一步细分为同标准比照进修以及跨标准比照进修。此中,同标准比照进修经由过程最大化统一节点样本大概统一图样本在差别视角下的互信息来停止自监视进修,此类办法包罗晚期的基于随机游走的图嵌入办法,bob综合体育入口以及一系列 CV 比照进修框架(如 SimCLR 以及 MoCo)在图范畴的使用办法。跨标准比照进修经由过程最大化 “节点样本 vs 全局样本” 大概 “节点样本 vs 邻人样本” 之间的互信息来进修,这种办法来源于 Petar 等人与 2019 年提出的 DGI,今朝在异质图、静态图等数据上均有使用。

  混淆型办法分离了两种或多种差别的代办署理使命,以多使命进修的形式配合锻炼模子。常见的组合包罗:分离两种天生使命(特性天生 + 构造天生)的混淆办法,分离天生使命以及比照使命的混淆办法,分离多种比照使命的混淆办法,以及三种使命配合到场的混淆办法。混淆型办法的总结以下表所示:

  在附录内容傍边,本文统计了图自监视进修相干的各类研讨资本,包罗:支流的数据集,经常使用的评价手腕,差别办法的机能比照,以及各办法对开源代码总结。这些信息能够更好的协助研讨职员理解、比照以及复现现有事情。

  本文总结了图自监视进修在三个范畴的实践使用,包罗:保举体系,非常检测,以及化学范畴。别的,更多使用类事情也被总结在附录傍边,触及到的范畴包罗法式修复、医疗、联邦进修等。

  针对潜伏的研讨热门,本文阐发了图自监视进修中存在的应战,并指出了一些旨在处理这些应战的将来研讨标的目的。

  固然图自监视进修在各类使命以及数据集上都获患上较好的机能,但其仍然缺少坚固的实际根底以证实其有用性,由于大大都事情都只是经历性地设想其代办署理使命,且仅接纳尝试手腕停止评估。今朝唯一的实际撑持来自互信息最大化,但互信息的评价仍然依靠于经历办法。咱们以为,图自监视进修亟需与图实际相干的研讨,潜伏的实际根底包罗图旌旗灯号处置以及谱图实际。

  很多图自监视进修的事情使用于危害敏理性以及隐衷相干的范畴,因而,可注释且鲁棒的自监视框架关于顺应此类进修场景拥有主要意思。可是,现有事情只将下流使命机能视为其目的,而疏忽了进修暗示以及猜测成果的可注释性。别的,思索到实在数据的不完好性以及图神经收集易受对立进犯的特性,咱们该当思索图自监视进修的鲁棒性;但是,除了个体事情外,现有的图自监视进修办法均假设输入数据是完善的。因而,探究可注释的、鲁棒的图自监视办法是一个将来的潜伏标的目的。

  以后的大大都事情集合于属性图的自监视进修,只要少数事情集合于庞大的图范例,比方异质或时空图。关于庞大图,次要的应战是怎样设想代办署理使命来捕捉这些庞大图的共同数据特性。现有的一些办法将互信息最大化的思惟使用于庞大图的进修,其进修才能比力无限。因而,一个潜伏标的目的是为庞大的图数据设想多种多样的代办署理使命,这些使命应顺应其特定的数据特性。别的,将自监视手艺扩大到更遍及的图范例(比方超图)将是一个可行的标的目的,值患上进一步探究。

  在 CV 的比照进修中,大批的数据增广战略(包罗扭转、色彩扭曲、裁剪等)供给了差别的视角,从而撑持了比照进修中的表征稳定性。但是,因为图构造数据的性子(庞大以及非欧多少里德构造),图上的数据增广计划没有获患上很好的探究。现有的图增广战略大多接纳随机的粉饰 / 乱序节点特性、边修正、子图采样以及图分散等手腕,这在天生多个图视角时没法供给丰硕的多样性,同时其表征稳定性也是不愿定的。为理解决这个成绩,自顺应地施行图形增广,主动挑选增广,或经由过程发掘丰硕的底层构造以及属性信息结合思索更强的增广样本都将是将来潜伏的研讨标的目的。

  本文统计的大部门办法仅经由过程处理一个代办署理使命来锻炼模子,只要少数混淆办法探究多个代办署理使命的组合。但是,很多 NLP 范畴的与锻炼模子以及本文所汇总的少数混淆办法都阐明了:差别的代办署理使命能够从差别的角度供给监视旌旗灯号,这更有助于图自监视办法进修到有效的信息表征。因而,对多种代办署理使命的自顺应组合,以及更先辈的混淆办法值患上进一步研讨。

  图是很多范畴中遍及存在的数据构造;但是,在大大都使用范畴,获患上手动标签的本钱常常很高。在这类状况下,图自监视进修拥有很好的远景,出格是那些高度依靠业余常识来标注数据的范畴。但是,大大都现有的图自监视进修的实践使用仅集合在少数多少个范畴(保举体系、非常检测以及化学),这表白图自监视在大大都使用范畴拥有未开辟的后劲。咱们无望将图自监视进修扩大到更宽广的使用范畴,比方,金融收集、收集宁静、社区检测以及联邦进修等。

  2021亚马逊云科技中国峰会「第二站」将于9月9日-9月14日全程在线上举行。关于AI开辟者来讲,9月14日举行的「野生智能以及机械进修峰会」最值患上存眷。

  当天上午,亚马逊云科技野生智能与机械进修副总裁Swami Sivasubramanian 博士与 AI 范畴出名学者、Landing AI 开创人吴恩达(Andrew Ng )博士睁开一场「炉边说话」。

  不只云云,「野生智能以及机械进修峰会」还配置了四大分论坛,别离为「机械进修迷信」、「机械进修的影响」、「无需依靠业余常识的机械进修理论」以及「机械进修怎样落地」,从手艺道理、实践场景中的使用落地以及对行业范畴的影响等多个方面具体论述了机械进修的开展。