此刻,人工智能正在为越来越多的计算功能供给支持,今天,俄罗斯搜索巨头Yandex宣布,将向开源社区提交一款梯度提高设备学习库CatBoost。它能够在数据稀疏的状况下“教”设备学习。尤其是在无像视频、文本、图像这类感官型数据的时候,CatBoost亦能按照事务型数据或历史数据进行操作。
今天,CatBoost以两种方式进行了亮相。
首要,Yandex宣布,将在自有服务中运用这款新的框架替换原来的设备学习算法MatrixNet。MatrixNet始终被应用在机构的非常多业务上,例如排名、天气预报、出租车和举荐业务。此刻,业务正在逐步从MatrixNet切换到CatBoost上来,并将延续几个月。
其次,Yandex将免费供给CatBoost库,任何期盼在自己的程序中运用梯度提高技术的人员都能够在Apache许可证下运用这个库。 Yandex设备智能科研主管Misha Bilenko在接受采访时暗示:“CatBoost是Yandex数年科研的巅峰之作。咱们自己始终在运用海量的开源设备学习工具,因此是时候向社会作出回馈了。” 他说到,Google在2015年开源的Tensorflow以及Linux的创立与发展是这次开源CatBoost的原动力。
Bilenko弥补说到,暂时还无计划将CatBoost商场化,或以任何专利的形式将其闭源。 “这和竞争对手无关,”他说,“咱们很高兴有竞争对手运用它”
长时间败兴,随着Yandex的持续发展,它始终在寻求提高俄语世界之外的国际地位。这次开源举动不仅是Yandex对开源社区的承诺,况且亦展示了Yandex期盼作为大型科技机构与研发者社区发展中心的决心。
就像Google连续地扩展和更新Tensorflow同样,今天的CatBoost版本是其第1个版本,以后将连续更新迭代。日前,这个库重点有三个特点:
“减少过度拟合”:这能够帮忙你在训练计划中取得更好的成果。它基于一种构建模型的专有算法,这种算法与标准的梯度提高方法区别。
“类别特征支持”:这将改善你的训练结果,同期准许你运用非数字原因,“而不必预先处理数据,或花费时间和精力将其转化为数字。”
“API接口支持”:能够经过命令行或基于Python或R的API接口来运用CatBoost,包含公式分析和训练可视化工具。
虽然日前有海量的库能够利用梯度提高或其他处理方法来训练设备学习系统,但Bilenko认为,CatBoost相较其他大型机构运用的框架(如Yandex)的最大优点是测试精细度高。
“有非常多设备学习库的代码质量比较差,需要做海量的调优工作,”他说,“而CatBoost只需少量调试,就能够实现良好的性能。这是一个关键性的区别。”
附CatBoost开源代码位置: https://catboost.yandex/
文案原标题《Yandex open sources CatBoost, a gradient boosting machine learning library》,作者:Ingrid Lunden,译者:夏天,审校:主题曲。
|