源自 | 微X公众号:芝兰玉树
作者 | 王树义
本文为你介绍一款基于人工智能的arXiv论文检索与举荐引擎,来帮忙你处理论文查询和筛选问题。
▌检索
我为你举荐的这个论文检索引擎,叫做arXiv-sanity。
第1次运用的时候,意见你点击这个链接(https://youtu.be/S2GY3gh6qC8)查看介绍视频。
为了运用这个检索引擎,你需要创建一个账户。
别怕麻烦,10几秒钟就能完成。只是你需要把秘码记录下来,以避免下次忘记。
咱们来对比一下,arXiv和arXiv-sanity中,依据关键词检索论文的结果有什么差异。
在arXiv里面,搜索“keras”,结果是这个样子的。
看着中规中矩,对吧?
而在arXiv-sanity中搜索一样的关键词,结果是这般的:
arXiv-sanity的搜索结果以更加可视化的形式呈现。你不仅能够看到标题、作者等信息,况且还能够直观看到其中正文的预览图。
这般一来,一眼扫过去,你就能够观其大略,发掘某篇论文是不是符合你的口味。
我的科研生应该会比较爱好这个功能。这般她们寻找候选翻译论文的时候,就能尽可能避开公式太多的了。
基于关键词的检索是最为基本的功能。
咱们来瞧瞧其他服务。
▌群体
一篇论文写得怎样?其他用户可能会有评论。
点击“Discussions”按钮,你就能查看评论,从而认识他人眼里,论文的优点与不足了。
倘若你暂时还无确立自己的科研方向与兴趣,亦无关系。
这套论文检索系统充分利用了人类用户的群体智慧(crowd wisdom),即观察和分析他人的行径,来帮你找到可能感兴趣的论文。
尝试一下,点击屏幕上方的“top recent”按钮。
系统会按照他人在文献库保藏的状况,为你举荐1星期内最受欢迎的论文。
当然你亦能够自己选取时间尺度。咱们来尝试一下“All Time”(全部时间段)。
深度学习行业大牛Ian Goodfellow的论文NIPS 2016 Tutorial(发布于2017年)排在第1位。
然则运用这个检索系统的人毕竟还有限。少许人的关注,可能不足以说明问题。
不碍事,这个系统还和社交媒介平台Twitter链接了起来。
点击屏幕上方的“top hype”按钮,你会看到以下界面。
你能够试试把鼠标滑动到某个Twitter用户头像上,直接看TA说了什么。
当然,社交媒介平台上的数据,亦并非完全关联与靠谱。然则针对研究内容的评估和传播来讲,社交媒介数据(评论、转发等)还是比较有参考价值的。
毕竟,愿意科研论文的人,大致上还是有必定的学术基本,并且比较珍视自己的名誉,因此胡乱评估的概率较低。
将检索平台自己的保藏数量和社交媒介举荐相互印证,你就不难找到有些引领趋势的科研成果。
可是,这些成果虽然表率了流行程度和受关注度,却未必符合你的胃口。
这就该人工智能上场了。
▌智能
你能够经过文案内容的类似性寻找符合口味的论文。
回到咱们刚才检索“Keras”的第1个结果下,点击“show similar”,就能看见以下分析结果。
系统经过自然语言处理后,认为与该科研关联的文案都被列出来了。
咱们检索的Keras是一种深度学习框架,结果标题中显现Theano亦是。看来设备帮咱们找的类似性还是比较可靠的。
比起人工举荐同类科研论文,arXiv-sanity这般的计算机系统能够不知疲倦地随时监测,实时发掘新的结果,并且即时通告用户。
这般一来,你做文献综述的时候,心里就会更有底了。
咱们来瞧瞧更智能的应用——论文举荐。
倘若说类似结果查询还不外是照猫画虎,论文举荐可便是见微知著了。
在检索结果中,咱们选取有些感兴趣的论文,将它们存入到自己的独立文献库(Library)中。点击那个软盘模样的存盘按钮就能够。
被保藏的文案,存盘按钮变成为了蓝色。
进到咱们的文献库里瞧瞧。
你的检索、阅读和保留等动作都在给arXiv-sanity系统传递信号。
依据这些信息,以及其他用户的运用习惯和偏好数据,平台就能够分析你的科研兴趣,并且能够举荐文案给你了。
举荐的论文,亦能够选取时间范围。这般不管你是期盼找到经典文献,还是“喜新厌旧”,都能够各取所需。
举荐结果的准确度,与你传递给平台的信息,以及其他用户的行径数据累积,都是关联的。通常来讲,你用得越多,文献库中累积的论文越多,举荐结果就会越精细。
▌限制
尝试一段时间后,你可能重视到了,arXiv的首页上,左上角有些白色文字。
由于底色原由,可能看不太清楚,这儿我给你清晰列出:
Serving last 41211 papers from cs.[CV|CL|LG|AI|NE]/stat.ML
后面哪些奇怪的代码,是什么意思呢?
它们其实是arXiv这个预印本平台上的论文归类编号。
详细来讲,它们的含义如下:
cs.CV: Computer Vision and Pattern Recognition 计算机视觉与模式识别;
cs.CL:Computation and Language 计算语言学;
cs.LG:Learning 设备学习(计算机科学);
cs.AI:Artificial Intelligence 人工智能;
cs.NE:Neural and Evolutionary Computing 神经与演化计算;
stat.ML:Machine Learning 设备学习(统计学)。
这般,你大体就能认识arXiv-sanity平台上包括的论文类别了。
本文写作时,该平台检索论文的范围为41211篇。
你可能对这儿论文的数量嗤之以鼻——亦太少了吧!
确实不多。
然则近年来关联论文数量增长趋势显著。
日前人工智能行业的最优秀作者,论文写作后首发平台都是arXiv。这般一来,arXiv-sanity便能够立即检索到这篇文案。
倘若你科研关联行业,能够在有鱼的地区钓鱼,不轻易放过好文献。
但这些智慧功能,仅能局限在arXiv人工智能行业文案举荐吗?
不是。
点击首页右上角的“Fork me on Github”按钮,你能够看到arXiv-sanity的Github源代码。
作者Andrej Karpathy说得非常清楚:
你能够用他供给的源码,对任意的arXiv文案子集进行智能化检索服务。
你能够把服务搭建在自己的电脑上,亦能够安排在亚马逊AWS这般的云平台上面。
回过头去,瞧瞧arXiv论文都包括那些学科,我晓得你必定很不满足。
你的专业,有可能不在arXiv涵盖的范围内。
这般的论文能不可用arXiv-sanity的服务呢?
很遗憾。答案在日前还是不是定的。
由于arXiv-sanity的智能,是创立在全文可获取的前提下的。
可是,日前世界上非常多的论文版权,还牢牢地把握在几大出版商手中。
下载论文全文并用来供给公众服务,是挑战她们底线的行径,常常会遭到严厉的打击。
天才少年Aaron Swartz的人生悲剧,便是这般酿成的。
然则最少,咱们看到了一种将来发展的可能性。
▌英雄
做为附加内容,我给你介绍一下:我是怎么发掘arXiv-sanity这个好用的论文检索服务的。
毕竟授人以鱼,不如授人以渔吗。
原由很简单,我看到资料介绍,说它的创建者是Andrej Karpathy。
我立即确认,这个检索工具必定很可靠。
由于Andrej Karpathy是个深度学习行业的达人。
Andrew Ng的课程中,有过对他的专访,放在了“深度学习英雄”(Heroes of Deep Learning)系列中。
你能够点击这个链接(http://sina.lt/fn96)查看这段访谈。
更加多char-rnn模型见我的笔记(https://github.com/karpathy/char-rnn)。
这个模型能干什么呢?
非常多。
其中之一是,制作游戏关卡,哄人类玩家玩儿。
在学习了《超级马里奥兄弟》的32个关卡后,机器自动生成为了下面这个场景构建:
玩儿起来的效果怎样?你能够点击这段视频的链接(https://youtu.be/_-Gc6diodcY),自己评判一番。
正由于Andrej Karpathy这种超强技术实力,和长时间持续的内容输出,人们对他研发的论文智能检索系统,才会有如此高的信任度。
▌讨论
你之前是怎样检索文献的?运用过那些好工具?有无查询自己感兴趣论文的小窍门呢?欢迎留言,把你的经验和思考分享给大众,咱们一块交流讨论。
▼
设备学习集训营线下火热报名,北京、上海、深圳、广州、杭州,五城同步开营!
|