在“数据为王”的今天,越来越多的人对数据科学产生了兴趣。数据科学家离不开算法的使用,那么,数据科学家最常用的算法,都是哪些呢?
最近,著名的资料探勘信息网站KDnuggets策划了十大算法调查,这次调查对数据科学家常用的算法进行排名,并发现最“产业”和最“学术”的算法,还对这些算法在过去5年间(2011~2016)的变化,做了一番详细的介绍。
这次调查结果,是基于844名受访者投票整理出来。
KDnuggets总结出十大算法及其投票份额如下:
图1:数据科学家使用的十大算法和方法。
请参阅文末的所有算法和方法的完整列表。
从调查中得知,受访者平均使用8.1个算法,与2011年的一项类似调查相比大幅提高。
与用于数据分析/数据挖掘的2011年投票算法相比,我们注意到流行的算法仍然是 回归算法、聚类算法、决策树和可视化。相对来说最大的增长是以(pct2016/pct2011-1)测定的以下算法:
Boosting,从2011年的23.5%至2016年的32.8%,同比增长40%
文本挖掘,从2011年的从27.7%至2016年的35.9%,同比增长30%
可视化,从2011年的从38.3%至2016年的48.7%,同比增长27%
时间序列分析,从2011年的从29.6%至2016年的37.0%,同比增长25%
异常/偏差检测,从2011年的从16.4%至2016年的19.5%,同比增长19%
集合方法,从2011年的从28.3%至2016年的33.6%,同比增长19%
支持向量机,从2011年的从28.6%至2016年的33.6%,同比增长18%
回归算法,从2011年的从57.9%至2016年的67.1%,同比增长16%
在2016年最受欢迎的新算法是:
K-近邻算法(K-nearest neighbors,KNN),46%份额
主成分分析(Principal Commponent Analysis,PCA),43%
随机森林算法(Random Forests,RF),38%
最优化算法(Optimization),24%
神经网络-深度学习(Neural networks-Deep Learning),19%
奇异值矩阵分解(Singular Value Decomposition,SVD), 16%
跌幅最大的算法分别为:
关联规则(Association rules),从2011年的28.6%至2016年的15.3%,同比下降47%
增量建模(Uplift modeling),从2011年的4.8%至2016年的3.1%,同比下降36%
因子分析(Factor Analysis),从2011年的18.6%至2016年的14.2%,同比下降24%
生存分析(Survival Analysis),从2011年的9.3%至2016年的7.9%,同比下降15%
下表显示了不同算法类型的用途:监督学习、无监督学习、元分析和其他算法类型。我们排除了NA(4.5%)和其他(3%)的算法。
表1:按行业类型的算法使用
我们注意到,几乎所有人都在使用监督学习算法。
政府和产业的数据科学家们比学生或学术界使用了更多的不同类型的算法,产业数据科学家更倾向使用元算法。
接下来,我们分析深度学习的十大算法按行业类型的使用。
表2:深度学习的十大算法按就业类型的使用
Table 2: Top 10 Algorithms + Deep Learning usage by Employment Type
为了使差异更为醒目,我们计算特定行业类型相关的平均算法使用量设计算法为Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All)-1。
图2:按行业的算法使用偏差
我们注意到产业界数据科学家更倾向使用回归算法、可视化、统计算法、随机森林算法和时间序列。政府/非盈利组织更倾向使用可视化、主成分分析和时间序列。学术研究人员更倾向使用主成分分析和深度学习。学生通常使用算法较少,但他们用的更多的是文本挖掘和深度学习。
接下来,我们看看代表整体KDnuggets访客的地区参与情况。
参与投票者的地区分布如下:
北美,40%
欧洲,32%
亚洲8%
拉美,5.0%
非洲/中东,3.4%
澳洲/新西兰,2.2%
与2011年的调查一样,我们将产业/政府合并为同一个组,将学术研究人员/学生合并为第二组,并计算算法对产业/ 政府的“亲切度”:
N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
——————————- - 1
N(Ind_Gov) / N(Aca_Stu)
亲切度为0的算法在产业/政府和学术研究人员/学生的使用情况相同。IG亲切度约稿表示该算法越“产业”,越低则表示越“学术”。
其中最“产业”的算法”是:
增量建模(Uplift modeling),2.01
异常检测(Anomaly Detection),1.61
生存分析(Survival Analysis),1.39
因子分析(Factor Analysis),0.83
时间序列(Time series/Sequences),0.69
关联规则(Association Rules),0.5
虽然增量建模又一次成为最“产业”的算法,但出乎意料的是它的使用率如此低:区区3.1%,在这次调查中,是使用率最低的算法。
最“学术”的算法是:
神经网络(Neural networks - regular),-0.35
朴素贝叶斯(Naive Bayes),-0.35
支持向量机(SVM),-0.24
深度学习(Deep Learning),-0.19
最大期望算法(EM),-0.17
下图显示了所有算法以及它们在产业界/学术界的亲切度:
图3:Kdnugets调查:数据科学家使用的流行算法:产业界vs学术界
下表包含了算法的详细信息,在2016年和2011年使用它们的受访者百分比调查,变化(%2016 /%2011 - 1)和行业亲切度如上所述。
表3:KDnuggets2016调查:数据科学家使用的算法
下表包含各个算法的详细信息:
N: 根据使用度排名
Algorithm: 算法名称
Type:类型。S - 监督,U - 无监督,M - 元,Z - 其他,
2016 % used:2016年调查中使用该算法的受访者比例
2011 % used:2011年调查中使用该算法的受访者比例
%Change:变动 (%2016 / %2011 - 1)
Industry Affinity:产业亲切度(上文已提到)
感谢杜小芳对本文的审校。
AI研究院 | AI学习方式越来越像人 却越来越不靠谱?
【AI研究院 | 网易智能工作室倾力打造的人工智能行业专业栏目,聚焦行业,深度分析,只为专业】
网易智能讯 2月4日报道,据《连线》杂志报道,神经网络正风靡整个硅谷,无数的互联网服务中嵌入各种各样的人工智能(AI)。令人感到激动的是,最好的AI已经可以识别网络照片中的猫咪。但AI研究人员知道,神经网络依然存在许多缺陷。实际上,它们的缺陷非常多,以至于有些人怀疑这些模式识别系统是否是实现AI的可行、可靠方式。
神经网络可以通过分析大量数据来学习和了解任务,比如帮助Facebook进行面部识别、帮助微软进行翻译、帮助谷歌进行互联网搜索等。它们甚至已经开始帮助聊天机器人学习对话艺术。它们正成为无人驾驶汽车和其他自动化机器的重要组成部分。但是在没有大量经过仔细标注的数据的帮助下,它们就无法理解世界的意义,它们不适合执行任何任务。AI研究人员很想知道,为何神经网络在做出具体决定时受到如此多的限制?在很多情况下,它们实际上就是“黑盒子”。这种不透明会引发严重问题:如果无人驾驶汽车向着某人撞去,结果会如何?
卡内基梅隆大学计算机学教授、帮助开发顶级扑克人工智能系统Libratus的托马斯·桑德霍尔姆(Tuomas Sandholm)说:“深度学习已经受到许多关注,它当之无愧。但是深度学习并不能给你提供任何保证。”这是真的,但也正是因为神经网络存在这些明显弱点,许多世界上最大的科技公司正在扩展它们的AI思维,从最近的招聘、收购、研究动向中作出判断,许多初创企业也正涌往相同的方向。
你可能认为这是贝叶斯算法(bayesian)的崛起,这类研究人员通常以科学方法研究AI,他们最初从假设开始,然后基于数据更新这个假设,而非像人经网络那样依赖数据去驱动结论。贝叶斯算法的研究人员寻找处理不确定性的方法,将新的证据输入到现有模型中,可以执行神经网络不擅长的工作。
与神经网络相似的是,贝叶斯算法也可以通过数据进行学习,但是这种机器学习可通过不同的方式进行。AI初创企业Gamalon创始人本·魏格达(Ben Vigoda)说:“令我们感兴趣的是自动化科学方法。”他的公司正通过所谓的“概率规划”计划推动这种趋势。
这再次提醒我们,神经网络的快速崛起也将生命注入到许多其他技术中,这些技术可帮助机器变得更加聪明,从强化学习到进化计算等。有许多方法,可以帮助机器进行学习。
神秘技术
2016年12月份,当加里·马库斯(Gary Marcus)将15人的初创企业卖给Uber时,他带着全新的AI到来。至少他是那样说的。他的公司叫做几何智能(Geometric Intelligence),一个小小的操作就能做出巨大改变。这位现年47岁的纽约大学心理学教授说,他与同事们正在开发能够从很少数据中学习任务的系统,这与人类十分相似,同时超越了深度神经网络的力量。
马库斯认为,小数据系统是建造机器必不可少的部分。这些机器可自主进行交谈,汽车也可以自己在公路上行驶。当Uber宣布收购Geometric Intelligence时,马库斯说:“在语言领域和无人驾驶汽车领域,你永远不会有足够数据像深度学习那样产生野蛮之力,这会产生许多问题。毕竟,你不能在繁忙的公路上撞车以便数据,用以预防将来发生车祸。你也不能购买它,它根本不存在。”
马库斯和他的联合创始人、剑桥大学信息工程学教授左斌·加拉玛尼(Zoubin Ghahramani)依然没有探讨他们正在开发的技术的具体细节。就像技术界常见的情况,特别是AI领域,这种保密性通常会催生“神秘感”。但是加拉玛尼是贝叶斯算法的支持者之一。他专门从事名为“高斯过程(Gaussian process)”的特殊统计模型,而这种模型在马库斯开发的技术中发挥了重要作用。
高斯过程
在某种层次上,高斯过程是寻找特定问题最优解决方案的方式。同时,它也是另一种名为贝叶斯优化的数学技术的基础。 到目前为止,高斯过程已经帮助网站确定应该显示哪些广告,以及它们的网页应该如何排版。Uber已经招募擅长高斯过程的专家,改善其拼车服务。在谷歌,高斯过程帮助控制该公司的高空联网气球。
从根本上说,高斯过程是确定不确定性的最佳方式。 爱丁堡大学AI研究员克里斯·威廉姆斯(Chris Williams)说:“知道你不知道的事情是件好事,而犯下自信的错误是你能做到的最糟糕的事情。”
在2015年被Twitter收购的初创企业Whetlab,该技术提供了设计神经网络的更好方式。设计神经网络是个充满错误的实验过程,你没有编写软件那么多的编码,以便于从海量数据中学习。这是个困难、耗时的过程,但高斯过程和贝叶斯优化可帮助自动化这些任务。正如WhetLab创始人、哈佛大学计算机科学家赖安·亚当斯(Ryan Adams)所说,他的公司使用机器学习技术改善机器学习技术。神经网络可能会遇到“信心错误”问题,在识别不确定性方面,这种优化可帮助处理问题。亚当斯已经离开Twitter,加盟了谷歌AI团队Google Brain。
有些研究人员还认为,小数据驱动的高斯过程在推动AI自动化方面可能会发挥关键作用。AI初创企业Prowler首席执行官维沙尔·查特拉斯(Vishal Chatrath)说:“为了开发真正的自动化代理人,它必须能够非常迅速地适应环境。这意味着,它需要以高效的方式学习。高斯过程可轻松胜任。与神经网络不同,它们没有‘黑盒子’问题的负担。如果发生意外,你可以追踪到源头。”
不要恐慌
在Prowler,查特拉斯已经招募了3名技术专家。之所以将总部选在剑桥,因为这里有许多人是高斯过程及其相关技术的专家。这家公司正开发新的AI系统,它可以学习浏览大型多人游戏和其他数字数节。这是个复杂的过程,但他们希望将来AI系统能出现在真实世界中
与此同时,亚马逊也招募了擅长贝叶斯算法技术的AI研究人员,即舍费尔德大学计算机科学家尼尔·劳伦斯(Neil Lawrence)。劳伦斯最近在帖文中指出:“无需感到惊慌,通过使用我们的数学工具可以探索新一轮的深度学习方法。我们可以保证,它们大多数都是无害的。”(小小)
注:本文为网易智能工作室稿件,转载需注明出处,否则追究其法律责任。
识别假新闻与NLP有何不同 为何连FB都搞不定?
【网易智能讯 1月16日消息】假新闻成为新闻头条已达几个月,现在一组研究人员试图运用AI技术来解决假新闻难题。
卡内基梅隆大学副教授迪恩·波美勒(Dean Pomerleau)发起一项挑战,声称如果有人开发出能准确发现假新闻的AI算法,他将奖赏研究者2000美元。
与此同时一些硅谷大公司——比如谷歌和Facebook——也在解决努力解决这个问题。开发AI算法来解决假新闻。
但识别假新闻与其他AI算法的成功(比如图像识别和自然语言处理)不同,假新闻千变万化,本质上的多变性决定其难以抓取模式特征。 制服假新闻要求AI系统多一层判断,而这是今日之AI还不具备的能力。
除了这个问题,竞争或许更能见证AI的进化。未来研究人员能够开发出比今日更优秀的工具。
此外他还更详细地介绍了研究人员在解决假新闻过程中将要面临的挑战和机遇,以及他们的成败如何反映当今AI的发展状态。