来源:新浪财经
新浪财经讯主题为“和而不同,思想无界”的CC讲坛第36期(人民网慕课“CC学院”第2期)现场演讲于年4月25日在北京以网络直播形式举行。来自中国科学院植物研究所高级工程师、“花伴侣”创始人李敏出席并以《花花草草App,走进自然花伴侣》为题发表演讲。
以下为演讲全文:
我是李敏,来自于北京香山脚下的中国科学院植物研究所。在植物园里,前些年我经常能听到这样的事情,一个孩子指着树上的花问家长这是什么花?家长不假思索随口就说这是百合,我在旁边听着我心里发颤,百合长在地上,树上的花是玉兰,小孩子的记性非常好,一旦前面进入了错误的信息,后面要改正他,就太难了。
我们国家地跨热带,到寒温带,山川纵横,地域辽阔,物种异常丰富。中国的植物种类繁多,是世界上物种最丰富的国家之一。
我身后的楼是国家植物标准馆里面保存了来自于全国和世界各地的接近万份的植物标本。这些植物标本是研究植物分类、分布,幕后的这些信息的基本材料。
每一份标本上面有植物的花果、10条或者是11条,上面准确的记录了植物产业的时间和地点,这样一些信息汇集起来,就是我们植物资源的一个最基本的信息库。为了弄清楚我们国家的植物资源的现状,4代科学家,历经80年、45年的编纂、80年的积累,编撰了一套中国的植物百科全书《中国植物志》。这套书记载了中国的种植物,包括它的形态特征、产地分布、公共用途、经济价值,这样一些信息,为开发利用植物提供了必须的基础,也为其他学科的发展提供了材料,还对常见的物种提供了一些线条图。那么这样一些描述,它主要是专业的知识的描述,对于专业的工作者是非常有帮助的。
年的时候,我们把这套书80乘卷、本的巨著大概有多公斤的书,我们把它通过数字化进行了全文的数据库网站,这个网站到现在为止的访问量都非常大,每年的服务的人数超过0万人次。后面随着智能手机的普及,我们又和科学出版社联合发布了自在掌握手机植物志,这样我们只需要拿出我们的手机就可以随时查阅这万字的《中国植物志》的描述,这个是我们《中国植物志》手机版的。大家能看到它的描述,相对专业配的线条图,使用和阅读起来可能是针对专业工作者,普通公众要想使用还是会有些吃力。
大家看前面讲的代表种银杏,大家看到照片的时候还是感觉到比较亲切,因为在很多人行道,树林里面都能见得到。我们公众需要更加直观、更加便捷的这样一些植物认知的工具。
从上个世纪80年代开始,我们的老一辈的科学家就开始去全国各地收集植物。画面徐克学教授来自于中国科学院质量研究所,是我们的老同事,他走遍了中国物种丰富的天南海北,各个地南到海南岛、西到新疆、西藏这些地方,拍摄了数以10万的照片,这些照片对于我们研究所提供了非常好的基础。
另外一位是马炜梁教授,他是华东师范大学的教授,是植物分类学家,同时也在教受植物学,要了解植物学的植物的结构就非常重要,我们要认识这个物种,我前面提到的玉兰花,白色的是它的花瓣,里面摆成圆圈的这部分是他的雄蕊,里面有花粉,中间绿色的带毛刺的是他的雌蕊。整个的花通过解剖以后,我们能够更加好的去认识到这个科属的特征,有利于我们去做进一步的分类学研究。
有了这两位先生的经历以后,他们把他们的胶片都贡献给了我们植物标本馆。我们以此为基础也进了一个网站平台,希望把专家和爱好者手里的照片都进行有效的汇集起来,建立植物图样库,每一张照片我们都详细的准确的记录了它的拍摄的时间、地点、经纬度等等这样一些信息,实际上就参照我们的标本的信息来,用它作为一个标本数据的非常好的补充。
现在为止,我们这个图库有来自全国的6.5万名摄影师的共同参与,从最初的08年建库的个物种到现在3.4万个物种,接近万幅图片,那么这些图片的汇集是我们做下一步的彩色版《中国植物志》一个非常好的基础。
当你有了图片以后,我们想能不能够利用这些图片来进行更好的不同的识别。
首先我们就想到叶片,因为叶片它是典型的,比较容易获取它的形状,容易建功,在早期的植物世界里面,机器世界里面用的最多的就是叶片。叶片,它在特定的一些类群或者在有限的范围之内,能比较好的进行识别。但是因为叶片的变化非常大,受环境的影响也很大,所以说它实际上在大范围的使用的时候,很难做出一个比较好的模型。所以说叶片识别没有得到很好的利用,基本上都是属于demo的状态。因为我们物种的鉴定特征,主要科属的分类依据在花果上面。随着我们图库的建立,我们收集的图片越来越多,我们就想能不能把图库里面的带花朵的照片收集起来。
我们整理到图库里面有11万幅花的照片,然后分出了1多个种,当时跟百度的深度学习实验室合作,经过人工智能的训练,初步的实现了这1种的花的识别。这基本上也是第1个可以用计算机来识别花卉的这样一个应用,当时我们提供了一个在线的网页来提供服务。到年,尤其是阿尔法狗在战胜围棋以后,那么人工智能又获得了很大进步,尤其是这些算法都开源以后,大家都比较容易找到算法,然后我们又把图库里面更多的图片拿进来,我们选取了0个物种,大概是万幅的图片,让计算机来进行学习,这个时候我不再局限于只要花的照片,不管你是哪个部位的照片,只要你鉴定了,我们都拿来进行去学习。这样我们就得到了一个非常好的0种的物种的识别,那么基本上涵盖了我们身边常见的野生和栽培的物种。我们发布了一个产品叫做花伴侣,到为到此为止的话,我们只要任何一个人拿着手机对着我们关心的植物拍摄,就能得到一个非常好的识别的结果。那么只要你对着花的特征,基本上准确率都是非常高的。不但能够拍摄照片,还能够识别完了给你名称以后你可以去访问物种的百科信息,你也可以贡献你的图片给我们图库。在《中国植物志》手机版的基础之上,我们的物种的获取鉴定从未如此便捷,这个应用一上线以后,就得到非常好的应用的推广,每到节假日我们的用户就爆发式的增长,基本上大家见到用户后期都会去分享这样一个应用。
也有人拿着这个手机对着我们人拍一拍,那么识别出来是榴莲,南瓜、茄子觉得很好。为什么会出现这样的一个情况?其实现在我们的人工智能不是万能的,我们现在还处在弱人工智能的时代,人工智能还不知道自己不知道,它永远都只知道自己知道那些东西。比如我们拍一个盘子,我们拍一个塑料花,它会根据这张图片的纹理,颜色等去到训练集里面去找最合适的模型来进行比对,推出一个结果。有时候这种耦合还会得到较高的支持度,那么我们显示的可信度也会比较高,那么怎么样拍照片才能够获得比较好的识别效果呢?
首先你要拍正常尺度的照片,我们图库里面因为小苗这些,可是这些图片比较少,所以我们在识别的支持率也往往比较低,这是我拍在花盆里面的一个小的植物。识别出来第1个结果肯定不对,因为我知道它是什么,然后往下拖,我发现更多结果里面第3个结果叫做秸秆,真是我识别的这个物种的特征。实际上这里面告诉我们,我们为什么要给多个结果?可以相似度高的不一定正确,但是相似度低的也不一定是错误的,那么它都会给我们参考。
我们为什么要给你一个参考图片,给你一个百度链接,就希望人工智能的基础上再加上自己人的判断,这样你就能获得比较好的识别效果。另外一个就是我们在识别物种的时候,尽量不要拍太大的景观,让我们在一张小照片里能看到细节,也不要拍的太客气,最好在这个画面里面同时包括花叶等等这样一些稍微多一点的信息,因为只有这样的信息它才更加丰富,识别的准确率还更高。其实现在人工智能的这个效率已经让我惊叹了,这三张照片都得到准确的结果。
我们一定会让科学家看到,现在我们也实时的能够看到大家的识别的记录的情况,因为我们每天的识别量非常大,所以说现在还不能做到每一张图片去做,看它的识别准不准,不准又会怎么样,但是随着我们数据的积累,包括人工智能的进一步的迭代,我们就会去筛选出哪些是科学家重点
转载请注明:http://www.0431gb208.com/sjslczl/2959.html