您现在的位置:黑河新闻网 > 黑河新闻 > WAIC 2019 黑客马拉松四十八小时鏖战

WAIC 2019 黑客马拉松四十八小时鏖战

2020-02-13 18:36

原创: Synced 机器之心
机器之心报道
作者:微胖
垃圾难分、智能制造火热、Pepper 机器人做你的英语私教、AutoNLP 全自动建模.......WAIC 2019 黑客马拉松四十八小时鏖战,亮点不断。
8 月 29 日上午,WAIC 黑客马拉松与世界人工智能大会开幕式同时启动,在张江人工智能岛火热开赛。作为世界人工智能大会期间唯一的一场黑客松,该大赛由机器之心承办,张江集团协办,阿里云、微软Azure提供云计算资源支持,张江创业工坊、微软人工智能和物联网实验室提供场地支持。
此次黑客松设计了四大赛题,主要聚焦 AI 技术与应用的热点问题,分别由微众银行、软银机器人、第四范式以及微软 AIoT 实验室进行命题,吸引了来自世界多个国家近百余支团队、数百名开发者报名参赛。
在决赛阶段,48 支团队近 200 位开发者线下展开了四十八小时的鏖战。最终,十三支队伍分列各赛题前三,取得胜利。
微众智能垃圾分类:识别率不理想,场景更难找
和其他三大赛道比起来,这个赛道的团队成员最为年轻。
尽管如此,这一命题还是比我们想象中更有现实意义。据在场评委介绍,在探索智能技术在垃圾分类的应用上,上海做的远比外界认为的多。目前,从前端的居民生活垃圾分类,到小区垃圾装运,再到垃圾厂分选处理,计算机视觉被应用到了每个环节。
作为出题方的微众银行也进行了相关实践。他们曾经花了两周左右的时间做了一款智能垃圾识别的小程序。
垃圾分类范围非常广泛,包括生活垃圾、建筑垃圾(比如居民装修产生的垃圾)、电子垃圾、医疗垃圾等。本次挑战赛聚焦生活垃圾,利用深度学习图像分类模型的构建,实现(上海)四大类别垃圾图片的精准识别,包括湿垃圾、干垃圾、有害垃圾和可回收垃圾。
为此,微众银行发布了 20000 张图片作为训练集、9000 张图片作为测试集(参赛者不可见),考验参赛选手模型的建构、抗干扰能力以及迁移能力。
一共有九支队伍参加了此赛题的角逐。最终,skype 脱颖而出,拔得头筹。

WAIC 2019 黑客马拉松四十八小时鏖战


skype 答辩中
skype 首先捋顺了识别逻辑。在她看来,模型构建的过程和人类认知过程差不多:通常,人类一眼就能识别自己扔的是什么垃圾,比如苹果、电池、筷子、纸盒。然后,再根据相关提示进一步分类到合适的垃圾桶,比如干垃圾或者有害垃圾。
微众银行提供的数据也涉及两级目标分类:一级目标的四大类和二级目标的 400 多个种类,覆盖了主要的生活垃圾。
skype 认为,可以将任务理解为一个二级标签空间上的分类以及标签映射问题。随后,她介绍了自己的分类器设计、特征提取模型以及推断策略。和其他选手不同的是,在整个比赛过程中,她并没有爬取额外的数据。

WAIC 2019 黑客马拉松四十八小时鏖战


从最终结果来看,验证集结果明显好于测试集。其中,针对有害垃圾的识别效果较差;可回收和干垃圾识别效果最理想,可以达到 80% 以上。
分析其中原因,她认为有一点在于训练集与测试集差别很大。如果要提升效果,还要在数据搜集方面多下工夫,更加切合实际情况。
评委也针对她的算法设计提出了自己的看法:不要为了算法而算法,可以考虑将常识添加到分类设计中。
评委进一步解释道,上海将垃圾分为四大类别,其实并没有大多数人想的那么深奥,本质上也符合生活常识:原则上,人吃的东西,剩下来就是湿垃圾;可回收垃圾无非就是玻璃、塑料、金属、纸张和衣服;至于干垃圾,就是一个兜底的类别。
另一位评委赛后告诉机器之心,他们发现一些参赛选手在算法处理上有一些很有意思的地方,这位 skype 选手的处理方式比较特别,让她印象比较深刻。事实上,在点评过程中,评委也曾就推理策略与选手有过几轮交流。
第二名「分不清什么垃圾」算是本赛道最有故事的选手:垃圾分类本该是 CV 选手的天下,然而这位背景为 NLP 的同学却独自完成了比赛,且获得了第二名的好成绩。
作为一名 NLP 选手,他看到图片后的第一反应是如何用 image caption 将图像中的语义、物体转化为文本,然后再进行垃圾分类。NLP 背景让他没有完全依赖外部形态,而是考虑到了语义特征。他最终选择了 Resnet 50 进行训练。

WAIC 2019 黑客马拉松四十八小时鏖战


「分不清什么垃圾」答辩中
第三名是「sharing happiness」。第一次训练后,和其他获奖选手一样,他的图像分类结果在测试集上的效果出现了大幅下滑,仅有 49%。他认为,除了模型,数据本身也有很大问题,比如爬取图和实际垃圾差距比较大。
接下来,选手对不合理数据进行了人工清理,同时为二级类别每个类型增加了 120 张图片并加入到原始数据,然后进行了二次训练。结果,算法在测试集上的准确率提升了 30% 多,大概为 79%。因为将主要工作都集中在了数据工作上,选手认为,最终结果的提升也与此关系重大。
需要说明的是,79% 是四类垃圾分类效果的平均值。就具体类别来说,和其他选手遇到的情况一样,有害垃圾识别率最低,即便是从网络爬取一些图片后,效果仍不理想;而效果最好的是干垃圾。
评委对干垃圾识别率高的这一结果多少有些意外,在他看来,干垃圾作为一个兜底分类,包含垃圾成分会比较多,也比较复杂。理论上,识别起来应该更加困难。或许,这一结果与参赛者的样本有关。