InVisor学术科研
学霸们不只有生活的苟且,还有HiMCM美高数学建模竞赛!!
2020年12月15日
InVisor学术科研
如此耀眼!商科学生心目中的“火焰杯”—— 传说中的沃顿商业投资挑战赛?
2020年12月15日

这些年,所有认识的研究数据挖掘的同学都涌向了Kaggle竞赛……

InVisor学术科研

在“大数据”这个名词风靡一时的时代,真正了解数据科学的人都知晓所谓“大数据”不过是又一个被媒体炒热惹人注目的idea罢了……

而,数据挖掘(Data Mining)才是光鲜亮丽的“大数据”背后的核心概念。

专业计算机科学数据分析方向的同学也都知道~ 数据挖掘就像真是在数据的矿洞中挖煤一样,从海量的数据当中找到最有用的那个来解决实际问题,而自己并不需要做那个勤勤恳恳的“矿工”,这些苦活儿交给计算机模型就行了,我们所需要做的就是指挥它,像一个矿区经理。yysy,玩过金矿小游戏嘛~

光是“挖矿”能带给我们什么呢?

比如说:图像识别——手写数字识别,以及更高级点儿的——叶片分类;这些都是人像识别技术的基础。或者说,你可以预测未来的走向——房价是攀高还是走低?明天计划的旅行是否会因为天气而泡汤?甚至说——你可以预测2022年世界杯冠军(当然你要是够强才行)。

不过对于那些刚刚跨入这一行业的零基础“小白”来说,一切恐怕都没有听上去的那么简单。哪怕你是上课专心听讲的那一类,缺少上手操作的实际情景你很难对数据挖掘的技术保持熟练度(二来你学校学的东西和实际问题差距不是一点半点儿)。所以芳老师周围的很多学员都在Kaggle平台上大展身手(或者被国外大佬血虐)~

Kaggle,一个成立于2010年旨在开展数据挖掘与预测的在线竞赛平台。在这上面会有一些开发商或者是某一领域的科学家发布一些他们行业的一些数据,擅长数据统计和挖掘的专家就会通过这些数据来帮助他们完成他们想要的分析结果。

当然这也是一场竞赛,因为是以“众包”来产出最理想的模型,所以是有时间限制的,并且最后会有排名,排名最高的是会获得一定额度的奖金的。竞赛内容除数据挖掘外,还会涉及一些计算机视觉化(CV)和自然语言处理(NLP)方面的比赛。

其实最好玩的还是官方非常良心,每种比赛都有划分级别,适合不同层次的“玩家”竞赛。比如你是一名小白,那么入门级(Getting Started)就是你创造处女作模型的最佳场所!但是嘛,由于是最简单的比赛,往往达不到开发商或者科学家的项目高度,所以完全是Kaggle官方自己“出品”的比赛项目,没有奖品或排行,永久性纯鼓励性质的“课后作业”,就像是在初学Python的时候打的第一句话“Hello,World!”一样~

当然最后的答案也是汇集了很多大神的思路,非常值得小白们学习。一些经典的题目如:Titanic: Machine Learning from Disaster都摆在哪儿好久了,几乎是每个光临Kaggle的小伙伴的必经之路。

进阶级(Playground)中的题目正如它的英文单词一样:游乐场,所以难度有提升但还是挺轻松的,像之前InVisor芳老师提到过的叶片识别就属于Playground当中的题目,当你打完这些“小Boss”后,会得到官方的一些“荣誉值”(Kudos)以及少量奖金(注意啦,只是部分竞赛题目会有哦)。

当你觉得大众的“广场”已经不适合像你这样的大神待下去了的时候,或者你想用你深厚的机器学习功底赚点钱的时候,高级(Featured)竞赛项目就很期待你的到来了。这里的比赛往往都带有商业目的,难度很大的同时,奖金也很可观。如果你的模型够好,就很有可能被公司挑选出来应用到商业实践中——而这时候的奖金就非常高了,上百万美元都是完全有可能的。不过即使是没有拿到奖金,Kaggle官方也会给前200名颁发金银铜的奖牌哦!

Featured中的项目可谓是非常多,也是芳老师推荐同学们进军的目标。但如果你是带有特别目的的,那么你可以考虑以下这些:

  • 研究(Research):虽然大多数没有奖金(有些会提供会议邀请和发表论文的机会),但其题目更具有科研价值,有意提升自己科研数据处理能力的小伙伴们可以一试。
  • 招募(Recruitment):在你上传了你的模型后,也可以上传你的简历供公司参考,随后的奖品很可能就是公司发来的面试邀请,如沃尔玛就常常发布一些recruitment目的的题目来招聘他们想要的人才。
  • 年度比赛(Annual):Kaggle会以每年两次的形式发布一些特殊竞赛,如三月份的机器学习竞赛以及圣诞节前后的主题优化竞赛。
  • 课业比赛(In Class):嗯,课后作业,如果你完不成就等着挂科吧!——某位教机器学习的教授留。一般是仅限校内学生参加,有些老师也为了给同学们一些好的例子就会将题目开放以收集大神的“作业”。
  • 限制参与赛(Limited Participation):嗯,很神秘,芳老师卖个关子,待会儿讲哈哈哈哈~

虽然每种比赛要求都不一样,但是在排名机制上都相差无几。

首先作为参赛者可以多次提交你测试集的预测结果,一天最多可以提交5次,而且在每次提交完结果后都会获得实时的排名情况,直到比赛结束排名。比赛结束前Kaggle官方会从你所提交的结果中抽取25%-33%进行实时排名,但比赛结束后参赛者也可以选择你自己认可的结果参与到最终排名。这一套机制主要是为了防止参赛模型出现过拟合现象,从而确保准确率优异且繁花能力强的模型,只不过参赛者直到比赛结束都无法得到准确率的反馈,对参赛者模型结果的判断造成一定挑战。

整个比赛流程大致分为三步:

  1. 你从Kaggle平台下载你感兴趣的比赛的数据集,同时你还要仔细阅读有关主办方对于数据,问题概述,评价指标,提交方式等方面的介绍。假设你在比赛过程中有疑问,Kaggle会提供相应的咨询服务,他们也在竞赛形式的安排以及数据保密性上负责;
  2. 创建好自己的模型后,把主办方提供的数据集输入进模型进行运算,并将最终的结果上传到Kaggle上;
  3. 你通过你的实时排名来确认你的结果是否是最优的。如果排名下降,你可以对你模型进行更改和优化并上传新的预测数据。

在比赛结束后,你的排名如果靠前,Kaggle也是会有一定的奖励的(虽然不给钱…)——等级评价体系。就像知乎的盐值一样,评价一个用户是否很牛逼靠三个维度:竞赛名次,社区参与度和代码。然后Kaggle根据这些数据把用户分为了5个等级:

Novice:只要你有账号之后,就可以获得了这个等级啦,证明你入坑了!

Contributor:完善你的个人信息并且进行了Kaggle的相应认证即可;

Expert:在所有比赛中获得两枚铜牌,五枚代码铜牌,参加讨论获得50枚铜牌;

Master:一枚竞赛金牌+两枚竞赛银牌+十枚代码银牌+50枚讨论银牌且总讨论200枚讨论奖牌;

Grandmaster:五枚竞赛金牌+solo竞赛金牌+15枚代码金牌+50枚讨论金牌且总讨论500枚讨论奖牌。

无非就是肝嘛,肝就完事儿了…只要有好肝,奖牌天天赚!

想不想来,就问你一句话了!

最后最后,大家可以对InVisor芳老师多多支持哦~点赞点赞点赞哈!!!如果你对科研辅导、论文发表有任何想法的话,非常欢迎来狂撩芳老师哟~(一般人不会告诉他的客服微信:invisor003,备注“学术科研”齁)❤️❤️

评论已关闭。