首页 > 简历攻略 > 请问你已经在公司上班了吗?是做hadoop开发吗?能不能指点我一下在hadoop面试时都要注意哪些问题吗?

请问你已经在公司上班了吗?是做hadoop开发吗?能不能指点我一下在hadoop面试时都要注意哪些问题吗?

2024-01-24 21:50:57

请问你已经在公司上班了吗?是做hadoop开发吗?能不能指点我一下在hadoop面试时都要注意哪些问题吗?

美国大数据工程师面试攻略

项目数据分析师分享:美国大数据工程师面试攻略
方法/步骤
先做一个自我介绍,本科南开后,加入了一个创业公司kuxun,做实时信息检索,后来进入百度基础架构组,搭建了Baidu App Engine的早期版本,随后去Duke大学留学,在攻读硕士期间,做跟Hadoop大数据相关的研究项目Starfish,之后在Amazon EC2部门实习,了解它们的内部架构,毕业后加入Linkedin,做广告组的架构,涉及Hadoop调优,Data Pipeline, Offline/Online, 实时系统。最新是在Coursera从事数据工程师工作。在多年工作中,除了对技术的不懈追求,也积累了大量的面试经验,从国内的一线互联网百度,阿里巴巴,奇虎,人人,到美国一线公司Facebook,Google,Linkedin,Twitter,Amazon,到热门Startup,Uber,Pinterest,Airbnb,Box,Dropbox,Snapchat,Houzz,拿到10+ offer,并且在Linkedin期间也面试过100+候选人,参与面试题制定,乐于分享并帮助很多人成功求职,实现目标。
我们看一下这张硅谷地图,它坐落于美国加州,从圣何塞到旧金山的狭长地带,中间是San francisco bay,简称湾区。它的由来是这边有计算机核心处理器中离不开的硅,30年来,硅谷就发展成为无数技术性创业公司的摇篮。在20多年前,就有很多硬件公司的辉煌Intel,Oracle,Apple,Cisco成功上市,10年前,互联网的兴起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶摇直上,成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion,PE从负数到上千。疯狂的估值背后也改变了世界。
如果说硅谷成功是有原因的,我觉得有两点。地理位置是得天独厚吸引大量人才,这里有Stanford和加州州立高校提供智力库的支持,在硅谷可以看到来自全世界的最聪明的人,中国人,印度人,犹太人构成这些Engineer的主力。虽然国内做技术自嘲为码农,但在硅谷成为一个优秀工程师还是收获颇丰。另一方面创业是一个永恒的话题,在Stanford有个说法空气中都飘扬中创业的味道,一些早期员工通过上市套现又积累经验成了天使投资,Y Combinator,各种技术forum,meetup,创业导师,都很活跃。资本的力量功不可没,早年VC通过投资,收购,上市放大形成一个雪球效应。大家总喜欢问什么是next big thing,哪一个是下一个facebook,下一个musk,根据统计10年能成就一个千亿以上的公司,目前这个进程正在缩短。
我就拿Linkedin作为例子,介绍高科技公司(FLG)是什么样子。它是成立2003年的职业社交网站。在10年的发展中,也不是一下子爆发的,目前有3亿的全球用户,虽然跟Facebook,Google 10亿+用户没法比,但是它有很好的护城河,用户定位高端精准,单位价值高。这张照片中左边这位是创始人Reid Hoffman,是Paypal黑帮成员,在硅谷也是呼风唤雨的大佬,目前是董事和投资人。中间这位是CEO Jeff,2013年被Glassdoor评为最佳CEO,作为职业经理人,成功帮助linkedin高速成长,他最喜欢提到transformation,希望我们每个员工能挑战自我,在各自岗位上进化。Linkedin提供了员工很好的福利,有号称湾区最佳的免费食堂,每个月一次的in day,hack day, 帮助员工内部创业的incumbator计划。它特点是数据驱动的开发产品,比如 People you may know, Job you may be interested, 我做过Sponroed Ads 都是需要很强数据背景和data scientist的支持。它的Biz model也很独特,有3个line,面向公司的招聘服务,面向广告商的市场服务,面向个人的订阅服务,还有最新Sales Solution,因为这么多可能性,成为华尔街的宠儿。
说硅谷,除了那些已经成功的大公司,不得不说现在最新的创业动向,这些代表了未来下一个FLG。我总结了一些领域和代表公司:云计算(box, dropbox),大数据(cloudera),消费互联网(pinterest),健康(fitbit),通讯(snapchat),支付(square),生活(uber)。 这里是华尔街网站更新的最新融资规模,比如Uber就达到18Billion的估值,我当时拿到offer没去,还是觉得很疯狂,如果细看这张表,大家可以看到硅谷(蓝色)尤其是旧金山它们的融资规模远远大于其他地区,还是地理决定论。而在国内的两家xiaomi,jingdong都是在北京,而最近大家看到一些泡沫论,说什么阿里巴巴上市是否美股到顶,经纬VC创始人也提醒我们泡沫的风险,我无法判断。如果能参与到下一波浪潮里面去是很过瘾的。我推荐大家去看看 <浪潮之巅>,<奇点临近>,我还是很期待未来20年的技术革命。
我个人热爱大数据,在硅谷这也是大家津津乐道的,有个笑话,big data is like teenage talking about sex, nobody know how to do it. 其实大家还是兴趣驱动就好,不要那么功利,大数据技术涉及太多,平常工作中也是慢慢积累,有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个,如果你用不好,你的压力很大的,举个例子,你用某个开源数据库,发现它偶尔有数据丢失怎么办,如果这是线上服务,你不断收到报警,这时候你当时选用它的优点 scalable,容错性都没意义了。接着说大数据,这里面Hadoop作为行业标准,我面过的除了Google,微软不用,几乎所有的公司都在用,建议大家利用这个机会。这里面有三巨头,cloudera是老牌Hadoop咨询公司,Hadoop的创始人做CTO,Hortonworks也是很多Hadoop的committee,MapR是提出hdfs的erasure 编码方式高效而著名,它们都是融了巨资,模式也很像,先推出社区免费版,但有个商业版提供更好的管理。 而今年出现一匹黑马,Spark,简单说就是内存级别的计算,比Hadoop框架里能节约IO,利用缓存,能适应批处理,迭代,流式计算。
这里看一下它的生态系统,如何学Hadoop是个循序渐进过程,先要理解学习它的core系统,HDFS, MapReduce, Common,在外围有无数的系统工具方便开发,我个人用过的是 Avro作为数据格式,Zookeeper作为选主的高可靠性的组件,Solr作为搜索接口,Pig搭建工作流,Hive 数据仓库查询,Oozie管理工作流,HBase 作为KV 分布式存储,mahout数据挖掘的库,Cassandra nosql 数据库。我建议初学的考虑Chinahadoop的课程。
而Hadoop本身也是个进化过程,几年前0.19版本,到0.20, 0.23分流成Yarn架构最后进化成Hadoop2.0, Hadoop1.0 和 2.0 它们的接口和组件是完全不同的,但总体上Hadoop 2.0 是趋势,因为它有Yarn这样分离的资源管理平台,可以以插件的方式开发上面的Application,解放了生产力,而像Spark,Storm这些新型处理器也是支持Hadoop 2.0的。这里是Hortonworks它们提出来的社区版本架构,可以说标准的制定者,一流的公司制定标准,其他的公司一般用只能用它们提供的稳定版,没有多少话语权。但从事大数据,并不见得是要去这些制定标准的公司,大量的应用也是非常考验架构的灵活性。并且能看到实际的产品,很有成就感。
说到今年火的,还是要看Spark。从去年至今,已经开了2届Spark大会,上千人的规模,无数人对比Hadoop 100倍的性能提升而兴奋。这里说它的背景是诞生于Berkeley的Amplab,它们有个很有名的BDAS(Berkeley Data Analytics Stack),目前Spark已经成为Apache的顶级项目。去年这个实验室的教授跟学生出去成立Databricks公司,拉到两轮上千万的风投,有人成Spark是Hadoop的终结者吗?我看今年Spark大会上,所有的Hadoop大佬公司都是鼎力支持,像Cloudrea甚至放弃impala的一线支持而转变成Spark。如果这么发展下去,星星之火可以燎原啊。它里面用到Scala是一种函数式语言。里面的组件也很多,有Shark支持SQL类似Hive,有Spark Streaming,MLlib,Graphx,SparkR,BlinkDB。它的核心数据结构是RDD,可以跑在各种分布式系统上。总体上是个包容性+侵略性的系统。我个人也很看好它们的发展。

请问你已经在公司上班了吗?是做hadoop开发吗?能不能指点我一下在hadoop面试时都要注意哪些问题吗?

请问你已经在公司上班了吗?是做hadoop开发吗?能不能指点我一下在hadoop面试时都要注意哪些问题吗?

看你面试的是什么岗位了
1、不管什么岗位,都需要对hadoop的原理以及存储有了解,你需要多看看,原理很重要,如果面试官知道你没怎么有过开发经验,但是你的原理很透彻,他一定会欣赏你觉得你是个可造至之才。
2、mapreduce的思想一定要懂,并且要会编写几个典型的例子,比如单词统计,比如求平均值,比如top n问题等等
3、一般公司用hadoop,都不只是使用hadoop,还会使用hadoop生态圈的其他组件,比如hive,hbase,spark,storm等等 ,如果有精力可以看看,了解一下。但如果没时间,不要把精力全放在这上。
4、以上都是一般都会问到的,如果想让自己加分,你就要懂一些细节,哪怕你根本没测试过,但是你从书中看到了原理,并理解了也是ok的,比如mapreduce的shuffle过程很重要,你能不能说一下这个过程,涉及到那些参数,是否能调优?
5、要给自己自信,你要知道你去面试,对方知道你没有干过多少大数据的开发工作,他不会要求你出个完整方案,解决一下某个问题,也就是问一些基础的,大家都知道的,只要你这些基础的比别人扎实,比别人多面试官就会觉得你比别人强,如果你是在不会,可以说这个我不太清楚,不过我知道xxxxx,再不济你就说我现在确实还不太明白,不过我可以学,我只花了5天就把hadoop 这些原理搞明白了,并做了小例子等等。
6、当然职位的不同,有可能还会考你算法,这个我就没办法了,看你的水平了

请问你已经在公司上班了吗?是做hadoop开发吗?能不能指点我一下在hadoop面试时都要注意哪些问题吗?

程序员什么样的简历面试官一下就否定掉

面试的时候,简历就像是我们的第一容貌,总是给人第一印象,聚会都是留给有准备的人的,那么,程序员的面试官喜欢看什么样的简历呢?下面给大家分析一下。
简要来说,程序员的简历更要求简洁大方,标点符号要正确,段落分布要合理。一般同一种颜色即可,当然可以有突出标记的第二种颜色。
好了,进入正题:
先说基本信息:HR看的基本信息就三种,教育背景、工作背景,英语水平。
教育背景:主要包含学校、专业、在线周期(毕业-入学)、是否统招,其中学历为最高学历,如果你是本硕连读,请写上硕士学历
工作背景:主要包含公司名称、职位、起止年月、手下人数、汇报对象。
英语水平:写代码英文不过关是不OK的,会写会说才是关键,不然让你主导一个项目怎么讲给大家听?
以上是进行人员筛选的硬性条件,如果硬性条件不达标,软性再好也是没用哒。
接下来说说有哪些特别之处,先说个反面教材,如果你是一个JAVA工程师,在写技能的时候如下:
1、java后台开发
2、部分前台页面编写
3、熟悉项目管理
这是什么鬼,连几个专业名词都不舍得多写一个,PASS,所以再补充一下就是:
1、熟悉JAVA后台开发:后台模块主要职责有:后台代码的编写、包括数据库操作、sql语句优化、wsdl技术调用接口、生成接口、编写接口文档、绘制流程图等
2、部分前台页面的实现:不仅掌握Java技术,工作期间也学习了html5和css3的技术,因此也能部分实现前台的页面
3、git项目的管理。包括远程git仓库项目的创建与删除等、gitolite项目操作权限的设置等。
是不是感觉好了很多?再加点作料。
1. 参与设计Oracle的企业管理系统(ERP), 涉及到财务等模块的开发,熟练使用JAVA以及框架等技术,以及Oracle数据库PL/SQL。
2. 研究并使用大数据相关的技术用于解决海量日志的分析,将数据存储到hadoop平台,然后将分析结果导入到Oracle数据库,通过Spring框架将结 果进行展示。熟悉hadoop生态圈的各种开源技术如hdfs, MapReduce, Hive, Pig, HBase, 等。熟练使用Java语言编程和Linux本语言。
哎呦,不错,同学约嘛?
总结:一定要有项目经历,整体的职业经历要有连贯性,有一个清晰的自我评价和求职意向,简历名称一定要盖,如“应聘职位-姓名-毕业学校-现处公司-工作年限”。
切记:一定要转换成PDF格式的文档!!!一定要转换成PDF格式的文档!!!一定要转换成PDF格式的文档!!!
上一篇:应聘java程序员简历要求要作品,作品该写哪些东西? 下一篇:web前端开发简历的技能怎么写

联系我们 | 关于我们 | 公司介绍 | 常见问题

脚步网,高端简历在线制作平台,各行各业的简历模板应有尽有

版权所有 2012-2021 脚步网 琼ICP备2023002197号-5