资料内容:
1、 请解释下为什么鹿晗发布恋情的时候,微博系统会崩溃,如何解决?
出题人:阿里巴巴出题专家:江岚/阿里巴巴数据技术高级技术专家
参考答案:
A. 获取微博通过 pull 方式还是 push 方式
B. 发布微博的频率要远小于阅读微博
C. 流量明星的发微博,和普通博主要区分对待,比如在 sharding 的时候,也要考虑这个因素
2、有一批气象观测站,现需要获取这些站点的观测数据,并存储到 Hive 中。但是气象局只提供
了 api 查询,每次只能查询单个观测点。那么如果能够方便快速地获取到所有的观测点的数据?
出题人:阿里巴巴出题专家:江岚/阿里巴巴数据技术高级技术专家
参考答案:
A. 通过 shell 或 python 等调用 api,结果先暂存本地,最后将本地文件上传到 Hive 中。
B. 通过 datax 的 httpReader 和 hdfsWriter 插件,从而获取所需的数据。
C. 比较理想的回答,是在计算引擎的 UDF 中调用查询 api,执行 UDF 的查询结果存储到对应
的表中。一方面,不需要同步任务的导出导入;另一方面,计算引擎的分布式框架天生提供了分布
式、容错、并发等特性。
3、一颗现代处理器,每秒大概可以执行多少条简单的 MOV 指令,有哪些主要的影响因素
出题人:阿里巴巴出题专家:子团/创新产品虚拟化&稳定性资深技术专家
参考答案:
及格:每执行一条 mov 指令需要消耗 1 个时钟周期,所以每秒执行的 mov 指令和 CPU 主频相关。
加分: 在 CPU 微架构上,要考虑数据预取,乱序执行,多发射,内存 stall(前端 stall 和后端
stall)等诸多因素,因此除了 cpu 主频外,还和流水线上的效率(IPC)强相关,比较复杂的一个问
题。