不介意学一些用不到的东西-01

起源

我记得印象非常深刻,在10年、11年的时候,有一天晚上我们开会开得非常晚,大家讨论了很多内容,最后需要整理一个会议纪要。我问助理你会用visio工具吗,他说不会,但是我可以学。“不会,但是我可以学”,这句话有无穷的力量,可以把各种你没有遇到的问题,不会解决的问题,通过学习来解决。
—— 王兴

我也可以学,这个很简单。

如果说最近的工作有什么值得记录的事情,那也只能是:

SQL 对我而言不再是唬人的词汇

因为要突破限制获取一部分公司数据的原因,不得不自己在 wiki 上看了很多关于 SQL 的介绍,再加上现实的需求,慢慢我也搞得定这个看着很高深的东西。
现在回头看却是不断地悔恨,这么简单的东西为什么不早花点时间看看,浪费了那么多的时间。

大多数时候,是我们自己限制了自己学习新的东西,原因无非:

  • 这个我用不到
  • 这个看着很难
  • 这个有专门的同事在负责
  • 我没时间

可是在前面那几次,和这次自己的体会来看,没有什么理由,这样的想法太愚蠢了。

没有什么东西是学了没用的

这个道理很久就听李笑来说过了,但是现在看下来,自己还是没有做到。

早一点看点 SQL 的东西,也许就不用那么曲折浪费其他人的支持。
我恐慌那些原本就了解这么简单却可以极大提升效率的东西被我错过了。
我也担心,自己还有很多这样东西没有被发现。

保持学习,不惧怕学习任何新的东西。

不过,也需要记录下可以快速学会一件很东西的几个要素:

  • 你有极大的需求:只有确实的需求,你可有动力去推动学习,就像学 aux 不佳的原因就是不需要我去做原型
  • 你有实践的机会:想到以往的错过,大概是因为没有找到公司内部的数据平台来实践这个东西
  • 谷歌+百度+wiki:基本可以解决你的任何问题,如果没有就找专业的人来问下

数据分析的基本过程

第 1 步:提问

你要么获取一批数据,然后根据它提问,要么先提问,然后根据问题收集数据。在这两种情况下,好的问题可以帮助你将精力集中在数据的相关部分,并帮助你得出有洞察力的分析。

第 2 步:整理数据

你通过三步来获得所需的数据:收集,评估,清理。你收集所需的数据来回答你的问题,评估你的数据来识别数据质量或结构中的任何问题,并通过修改、替换或删除数据来清理数据,以确保你的数据集具有最高质量和尽可能结构化。

第 3 步:执行 EDA(探索性数据分析)

你可以探索并扩充数据,以最大限度地发挥你的数据分析、可视化和模型构建的潜力。探索数据涉及在数据中查找模式,可视化数据中的关系,并对你正在使用的数据建立直觉。经过探索后,你可以删除异常值,并从数据中创建更好的特征,这称为特征工程。

第 4 步:得出结论(或甚至是做出预测)

这一步通常使用机器学习或推理性统计来完成,不在本课程范围内,本课的重点是使用描述性统计得出结论。

第 5 步:传达结果

你通常需要证明你发现的见解及传达意义。或者,如果你的最终目标是构建系统,则通常需要分享构建的结果,解释你得出设计结论的方式,并报告该系统的性能。传达结果的方法有多种:报告、幻灯片、博客帖子、电子邮件、演示文稿,甚至对话。数据可视化总会给你呈现很大的价值。