17 Matching Annotations
  1. Jan 2025
    1. mit 6.824


    2. 首先是 Storm 的作者南森·马茨(Nathan Marz)的“Big Data”,现在也有中译本叫做《大数据系统构建》。对于人为错误的容错问题的思考,为我们带来了著名的 Lambda 架构。在我看来,即使到今天 Lambda 架构也并不过时。其次是俗称 DDIA 的这本《数据密集型应用系统设计》,这本书梳理了整个大数据领域的核心技术脉络,是一本非常合适的架构入门书。第三本是专注于流式处理的《Streaming System》,不过目前还没有中译本上市。如果你更喜欢通过视频课程学习,那么去看一看来自 MIT 的课程 6.824 的 Distributed System 绝对错不了。我在这里放上了Youtube和B 站的视频链接。最后是一份很容易被人忽视的资料,就是 2009 年 Jeff Dean 在 Cornell 大学的一个讲座“Designs, Lessons and Advice from Building Large Distributed Systems”的 PPT,我也推荐你去看一看,对于理解大数据系统的真实应用场景很有帮助。


  2. Mar 2023
    1. 是一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件; 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。


    2. HDFS是一个主/从(Mater/Slave)体系结构,由三部分组成: NameNode 和 DataNode 以及 SecondaryNamenode: NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。 DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个 DataNode 上存储多个副本,默认为3个。 Secondary NameNode 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。最主要作用是辅助 NameNode 管理元数据信息。


  3. Dec 2022
  4. Jul 2022
    1. 大数据分析/挖掘尽管重要,产品的信息化也十分重要,企业需要一个从大数据到大产品的进程。
  5. Nov 2021
    1. 2 HOMER     可再生能源互补发电优化建模 ( Hybrid Optimization Model for Electric Renewable,HOMER) 是由 NREL 资助开发的可再生能源混合发电经济-技术-环境优化分析计算模型,主要针对小功率可再生能源发电系统结合常规能源发电系统形成的混合发电系统进行优化。     HOMER 的优点在于其灵活的系统建模能力,能够对多种可再生能源、发电技术进行建模仿真,储能模型考虑了飞轮、蓄电池、液流电池以及氢储能。HOMER能够对并网型和独立型微电网系统进行建模仿真,支持基于全年 8 760 h 能量平衡仿真的系统容量优化以及参数灵敏度分析。其应用范围广泛,适用于不同规模的系统,目前已在城市、海岛、村庄、社区、住宅等规模下的可再生能源规划及电网优化设计中得到应用。此外,HOMER 还能提供不同系统配置下详细的经济分析结果,但不足是作为能源规划分析软件,没有对网络进行建模。


  6. Feb 2021
    1. We’re in the middle of a data revolution. Business processes everywhere are becoming digitized. Firms like Walmart and Target know exactly what you search for and what you end up buying. Other firms like ADP, Mastercard and FedEx are intimately involved in payrolls, transactions, delivery and every other stage of the commercial pipeline. And every single action that these firms take is recorded and stored for analysis. Human interactions are also becoming digitized. Social networks, instant messaging and web search paint a dynamic, real-time picture of what people are interested in and who they’re talking to. Again, every single action is recorded and stored for posterity. Smartphones are ubiquitous. This means an accurate location sensor, audio recorder, still/video camera, radio transponder and internet connection in every pocket. Almost no part of the world is outside the limits of cellular coverage. Cars and trucks now have embedded sensors, tracking position, velocity, traffic and much more. Satellites and GPS have gone from the preserve of the few (military) to the plaything of the many; imagery and position data are today a public good. As a result of these technological innovations, we are swimming in a sea of data. Yet this data would be meaningless if it weren’t for another, parallel advancement in the area of computation. Thanks to the relentless progress of Moore’s Law, we have the bandwidth to capture all this data, the memory to store it and the cycles to analyze it and extract commercial value from it. This capacity has transformed industries everywhere.

      所有的业务流程都在数字化。像 Walmart 和 Target 这样的公司可以精确地知道你在找什么,你最终会买什么。其他公司如 ADP、MasterCard 和 FedEx 等则深入参与到了薪酬、交易、交付,以及商业流程上的各环节。这些公司的每一个活动都为分析而记录和存储了下来。



      汽车和卡车现在都已嵌入传感器,跟踪位置、速度、交通情况等。卫星和 GPS 已经从少数人的特权(军事)变成了大众的玩物;图像和位置数据是当今的公共利益。


    2. And companies will evolve to make use of all this data. Today, for every Amazon or Target that runs a rigorous program of data collection, analysis and action, there are dozens of companies that still operate by old-school rules. As time goes by, these firms will either adapt or become extinct. Either way, the future belongs to businesses that embrace the data revolution. This means that the amount of business data available to analysts will only continue to grow.

      所有的公司都将会学着来利用所有这些数据。现在,相对于每一个类似 Amazon 或 Target 那样,运行着严格的程序来进行数据收集、分析和行动的公司,仍有更多公司在用老式的规则运转。随着时间的推移,这些公司要么去适应,要么会消失。不管怎样,未来属于那些拥抱数据革命的公司。这意味着可供分析师使用的商业数据只会越来越多。