世界LC3开源盛会举办 联想大数据发出中国声音
2018年6月25日,由LFAsia、LLC主办的旗舰年度开源盛会,“2018 LinuxCon + ContainerCon + CloudOpen(LC3)中国”在北京国家会议中心开幕。作为开源大数据技术的倡导者和实践者,联想大数据首次受邀在LC3大会上发表主题演讲,剖析联想大数据在不同阶段的实践、遇到的困惑以及不断迭代升级的大数据架构体系和技术创新。
全球数百位业界大咖将云集本届LC3大会,用3天时间、超过200场分享,对开源技术最为前沿的10大话题,从市场、技术、产业、生态层面做全方位的探讨。数千位开发人员、运营专家等将借助LC3大会这一平台,共同学习和探讨创新的开源思维、前沿技术与解决方案。联想集团执行总监、首席研究员于辰涛和联想大数据研发总监张成松在会议期间分别发表题为《联想全球制造大数据平台的架构演进及技术创新》和《扩展Spark引擎支持MPP计算——支持企业级传统数据仓库场景》的主题演讲。
联想集团执行总监、首席研究员于辰涛做主题演讲
于辰涛表示:“联想过去八年以来,成功构建了联想大数据平台,具备了全价值链的产品和业务优化能力,实现了覆盖全球的大规模云化部署,支撑工业制造业领域500多个大数据场景优化,全面提升了产品研发、生产、供应链、客服等关键环节的运营效率。不仅为联想自身的大数据平台建设服务,联想大数据也为数十家中国制造业500强企业提供业界领先的大数据产品和智能化解决方案, 在工业场景的全价值链优化方面具有广泛的实践。“
在产品和业务优化能力方面,联想大数据形成了用户需求驱动的产品研发闭环,构建了面向产品全流程的敏捷化和精细化优化能力,而用户价值驱动的新型供应链也支持联想千万数量级产品按全球消费者需求个性化柔性生产,并对产品质量实时追踪,关键环节预测和优化。
联想大数据研发总监张成松做主题演讲
在大规模云化部署上,联想大数据目前实时管理全球2亿多台联想设备,其中31家智能工厂,6亿应用用户,1600亿条数据已接入内部数百个业务系统,是国内最大的企业支撑集群。为了支撑这一庞大的数据平台,联想大数据在全球建立了10个数据中心,日增数据30TB,日分析数据10PB,且数据处理完全合规,形成了联想全球化的数据整合能力。联想大数据的研发能力和成果不仅在联想集团内部深入实践,而且也广泛服务于大型骨干企业数字化转型升级。
在于辰涛看来,联想工业大数据经历了1.0、2.0两个阶段,目前正处于3.0的阶段,初步实现了大数据平台突破,能够支持广泛的智能化场景。
数据平台1.0:大数据应用启蒙与拓荒阶段
2010~2014是联想大数据平台1.0阶段。这一阶段是大数据应用的启蒙与拓荒阶段,主要是帮助业务建立量化分析能力,分析软件和设备的日常运营数据、异常状况,并推进了全图形化集群配置管理,实现了千台集群的可视化运维。此外,计算引擎的透明化、万条计算任务的图形化调度和管理也都在1.0阶段实现。
但总体上看,1.0阶段还存在不少问题,比如单层集群架构下千台服务器性能优化和定位难以处理;开源软件更新快,版本关联管理困难;数据缺少安全保护;只有设备和应用数据,没有企业数据;实时性差,不能为实时业务决策做支持;对业务人员有编程能力需求等等。
数据平台2.0:大数据全球化部署、全面整合企业数据
基于1.0阶段的摸索、实践,联想大数据在2014~2016年间,进入了以大数据全球化部署,全面整合企业数据之路的2.0阶段。这一阶段随着移动互联网、物联网的发展,企业数据智能需求大爆发,联想建立了统一数据平台,实现了全球数据整合、全球数据治理、并形成了企业内数据分析能力。同时,为了应对全球化部署挑战,联想大数据形成了构建满足企业不同场景应用需求的混合云架构能力。
经过2.0阶段的洗礼,联想大数据构建起统一的全球数据湖,实现5s内对全球设备和用户进行实时追踪和系统重算能力,数据处理能力极大增强,数据存储能力突破1552亿条记录,日新增30TB数据,追踪联想设备突破2亿台,并且每月以1000万的数量增加,总追踪全球用户数突破6亿。同时,联想大数据还实现了所有数据本地保存,并遵循当地政府隐私保护法规,数据加密并脱敏存储。
不过,联想大数据2.0阶段也面临一些新的挑战,例如企业如何利用数据实现工艺改进、如何支持广泛的OLAP场景和爆炸式的自助分析需求,使得企业的IT资产得以复用,以及如何提供业务弹性,为突发任务调动足量的计算资源等。
数据平台3.0:大数据平台突破,支持广泛的智能化场景
从2016年开始,联想大数据步入平台3.0阶段。为了应对2.0阶段所面临的挑战以及工业物联网应用的日渐深入所带的全新需求。联想大数据在双态融合和大数据平台能力方面再作突破,以生产数据与企业信息化数据融合为基础,大数据平台能力提升为引擎,AI技术应用为助力,实现对工业大数据的全面支持。
在3.0阶段,为了支持工业数据的实时接入和全量融合数据的实时分析等创新数据应用的需求,联想大数据通过LeapIOT,基于开源框架深度优化的大数据计算平台将工业应用中的海量数据融合计算提升到了实时全量计算的新高度。
联想的LeapIOT使得工业生产环境的实时数据接入与处理不再困难重重。十余种常见工业协议支持与在线扩展的边缘计算框架降低了工业现场数据接入的门槛;毫秒/秒级传输及计算延迟能够有力支撑实时采集与存储需求;百万级网关及千万级设备接入保证了现场全面数字化还原。
在具备生产数据的实时接入的基础之上,联想大数据通过对开源平台的深度优化,从数据接入时的特征分析开始,利用基于数据特征的存储优化技术,基于查询与计算特征的计算过程优化,基于计算平台能力的调度优化等一系列技术创新,在平台层面实现TB级全量数据的实时查询优化,提供10-50倍于传统大数据平台的查询速度,支持实时建模与分析,在实时数据接入的基础上进一步实现实时查询与分析,缩短数据采集到数据价值输出的周期,加快数据价值发掘。
可以说,正是经历了长达8年,三个阶段的历练,联想大数据才形成今天的架构和能力。对此,于辰涛表示:“联想大数据起步较早,不可避免的走了不少弯路,希望未来随着大数据开源技术的快速发展,大数据平台产业的上下游都能够合力贡献,一方面帮助传统企业实现数字化转型升级,一方面随着人工智能、物联网等技术的不断发展、成熟与融合,越来越多的联网设备将不断产生海量的数据,新的应用模式也将涌现,这正是中国企业的机会所在。”