深度挖掘数据价值,亚马逊云科技智能湖仓解决客户面临的多种挑战
【慧聪通信网】近年来,云计算、大数据技术的迅速普及,今天,每个小时产生的数据已经比20年前每年产生的数据的量还要多。而早在2017年的时候《经济学人》就表示,世界上最有价值的不再是石油而是数据。越来越多的数据集聚已经让企业意识到,数据的价值已经超越黄金和石油,成为企业的一项重要战略资产。
挖掘数据价值,面临的三大现实挑战
当数据的急剧聚集而来的数据成为企业资产的同时,他的价值就是数据本身吗?其实不然,只有挖掘出数据背后的价值,它们才是企业真正的资产。亚马逊云科技大中华区云服务产品部总经理顾凡先生表示,随着数据的急剧增加,企业在挖掘数据价值的时候,面临着三大挑战。
一是数据增长快速,结构复杂。目前,数据呈指数增长,从GB、TB、PB到EB,从结构化到半结构化到非结构化数据。
二是数据的使用场景便加复杂。不同场景的需求要求技术也要提供更加个性化和定制化和数据,同时还要满足不同决策人的需求以及分析。
三是基于实时数据的快速决策。今天整个的业务和整个场景的变化会驱动大家决策要更加地快,甚至很多决策会是分钟级的,要更快速甚至在一些实时流分析中实时就应该给到决策。所以数据面临的第三个挑战就是如何针对实时数据进行快速决策的挑战,不是几天而应该是几分钟。
对此,顾凡表示,亚马逊云科技在数据分析类产品的设计上有三大原则:一是为云优化,即无论是Amazon Aurora还是Amazon Redshift,亚马逊云科技都是基于云原生进行产品开发;二是专门构建,即面对数据处理和分析场景的多元化,亚马逊云科技采用的是针对不同应用场景专门构建相应的产品和服务,而并非以一个解决方案打遍天下;三是完全托管,亚马逊云科技会为客户提供仓的管理、湖的管理、湖的构建、仓的构建甚至是数据的无缝移动等服务,让客户更专注于业务本身。
顾凡表示,以客为先,亚马逊云科技90%的产品都是直接听取客户的建议而去迭代的。今天,亚马逊云科技的智能湖仓架构就是要构建一个数据湖要有专门构建的数据分析服务,要能做到数据、湖、仓和专门构建的数据服务的无缝数据移动,统一管理、低成本,这是我们所定义的亚马逊云科技智能湖仓架构。所以,智能湖仓不仅仅是湖和仓的打通,而是湖、仓专门构建数据服务连接成一个整体。亚马逊云科技就是为解决客户现实挑战而生,为处理复杂场景而设计。
据悉,亚马逊云科技“智能湖仓”架构将亚马逊云科技全面而深入的数据服务无缝集成,打通了数据湖和数据仓库之间数据移动和访问,并且进一步实现了数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。
顾凡特别强调:“智能湖仓并不是一个产品,而是一个架构。”
亚马逊云科技智能湖仓五大特点助力数据入云
对于企业来说,如何充分发挥湖和仓各自优势正在成为当前亟待解决的问题。亚马逊云科技“智能湖仓”架构以Amazon Simple Storage Service(Amazon S3)为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,实现数据湖的构建、数据的移动和管理等。亚马逊云科技“智能湖仓”架构具有以下五个特点。
灵活扩展,安全可靠。亚马逊云科技“智能湖仓”架构用Amazon S3作为数据湖的存储基础,客户可根据不断变化的需求,灵活扩展或缩减存储资源。Amazon S3可达到 99.999999999%(11 个 9)的数据持久性,且具有强大的安全性、合规性和审计功能。
专门构建,极致性能。为了满足客户不同的数据分析需求,亚马逊云科技提供全面而深入的、专门构建的数据分析服务,包括交互式查询服务Amazon Athena、云上大数据平台Amazon EMR、日志分析服务Amazon Elasticsearch Service、Amazon Kinesis、云数据仓库Amazon Redshift等。这些专门构建的数据分析服务为客户提供了极致性能,客户在使用过程中不必在性能、规模或成本之间做出任何妥协。其中Amazon Redshift的性价比是其他企业云数据仓库的三倍,AQUA(分布式硬件加速缓存)使 Redshift 查询的运行速度比其他其他云数据仓库最高快 10 倍;Amazon EMR运行大数据处理及分析服务的成本不到传统本地解决方案的一半,但其速度比标准 Apache Spark 快 3 倍以上。
数据融合,统一治理。亚马逊云科技“智能湖仓”架构不止是打通了数据湖、数据仓库,还进一步将数据湖、数据仓库以及所有其它数据服务组成统一且连续的整体。在实际应用场景中,数据需要在这些服务与数据存储方案之间,以及服务与服务之间按需来回移动,跨服务访问。亚马逊云科技“智能湖仓”架构降低了数据融合与数据共享时统一安全管控和数据治理的难度。其中,Amazon Glue提供数据无缝流动能力,Amazon Lake Formation提供了快速构建湖仓、简化安全与管控的全面数据管理能力。
敏捷分析,深度智能。亚马逊云科技将数据、数据分析服务与机器学习服务无缝集成,为客户提供更智能的服务。例如Amazon Aurora ML、Amazon Redshift ML、Neptune ML等,数据库开发者只需使用熟悉的 SQL 语句,就能进行机器学习操作;Amazon Glue、Amazon Athena ML、Amazon QuickSight Q等,可以帮助用户使用熟悉的技术,甚至自然语言来使用机器学习,帮助企业利用数据做出更好的决策。用户还可以通过机器学习服务Amazon SageMaker、个性化推荐服务Amazon Personalize等挖掘数据智能。
拥抱开源,开放共赢。亚马逊云科技“智能湖仓”架构中的关键组件如Amazon EMR、Amazon Elasticserach Service、Amazon MSK的核心都基于开源代码,接口与开源完全兼容,无需改变任何代码就可以实现迁移,也兼容主流的管理工具。OpenSearch 基于开放的Apache2.0 授权,其代码完全开放,用户可以免费下载使用并获得企业级的功能。这些服务允许用户在转型过程中,以非常低的改造成本向云端迁移。
目前,全球数以十万计的客户选择亚马逊云科技进行数据管理及分析。在中国,TCL、丰田互联、欣和、德比软件、安克创新、启元世界等各行业客户,正在采用亚马逊云科技数据相关服务,开展数据治理及数据价值挖掘。
作为一家领先的人工智能平台公司,启元世界使用了亚马逊云科技全栈的数据分析服务进行高效开发部署,保障业务快速稳定发展。启元世界CTO龙海涛表示,“作为一家领先的AI公司,我们希望把更多精力聚焦在算法迭代与产品打磨,我们需要成熟、稳定、免运维的大数据托管服务。亚马逊云科技智能湖仓通过数据的融合,专门构建的分析工具,可靠高效地支撑了我们敏捷的业务迭代,其中Amazon Kinesis实现了分钟级部署,并承载百万QPS(每秒查询率)流数据;Amazon EMR、Amazon Managed Workflows for Apache Airflow使批处理运行的时间减少了80%,运营总成本下降了50%;Amazon Glue 、Amazon Athena、Amazon QuickSight等服务实现了即席查询秒级响应。”
驰骛科技创始人兼CEO程华奕表示,“作为企业级数据管理平台的实践者,我们非常认可亚马逊云科技的智能湖仓架构。以Amazon S3为核心的数据基础平台,让我们在服务客户时,在数据安全性、可靠性、性能和扩展性等方面都没有后顾之忧。亚马逊强大的数据分析管理工具组合,让我们能够对各种数据处理和分析游刃有余,快捷、高效地利用机器学习挖掘数据智能,服务于客户的业务创新。“
据介绍,亚马逊云科技的数据及数据分析服务不断获得行业和第三方机构认可。同时,亚马逊云科技的“智能湖仓”架构半年内在中国区域新增的近40项数据及数据分析相关的服务及特性,进一步强化了亚马逊云科技数据以及数据分析相关服务组合。
今天,亚马逊云科技正在一步一步的践行着为解决客户现实挑战而生,为处理复杂场景而设计的理念,以客户为先,为中国企业深度挖掘数据价值而贡献力量。