SQL–大数据中的基本工具

对于那些开始大数据职业或从传统RDBMS转向职业的人来说,SQL是必不可少的编程语言。 这就是为什么?跟着我们这篇文章一起来看看。

前言

大数据系统的最新进展已导致在数据湖和数据仓库中更快地处理,有效分配和存储数据。 这导致传统的关系数据库世界中的分析技术大量迁移到大数据领域。

由于SQL是高度分布和可扩展的大数据系统中的查询语言,因此过渡并不像预期的那样艰难。

另一方面,也有工程师和分析师直接进入大数据世界。 通俗的语言是高级的,对于每个人来说都是必不可少的技能。

本文将帮助您了解为什么SQL对那些从大数据开始事业或从传统RDBMS转向职业的人来说是必不可少的编程语言。 我们还将回顾广泛使用的SQL-On-Hadoop引擎,其中SQL可以有效地用于数据转换和探索。

为什么需要需要SQL?

自结构关系数据库系统问世以来,结构化查询语言(SQL)是一种广泛采用的声明性语言。

由于具有声明性,因此易于学习和理解,并且符合美国国家标准学会(ANSI)的标准。这意味着,除每个数据库提供的附录功能外,还在与ANSI兼容的数据库中维护SQL语句的基本结构。这也有助于更轻松地采用其他数据库。

由于采用率很高,因此诸如Hadoop之类的大数据范例技术使SQL-on-Hadoop引擎运行在分析引擎之上。这些包括Hive,Impala和其他处理引擎。

从就业能力的角度来看,SQL被认为是数据专业人员最重要的语言,而雇主则考虑那些通过项目证明了自己的技能的候选人。因此,SQL已成为数据专业人员的必然技能。

Hadoop上的SQL引擎

以下开源SQL-On-Hadoop引擎在不同的Hadoop技术和大数据处理引擎上运行。 如果精通SQL,那么这些工具应该很容易就能从基于分布式文件系统构建的数据湖和数据仓库中查询数据。

为特定问题选择正确的SQL-On-Hadoop引擎可能非常困难。 以下针对每个引擎的说明列表可以帮助您确定

在Apache Spark上使用Spark SQL

在Apache Spark之上运行的SQL引擎是Spark SQL。 Apache Spark 3.0.0以后的版本符合ANSI,因此用户可以利用Spark SQL的本机功能以及本机ANSI兼容的操作和功能,两全其美。 更好的是,某些云服务提供商还提供火花分析引擎作为称为Databricks的PAAS(平台即服务)模型,该模型具有灵活的自动扩展功能,协作功能,并与云服务提供商(例如AWS和 Microsoft Azure)。

许可:开源Apache许可(Spark),付费PAAS(Databricks)

数据格式:所有标准Hadoop文件格式-JDBC / ODBC,列格式(Parquet,ORC等),Hive表,对象存储格式(JSON),平面文件(CSV,TSV等)

关键要点:

  • 如果您需要处理引擎来执行原始计算,执行机器学习以及对海量数据负载进行数字运算,则是最适合的选择。
  • 不建议使用低数据量。

Apache Drill

完全符合ANSI的大型并行处理引擎。 Apache Drill的一个有趣的方面是它负责连接到多个数据源,存储为JSON数据模型,并在检索到的数据之上执行聚合。 还可以从Spark内运行Apache Drill来检索数据。

  • 许可:开源Apache许可
  • 数据格式:所有标准Hadoop文件格式

要点:

  • 由于符合ANSI SQL,因此具有很高的采用率。
  • 适合同时查询多个来源的数据。
  • 不适合机器学习和原始数据计算。
  • 无需定义架构。

Apache Hive上的HQL

Hive是位于Hadoop FileSystem之上的查询引擎,用户可以使用HQL(Hive查询语言)在Hive上进行查询。 它是一种不完全符合ANSI的类似SQL的查询语言。 Hive在数据之上进行批处理,这不过是在后台运行的Map-Reduce作业。

  • 许可:开源Apache许可
  • 数据位置:仅结构化格式

要点:

  • 批处理相对较慢。
  • 不适合JSON等非结构化格式。
  • 不适合运行交互式查询。

Presto

Teradata现在支持由Facebook开发的开源并行处理Hadoop查询引擎。 该查询引擎能够跨越多个数据源并执行交互式查询,这与能够进行批处理的Apache Hive不同。

  • 许可:开源Apache许可
  • 数据位置:所有标准Hadoop文件格式

要点:

  • 适用于交互式查询。
  • 如果是本地托管,则需要进行大量实验。

Apache Impala

Impala是又一个大规模并行处理查询引擎,可以在Hadoop和HBase上进行交互式查询。 Impala支持HQL,与Hive不同,它不使用Map-Reduce,因此与Hive相比,查询速度更快。

  • 许可:开源Apache许可
  • 数据位置:除ORC以外的所有标准Hadoop文件格式。

要点:

  • 适用于交互式查询。
  • 适用于同时查询HDFS和HBase。
  • ORC支持尚未投入生产,因此hence Parquets比ORC更受青睐。
SO资源郑重声明:
1. 本站所有资源来源于用户上传和网络,因此不包含技术服务请大家谅解!如有侵权请邮件联系客服!3187589@qq.com
2. 本站不保证所提供下载的资源的准确性、安全性和完整性,资源仅供下载学习之用!如有链接无法下载、失效或广告,请联系客服处理,有奖励!
3. 您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容资源!如用于商业或者非法用途,与本站无关,一切后果请用户自负!

SO资源 » SQL–大数据中的基本工具