Introduction to Tajo(Apache Tajo介绍)

2014年3月27日 | 标签: , ,
热度:

准实时SQL引擎TAJO从apache毕业, 已经成为Apache顶级项目. 上周才通知, 现在已经migration好, 速度很快。国内网上一搜貌似还没有相关资料。

 

介绍:

Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。

 

功能:

1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等

2.自身支持ETL

3.支持各种数据格式,如CSV, RCFile, RowFile (基于行的文件存储), and Trevni

4.有自己的命令行接口,所以可以直接通过SQL去操作Tajo

5.也可以直接通过Java Client去操作Tajo

 

The main goal of Apache ™ project is to build an advanced open source data warehouse system in for processing web-scale data sets. 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具

Features 特点

  • Interactive and Batch Queries 可伸缩性和低延迟
    • Fully distributed SQL query processing on large data sets stored in HDFS and other data sources. 完全分布式的 SQL 查询处理,基于存储于 HDFS 的大数据集
    • Very low response time (100 msec ~) against simple queries (e.g., just aggregation or small-large join) on reasonable data size. 超低响应时间(约100毫秒),在合理数据范围内的简单查询
  • Long running query support 支持长时间运行的查询
    • Fault tolerance support that avoids query restart when some tasks are failed. 容错支持,避免某些任务失败后的查询重启
    • Dynamic scheduling support that handles struggling and heterogeneous cluster nodes. 动态调度,处理和异构集群节点故障
  • Query Optimization
    • Cost-based optimization for bushy join trees. 基于成本的密集join树优化
    • Progressive query optimization for reoptimizing running queries. 为重新优化运行的查询进行查询优化
  • ETL
    • ETL features that transform one data format to another data format. ETL 可实现不同数据格式之间的转换
    • Various file formats support, such as CSV, RCFile, and RowFile (a row store file) . 支持多种文件格式,如 CSV、RCFile 和 RowFile
  • Extensibility 扩展性
    • User-defined function support. 支持用户自定义函数
    • Scanner/Appender interface for custom file formats 提供自定义文件格式的 Scanner/Appender 接口
  • Compatibility 兼容性
    • ANSI/ISO SQL standard compliance and PostgreSQL compliance for non-standard parts. 遵循 ANSI/ISO SQL 标准,非标准方面遵循 PostgreSQL 规范
    • HiveQL mode support 支持 HiveQL 模式
    • Tables access in HCatalog and MetaStore 在 HCatalog 和 MetaStore 实现表访问
    • JDBC driver support 支持 JDBC 驱动
  • Easy 简单
    • Interactive shell to allow users to submit SQL queries to Tajo clusters. 提供交互式 Shell 来提交 SQL 查询到 Tajo 集群
    • Backup/Restore utility. 提供备份和恢复工具
    • Asynchronous/Synchronous Java API to enable clients to submit SQL queries to Tajo clusters. 异步/同步 Java API 来提交 SQL 查询到 Tajo 集群

依赖:

  • Hadoop 2.0.3-alpha or 2.0.5-alpha
  • Java 1.6 or higher
  • Protocol buffer 2.4.1

 

网址:http://tajo.apache.org/

feihu分享到:

          

相关博文

目前还没有任何评论.
您必须在 登录 后才能发布评论.