Introduction to Tajo(Apache Tajo介绍)
热度: | ![]() | ![]() | ![]() | ![]() | ![]() |
准实时SQL引擎TAJO从apache毕业, 已经成为Apache顶级项目. 上周才通知, 现在已经migration好, 速度很快。国内网上一搜貌似还没有相关资料。
介绍:
Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。
功能:
1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等
2.自身支持ETL
3.支持各种数据格式,如CSV, RCFile, RowFile (基于行的文件存储), and Trevni
4.有自己的命令行接口,所以可以直接通过SQL去操作Tajo
5.也可以直接通过Java Client去操作Tajo
The main goal of Apache Tajo™ project is to build an advanced open source data warehouse system in Hadoop for processing web-scale data sets. Tajo 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具
Features 特点
- Interactive and Batch Queries 可伸缩性和低延迟
- Fully distributed SQL query processing on large data sets stored in HDFS and other data sources. 完全分布式的 SQL 查询处理,基于存储于 HDFS 的大数据集
- Very low response time (100 msec ~) against simple queries (e.g., just aggregation or small-large join) on reasonable data size. 超低响应时间(约100毫秒),在合理数据范围内的简单查询
- Long running query support 支持长时间运行的查询
- Fault tolerance support that avoids query restart when some tasks are failed. 容错支持,避免某些任务失败后的查询重启
- Dynamic scheduling support that handles struggling and heterogeneous cluster nodes. 动态调度,处理和异构集群节点故障
- Query Optimization
- Cost-based optimization for bushy join trees. 基于成本的密集join树优化
- Progressive query optimization for reoptimizing running queries. 为重新优化运行的查询进行查询优化
- ETL
- ETL features that transform one data format to another data format. ETL 可实现不同数据格式之间的转换
- Various file formats support, such as CSV, RCFile, and RowFile (a row store file) . 支持多种文件格式,如 CSV、RCFile 和 RowFile
- Extensibility 扩展性
- User-defined function support. 支持用户自定义函数
- Scanner/Appender interface for custom file formats 提供自定义文件格式的 Scanner/Appender 接口
- Compatibility 兼容性
- ANSI/ISO SQL standard compliance and PostgreSQL compliance for non-standard parts. 遵循 ANSI/ISO SQL 标准,非标准方面遵循 PostgreSQL 规范
- HiveQL mode support 支持 HiveQL 模式
- Tables access in HCatalog and Hive MetaStore 在 HCatalog 和 Hive MetaStore 实现表访问
- JDBC driver support 支持 JDBC 驱动
- Easy 简单
- Interactive shell to allow users to submit SQL queries to Tajo clusters. 提供交互式 Shell 来提交 SQL 查询到 Tajo 集群
- Backup/Restore utility. 提供备份和恢复工具
- Asynchronous/Synchronous Java API to enable clients to submit SQL queries to Tajo clusters. 异步/同步 Java API 来提交 SQL 查询到 Tajo 集群
依赖:
- Hadoop 2.0.3-alpha or 2.0.5-alpha
- Java 1.6 or higher
- Protocol buffer 2.4.1
feihu分享到: |
相关博文
- 腾讯失手却“买单”,DST以1.87亿美元购得ICQ
- 有个WordPress的SEO技巧
- 在WordPress首页和目录页显示摘要的方法
- 一个广告代码
- Google关闭Google.cn 通过香港Google提供服务