主流ETL工具介绍和选择

2010年1月29日 | 标签:
热度:

  ETL工具从厂商来看分为两种,一种是数据库厂商自带的ETL工具,如Oracle warehouse builder、Oracle Data Integrator。另外一种是第三方工具提供商,如Kettle。开源世界也有很多的ETL工具,功能各异,强弱不一。

  (1)Oracle Data Integrator(ODI)

  ODI前身是Sunopsis Active Integration Platform,在2006年底被Oracle收购,重新命名为Oracle Data Integrator,主要定位于在ETL和数据集成的场景里使用。ODI和Oracle原来的ETL工具OWB相比有一些显著的特点,比如和OWB一样是ELT架构,但是比OWB支持更多的异构的数据源,ODI提供了call web service的机制,并且ODI的接口也可以暴露为web service,从而可以和SOA环境进行交互。ODI能够检测事件,一个事件可以触发ODI的一个接口流程,从而完成近乎实时的数据集成。

  ODI的主要功能特点有:

  a.使用CDC作为变更数据捕获的捕获方式。

  b.代理支持并行处理和负载均衡。

  c.完善的权限控制、版本管理功能。

  d.支持数据质量检查,清洗和回收脏数据。

  e.支持与JMS消息中间件集成。

  f.支持Web Service。

  (2)SQL Server Integration Services(SSIS)

  SSIS是SQL Server 2005的新成员,在SQL Server的早期版本中,其实就已经有了它的雏形,那时的名称叫做数据转换服务(DTS)。在SQL Server 2005的前两个版本SQL Server 7.0和SQL Server 2000中,DTS主要集中于提取和加载。通过使用DTS,可以从任何数据源中提取数据以及将数据加载到任何数据源中。在SQL Server 2005中,对DTS进行了重新设计和改进形成了SSIS。SSIS提供了数据相关的控制流、数据流、日志、变量、event、连接管理等基础设施。控制流也称为工作流或者任务流,它更像工作流,在工作流中每个组件都是一个任务。这些任务是按预定义的顺序执行的。在任务流中可能有分支。当前任务的执行结果决定沿哪条分支前进。数据流是新的概念。数据流也称为流水线,主要解决数据转换的问题。数据流由一组预定义的转换操作组成。数据流的起点通常是数据源(源表);数据流的终点通常是数据的目的地(目标表)。可以将数据流的执行认为是一个流水线的过程,在该过程中,每一行数据都是装配线中需要处理的零件,而每一个转换都是装配线中的处理单元。SSIS的体系结构如图3.1所示。

  (3)Pentaho(kettle)

  Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定。
  这个ETL的开源项目的名称,很有意思,直译中文为“水壶”。按项目负责人Matt的说法:把各种数据发到一个壶里,然后呢,以一种你希望的格式流出。
  Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
  Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
  作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。

  (4)SQL Server 2008 BI(Microsoft)

Microsoft SQL Server 2008通过与Microsoft Office的深度集成,为所有人提供了可用的商业智能,以合适的价格提供给正确的用户以合适的工具。它的结果就是公司里所有层级的雇员都可以通过使用易于使用和功能强大的工具看到和帮助改变商业执行。与2007 Microsoft Office系统的集成使得用户可以以他们可以理解和觉得舒服的方式来查看商业性能;而PerformancePoint Server 2007的推出帮助客户获得对整个公司的全面的洞察力,以至于他们可以监控、分析和计划他们的业务,还可以加强团结、增强责任感和对整个企业的全面洞察力。

  ETL工具的选择

  在数据集成中该如何选择ETL工具呢?一般来说需要考虑以下几个方面:

  (1)对平台的支持程度。

  (2)对数据源的支持程度。

  (3)抽取和装载的性能是不是较高,且对业务系统的性能影响大不大,倾入性高不高。

  (4)数据转换和加工的功能强不强。

  (5)是否具有管理和调度功能。

  (6)是否具有良好的集成性和开放性。

feihu分享到:

          

相关博文

» 转载请注明来源:首页-->>主流ETL工具介绍和选择
目前还没有任何评论.
您必须在 登录 后才能发布评论.