2014年4月1日 | 标签:

IEEE Fellow、IEEE TKDE主编裴建教授5月5-9日在中科院计算所讲授“大数据分析和数据挖掘”课程。
课程免费,食宿自理;报名请附上姓名、学校和研究方向等信息;为保证授课效果,限额50~60人。
报名截止日期为4月10日,报名结果将于4月15日公布。

Big Data Analytics and Data Mining

Course Name Big Data Analytics and Data Mining(大数据分析和数据挖掘)
Instructor Jian Pei, Simon Fraser University http://www.cs.sfu.ca/~jpei/
Address Institute of Computing Technology,Chinese Academy of Sciences No.6 Kexueyuan South Road Zhongguancun,Haidian District Beijing,China 北京海淀区中关村科学院南路6号中科院计算所(地图)
Time May 5th~9th, 2014
Contact

课程免费,食宿自理;报名请附上姓名、学校和研究方向等信息;为保证授课效果,限额50~60人。 报名截止日期为4月10日,报名结果将于4月15日在本页面公布。

Introduction

This course provides a quick introduction to the exciting frontiers of big data analytics and data mining. The focus is on the essential concepts and techniques, the fundamental principles, as well as some active research topics. The audience is assumed to be solid in the popular discrete mathematics (including basics in set theory, abstract algebra, logics, and graph theory), algorithm analysis and design, and basic probability and statistics. C++ or Java programming is expected. Basic understanding of data mining, such as a quick scan of the textbook, would be helpful, though the course itself is self-contained and the basic concepts will be reviewed before the advanced topics are discussed.

The format of the course is a combination of lectures and classroom discussion. It is a 5 day course, 3 hours every morning and 2 hours every afternoon. In general, lectures on basic concepts and principles will be presented in the mornings, while advanced topics and research directions will be discussed in the afternoons. The tentative schedule is as follows, which is subject to change without notice. The course components may also be customized according to audiences interest.

Schedule

May 5th Morning – Introduction (big data, data mining, data analytics, and applications) – Cloud computing Afternoon – MapReduce basics
May 6th Morning – Multidimensional data analysis, data warehousing, business intelligence Afternoon – Advanced topic: multidimensional analysis on complex data and big data
May 7th Morning – Frequent pattern mining Afternoon – Advanced topic: advanced frequent pattern mining and applications
May 8th Morning – Classification Afternoon – Advanced topic: advanced classification methods, predictive analytics
May 9th Morning – Clustering analysis Afternoon – Advanced topics: Case study: data mining in healthcare informatics, crowdsourcing

About the instructor

Jian Pei is a professor at the School of Computing Science at Simon Fraser University, Canada. He received a Ph.D. degree in Computing Science from the same school in 2002, under Dr. Jiawei Han’s supervision. His research interests can be summarized as developing effective and efficient data analysis techniques for novel data intensive applications. Particularly, he is currently interested in various techniques of data mining, information retrieval, data warehousing, online analytical processing, and database systems, as well as their applications in social networks, network security informatics, healthcare informatics, business intelligence, and web search. His research outcome has been adopted by industry production systems. He has published prolifically in premier academic venues. His publications have been cited more than 30,000 times. His research has been supported in part by many government agencies and many industry partners. Currently, his priority in research is on developing industry relations and collaboration, and transferring his technologies to industry applications. He is also actively serving the professional communities. He is current the editor-in-chief of IEEE Transactions of Knowledge and Data Engineering, and an associate editor or editorial board member of several premier journals in his areas. He has played key roles in many top academic conferences. He is a director of ACM SIGKDD and an ACM Distinguished Speaker. He received several prestigious awards. He is a fellow of IEEE and a senior member of ACM.

For more information about dragonstar program, please visit http://dragonstar.ict.ac.cn/dragonstar/index.asp

2014年3月31日 | 标签: ,

人大sas视频 初中高级

链接: http://pan.baidu.com/s/1o6I2jsI 密码: wja5

R语言视频(考研英语的时候来了)
链接: http://pan.baidu.com/s/1eQxdJnc 密码: 4zc1

 

好多人还是不知道怎么看密码,这里免不了再次说一下:Ctrl + A 就能看到了。

2014年3月28日 | 标签: ,

各位同事,又到了分享的时间了。

这次分享“各大名校专业课教学”和“spss clementine视频”,前者可能用处不是太大,

但是有些基础课程还是很好的,特别有些专业课程,考研的话,应该还是很有必要看一看的。

第二个是spss的教程,这个含金量绝对不容小觑。

不多说了,上链接吧。(依旧是要用力“刮才能看到密码的。)

各大名校专业课教学 链接: http://pan.baidu.com/s/1i3oQdW5 密码: nkyk

spss clementine视频 链接: http://pan.baidu.com/s/1dD5nlpJ 密码: 55ki

 

还是不要忘记帮助点击这里的广告,算是对收集分享视频的回馈吧。→→→→→→→→→→→→→→→→→→→→→

 

这次为了更加直观,放一下截图:

1.名校专业课教学:

school01 school02 school03

2.SPSS视频的截图:

spss

2014年3月27日 | 标签: , ,

一款全新的Hadoop SQL数据库查询引擎Apache Tajo近日赢得了韩国电信运营商SK电信的青睐。 SK电信数据科技实验室的高级经理Geun-tae Park表示:

在广泛调研当前可用的数据分析技术后,我们发现Apache孵化项目Tajo能够实现在Hadoop系统快速进行大规模分析处理,能够更好地分析我们的海量电信运营数据。

Park还透露,随着SK电信在开源领域的人力资源和技术经验的增长,SK电信将启动进一步的开源软件项目。 据Park介绍,SK电信之所以决定采用Tajo,也是SK电信开源战略的一部分,SK并不担心这些开源技术也会被其他公司采用。 作为Hadoop系统的重要补充部分,Tajo这样的SQL-on-Hadoop技术也是Hadoop等大数据技术进入企业级市场的关键所在。 虽然目前Tajo还处于开发的早期阶段,但在测试中已经表现不俗,比Hive快3.7倍。而且支持标准的ANSI SQL,与现有系统集成很容易。此外,Tajo还为CPU和内存占用进行优化,能够加快分析流程,这也受益于Tajo对点对点查询(ad-hoc queries)的低延迟处理技术。

2014年3月27日 | 标签: ,

新找了一些hadoop的视频,下载地址:

传智播客hadoop视频资料
链接: http://pan.baidu.com/s/1kT0Xl59 密码: lr6i

数据挖掘学习视频
链接: http://pan.baidu.com/s/1eQ1hxuy 密码: ddaa

可能需要自己找一下csf文件的播放器,很容易就能百度到的。

 

暂时就先这么多吧,还是那句话:自己搭环境是很有必要的!!

 

 

记得帮忙点一下最右的广告啊,谢谢了。 : )

2014年3月27日 | 标签: , ,

准实时SQL引擎TAJO从apache毕业, 已经成为Apache顶级项目. 上周才通知, 现在已经migration好, 速度很快。国内网上一搜貌似还没有相关资料。

 

介绍:

Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。

 

功能:

1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等

2.自身支持ETL

3.支持各种数据格式,如CSV, RCFile, RowFile (基于行的文件存储), and Trevni

4.有自己的命令行接口,所以可以直接通过SQL去操作Tajo

5.也可以直接通过Java Client去操作Tajo

 

The main goal of Apache Tajo™ project is to build an advanced open source data warehouse system in Hadoop for processing web-scale data sets. Tajo 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具

Features 特点

  • Interactive and Batch Queries 可伸缩性和低延迟
    • Fully distributed SQL query processing on large data sets stored in HDFS and other data sources. 完全分布式的 SQL 查询处理,基于存储于 HDFS 的大数据集
    • Very low response time (100 msec ~) against simple queries (e.g., just aggregation or small-large join) on reasonable data size. 超低响应时间(约100毫秒),在合理数据范围内的简单查询
  • Long running query support 支持长时间运行的查询
    • Fault tolerance support that avoids query restart when some tasks are failed. 容错支持,避免某些任务失败后的查询重启
    • Dynamic scheduling support that handles struggling and heterogeneous cluster nodes. 动态调度,处理和异构集群节点故障
  • Query Optimization
    • Cost-based optimization for bushy join trees. 基于成本的密集join树优化
    • Progressive query optimization for reoptimizing running queries. 为重新优化运行的查询进行查询优化
  • ETL
    • ETL features that transform one data format to another data format. ETL 可实现不同数据格式之间的转换
    • Various file formats support, such as CSV, RCFile, and RowFile (a row store file) . 支持多种文件格式,如 CSV、RCFile 和 RowFile
  • Extensibility 扩展性
    • User-defined function support. 支持用户自定义函数
    • Scanner/Appender interface for custom file formats 提供自定义文件格式的 Scanner/Appender 接口
  • Compatibility 兼容性
    • ANSI/ISO SQL standard compliance and PostgreSQL compliance for non-standard parts. 遵循 ANSI/ISO SQL 标准,非标准方面遵循 PostgreSQL 规范
    • HiveQL mode support 支持 HiveQL 模式
    • Tables access in HCatalog and Hive MetaStore 在 HCatalog 和 Hive MetaStore 实现表访问
    • JDBC driver support 支持 JDBC 驱动
  • Easy 简单
    • Interactive shell to allow users to submit SQL queries to Tajo clusters. 提供交互式 Shell 来提交 SQL 查询到 Tajo 集群
    • Backup/Restore utility. 提供备份和恢复工具
    • Asynchronous/Synchronous Java API to enable clients to submit SQL queries to Tajo clusters. 异步/同步 Java API 来提交 SQL 查询到 Tajo 集群

依赖:

  • Hadoop 2.0.3-alpha or 2.0.5-alpha
  • Java 1.6 or higher
  • Protocol buffer 2.4.1

 

网址:http://tajo.apache.org/

2014年3月27日 | 标签:

花了一点时间,把3.5G的hadoop实战视频传到了百度云。

这个视频是itcast(传智播客)出的,后面有时间,把另外一家的hadoop也分享了。

个人觉得另外一家是目前看到最好最全的。

链接: http://pan.baidu.com/s/1bnvhRsF 密码: i4bq 自己刮开
hadoop实战 1-14

 

2014年2月18日 | 标签:

大家好!今天我讲的内容有点偏技术,我们主要是给用户提供工具,我们并不是做某一个行业。我先做一下自我介绍,我是国信达软BI技术顾问。主要基于开源平台上做BI,如果大家做过报表、做过EPR应该了解,在开源领域,开源BI产品是非常少的,只有两个:Pentaho;SPagoBI。

首先看一下我们大数据的整体方案,这是一个比较概念性的方案。这个方案最顶层是展现这层,这层包括报表。在展现层和数据存储层之间可以建立一个业务模型,包括如何做数据挖掘需要做分类的模型,如果做多维分析要建立多维分析模型,如果做报表要建立业务模型,这是模型层。我们的工作主要在ETL这一层还有展现这层的工作。至于其他层,如存储层可以用Hadoop等产品……我们今天的交流主要集中在ETL这一层。

Pentaho中国社区创始人、国信达软BI专家 初建军

什么是ETL?我们主要面对的是企业的业务部门,企业的领导和决策层他们需要看到数据,他们只关心两个事情,他们只关心能不能在规定时间内看到数据;看到的数据是不是完全正确的。我们为了保障用户能看到数据,首先利用模型会建立这样一个模型,下面还有一个数据挖掘模型,预测分析模型。这是我们希望的数据模型,我们希望的数据是干净、经过处理的。我想大家很多是IT部门的CIO,我们面临的问题是数据是不干净的,存储在很多地方,比如说数据有格式化的、非格式化的,日志文件、HTML,还有一些PDF文件、网页、微博上的数据,等等。中间的过程就是ETL过程。这是一个概念的图,实际上还要建立主数据、业务流程。

打个比方,用户想要干净的水,很简单。如果我们是纯净水企业,我们有着不同形态的水,可能是雨水、河水、地下水,我们的工作是要把这些自然形态的水变成用户可以消费、可以喝到的矿泉水,这个过程就是ETL过程,把水抽过来,做清洗、转化,加工,最后装到瓶子里。抽取、转换、加载。这就是ETL的含义。

如何做ETL?从过去的几年来看,我们做ETL大部分是通过写代码的方式来做,这种方式被慢慢的抛弃了。现在我们都要用流程图的方式,画一个流程图来做ETL。市面上有很多商业软件,比如Infomatica,Datastage,微软的SSIS等,基本上和这个非常类似。我们今天讲的开源的ETL 工具 Kettle也是以画图的方式来解决ETL问题。

这是我们做ETL的三种方式的时间和成本的比较,进行的比较。

第一种是手写代码,第二种是从上到下的曲线,这种是商业的ETL软件,第三种是开源的,就是这条绿色的横线,这三条曲线揭示的是随着时间变化,ETL成本有什么变化。手写代码的这条曲线,开发人员用两个月时间把数据搞定了,随着需求不断变化代码要不断更新,但是人员换了一个,随着时间推移,代码维护越来越难,甚至不可维护。很多企业都是商业的ETL,有一些商业软件最大问题就是成本太高,比如有的购买成本大概是100万,每年还要交维护费用,所以初期成本非常高,初期购买成本随着时间推移也在均摊,成本会慢慢下来。而开源软件初期成本不高,只是每年的维护费用,所以基本是一条直线。

Pentaho Data Integration是一个开源软件。它在国内不是很流行,但是我们之前就一直在推广。它的原名叫Kettle(水壶),现在叫PDI。Kettle可以独立使用,也是PentahoBI平台的一部分,它分为社区版和企业版,通过开源版吸引用户,通过企业版为企业增加收入。我们这次交流的主要是它的社区版。

这是我们刚才打比方的一个再细化的流程,从水源到成品水,实际上我们建立数据仓库中间还要经过很多过程,第一部分是水源,Data Source,先放到Data Lake(s),然后到Data Mart(s)、Data Warehouse,接下来是Ad-Hoc。

首先看看怎么从不同数据源把数据取过来。这有一个特点是系统数据和原数据保持转换,不会做任何转化。这样的话,如果前面数据报表出现问题,就可以追踪溯源找到是哪条出现了问题。所以从Data Source到Data Lake(s)数据不发生变化,但是难点在于数据源有很多种。我们看看Kettle支持哪些数据源?这些都是Kettle数据源。表输入可以支持30多种数据库,甚至包括一些国产的数据库等等,另外还支持PDF文件输入、Excel输入,企业80%数据源都可以通过这个方式处理数据。除了已经设置好的数据源,如果说企业数据特别特殊,我们还有自定义格式。也没有关系,Kettle有一个开放的接口,我们可以自己写代码来扩展。比如说Oracle增量表输入,这就是我们自己写得插件。

现在我们再看一下,第一个就是数据源,而第二个阶段从Data Lake(s)到Data Mart(s),这里最麻烦的就是数据清洗和排除,好几个数据源过来如何保证它是正确的。难点是数据验证、排除,需要人工干预,但是ETL可以帮助你建立企业的主数据。

我们看看Kettle怎么建立清洗流程。Kettle清洗流程非常简单,这是一个转换的图,从前面拖过来一个输入以后,我们自己定义很多校验规则,定义数据长度是否在规定的长度之内,数据的大小取决范围都可以设定好,设定好之后根据不同的错误会分别到不同的地方再做处理,这是一个业务流程,它非常清晰、简单,维护起来会轻松很多。

再看第三个环节,ETL第三个场景就是这里,要求快速开发。针对此我们推出“敏捷BI”的概念。大家听说过“敏捷开发”,其实两者是相似的,要求开发人员、业务人员合在一起开发。这在以前看来是难以想象的,业务人员也不会写代码,而现在有一个工具,通过这个工具,业务人员、开发人员可以通过这个工具来工作,这个工具可以画ETL流程图,也可以在这个工具里把画好的ETL流程通过建模展现出来。同时业务人员可以看到这些数据是否是你需要的数据,哪些属性需要修改。从ETL到建模到报表进行一站式开发,可以减少很多迭代过程,效率比较高。

怎么支持大数据?有几种方式:Hadoop、MongoDb Input、HBase Input等等。Kettle本身支持这些,包括数据库的写入、抽取数据,除了这些还包括可以调用其他的作业(这是Hadoop自己带的脚本工具,如Pig,Oozie 等,Kettle可以自己调)。另外还有基于关系型数据库,这种基于列存储的关系数据库在设计时考虑到查询性能,所以也适合于大数据的场景。如Greenplum,Infobright等,我们也在帮助客户做这些数据库和Kettle的实施工作。

下面介绍一下我们的案例。Kettle在哪些地方应用呢,也是大家比较关心的。

这九个地方跟我们有关系。首先看一下流程。联想进入的时间比较早,他们也比较注重开源,如何降低企业成本。我们2008年开始合作。当时给联想做了一个报表系统,联想在亚太区13个国家的门店、代理商每天销售的计算机,计算机销售情况都会上报到联想总部。Kettle从上报数据里生成报表,直接发送到邮箱里。同时里面加入回执功能,统计一下谁看过这个报表。

第二个是是一家外企,PHOENIX。他们有一个数据中心在美国,希望把变化数据同步到世界的其他的数据中心,这也是一个比较早期的项目数据。当时用的是Kettle3.0的版本。

刚开始大家用Kettle不太放心,担心会担心出问题。当时给PHOEIIX做这个项目的时候,他们的经理还问我,“我们是不是第一个国内敢吃螃蟹的公司?”我说“不是,联想已经吃过了。”所以大家可以放心,我们可以帮助大家解决使用中遇到的问题。另外政府部门也在用,比如说公安部数据量比较大,比如人口信息查询,驾驶员信息查询。还有我们跟地方公安局有合作,这样可以降低他们的成本。另外还有电商,比如58同城、淘宝都在用。电商开发能比较强,我们跟他们做是为他们提供咨询、培训,帮助他们的开发人员快速掌握。其他的还有品众互动、四维图新,这些是科技类的中小企业,品众是做网络营销的公司,帮助企业推广自己的品牌。现在和我们合作做Hadoop,把数据从Hadoop抽出来,他们每天的数据量大概在一个T左右。还有四维图新,它是做地理信息的,他们发布了一个手机应用叫“就近儿”,类似“百度地图”,可以查找到最近的优惠券、最近的商铺的信息,我们做后台的数据处理,包括把数据从不同网站抓过来,把数据集合进行排重,融合,最后进行数据发布。

下面三家是比较大的国企,比如说中国联通,他们有一个使用Kettle的项目规模比较大,现在正在进行中,第一期已经做完了,还比较顺利。还有中国电信,电信跟我们的合作也比较长,帮助我们不断的提高产品功能。这个产品是开源的,但是我们也可以往上提交代码,也是其中的一个成员。另外就是国家电网,通过第三方公司做项目,我们给第三方集成商做技术支持。

下面是我们公司和北大CIIM中心云计算应用联合实验室合作的介绍。这个实验室的目的是帮助用户基于国产和开源的软硬件构建下一代基于云计算的、安全可控的、低成本的信息系统。我的交流就到这里,谢谢大家!

2014年2月12日 | 标签:

目前国内市场上的报表工具可谓五花八门,从各厂商的介绍来看,这些产品的功能有相当部分是重叠的,为了区分它们往往需要了解它们功能的实现机制和最终达到的效果以确定产品是否符合实际应用需要。

一辆好的车子是驾驶者的延伸;一个好的报表工具是使用者的延伸。这个表述看似有点儿玄,其实很实在,要真正做到却又非常难。报表工具的使用者与驾驶者有一个共通的地方,那就是他们中的大部分人都不是机械或电子专业出身的,他们需要一个得心应手的工具来帮助他们做想做的事情。

报表工具如何才算得上得心应手?你可发现有很多回答,归纳起来,不外以下几方面:

交互性:电子报表有别于传统纸质报表的灵性,是报表服从于人、提高人的工作效率的关键;

易用性:报表开发工具的易用性和报表使用的容易程度是判别报表工具好坏的重要标准;

可扩展性:系统性能随硬件增加而提升,是企业级报表系统与非企业系统的分水岭;

安全性/可靠性:完善的权限控制,标准化的数据安全接口,低故障率以及故障后的可恢复性;

完整性:能满足各种信息展现要求,能覆盖各种类型数据源和格式,能部署到各种应用环境。

笔者挑选了在国内外市场上表现活跃且据代表性的几个产品:Business Object (SAP) 的Crystal Report、Actuate、润乾报表、Jasper Report来做一个深入的比较,帮助有兴趣的读者进一步地了解它们。

上述产品均具不同的特性:Crystal Report的应用非常广泛,在不同行业、规模的应用里都可以看到它的身影;Actuate是专业的企业报表工具,以e.Report为代表的一系列产品在国际上有很长的历史,早期被广泛应用于金融、电信、政府等较大规模的企业、组织,近来也开始关注中小型企业,推出了全新BIRT系列产品;润乾报表是国内报表的后起之秀,在中式报表的支持上很有特色;Jasper Report则是一款开源产品,使用无需授权费。

1. 交互性

纸质报表所承载的信息是固定的,当人们想进一步了解报表上某些数据时,没人会指望它会主动“开口”予以解答。单向、无反馈的信息传播过程是纸制报表最大的软肋,这使得人们不得不在查找数据上花费大量时间。

电子报表工具产生初期,电子报表与纸质报表差别并不太大,只是用屏幕代替了纸张。随着技术的进步,电子报表的交互性越来越强,拥有了能与用户沟通的“智慧”。人们不再需要为查找某项数据就将整张报表翻遍;通过简单操作就能重组、排列报表上的数据;并能通过创建图表的形式把需要的数据展现在人们眼前。

于是,在选择电子报表工具时,人们慢慢地将交互性作为重要的考核指标,因为他们需要一份“活”的报表!

基于Web的互动性给报表工具设计者带来了很大的挑战。很长一段时间里,浏览器应用的交互性远远不及桌面应用,因为用户在浏览器界面的操作是由远方的服务器来响应的。互联网的速度、服务器的性能和当时的数据交换协议都难以胜任交互性很强的应用任务。但Web 2.0的出现大大改变了这种状况,使得基于Web的应用也能带有很强的交互性。

对交互性的支持成为了报表产品炙热的竞争焦点,特别是基于Web 2.0的交互性。“这是一个奇妙的良性循环过程:对报表软件供应商而言,产品拥有更强的交互性就等于拥有更强的‘人气’;而客户对产品更加‘忠诚’,报表产品的市场竞争力也会相应提高,”业内流传着这样的看法。

Crystal和Actuate的报表在交互性方面都有不错的表现,但Actuate在对Web 2.0的支持上走在了前面。Actuate BIRT的交互式报表浏览界面能通过标准Web 2.0调用、嵌入到任何Web页面,功能与Google地图十分相似,而且Actuate BIRT的交互功能几乎是不受限制的。而Crystal Report的交互功能则必须在报表设计时预定且不支持基于标准的调用,这是它与Actuate最大的区别。

相比之下,其它两个产品在交互性方面的开发尚未进入状态,还不能提供类似的功能。这也是Crystal Report和Actuate作为两家成熟的商业报表软件供应商在技术上的优势。

2.易用性

大多数的电子报表用户都没有专业IT背景,他们面对电子报表的第一反应大概会与互联网刚开始普及时,人们面对各类网站网页不知所措的样子差不多。对于企业来说,他们想要的报表工具是服务于全体员工甚至是客户的。“怎么能让非专业人士在短期内掌握报表工具的使用?”,这一问题很大程度上取决于报表工具本身是否容易被掌握,也就是报表工具的易用性。

报表工具的易用性主要包括报表设计、报表查看两个层面。设计的易用性主要体现在:能很容易地创建数据源、数据集;能很方便地调用函数、过程处理数据;拥有多种将复杂数据资料展现在二维平面上的形式等方面。而查看的易用性是指报表用户能不费周折地得到自己所需的信息。这里涉及到报表的设计合理性和展现工具的灵活性(如上一节所提及的交互性),因为如果报表工具不具有展现的灵活性,报表设计工作的难度会更高。

Crystal Report在易用性方面相当具有优势。在报表设计方面,Crystal Report有一款基于浏览器的报表设计工具:Web Intelligence,此外,Crystal Report还向用户提供了一个报表设计向导,用户可通过该向导按部就班地向报表内添加数据、图表等元素。在对仪表盘的支持上,Crystal Report也下了不少功夫,它的Xcelsius线能让用户非常容易地使用仪表盘。总之,报表设计直观明了且不需要过多专业培训是Crystal Report的一大特点。在报表查看方面,Crystal Report可以支持交互式报表,这点之前已讨论过了。

与Crystal Report的“傻瓜相机”式设计理念相比,安讯的e.Report可谓是一台专业相机,能拍出别人拍不出的效果,但与此同时,它对使用者的要求也更高。e.Report的难用是业内有名的,不过仍有很多企业选择e.Report的原因是因为它能做出别人做不到的排版效果。安讯最新的百灵报表(BIRT)则吸取了e.Report这方面的教训。BIRT设计器的界面采用了Eclipse的风格,实现了“拖拽式”设计,可以完全不依赖编程。同时,提供了类似于Web Intelligence的Business Report Studio,用户可在浏览器上设计报表或对报表结构、内容、格式进行调整。这种“全民皆兵”的设计方式不但较易被初学者掌握而且使得BIRT的使用者也能参与报表开发。此外,在中式报表方面,BIRT考虑到了国内用户的实际需要,支持斜线表头、信息回填等功能。在报表查看方面,安讯的BIRT系列报表可能是目前查看方式最完整的交互式报表。通过一个交互式报表浏览器,任何BIRT报表都可以“活”起来,该交互式报表浏览器还可通过Web 2.0的调用集成到任何Web页面,这点是任何其它产品都没有做到的。

润乾报表在易用性方面的表现主要集中在中式报表设计上。在斜线表头方面,如果说BIRT的斜线表头只能用图片粘贴方式来完成的话,润乾则将其进一步地功能化,用户可在设计栏中找到斜线表头的单独选项。信息回填方面,用户可从不同来源、等级的数据中找到相应元素并将其添入新报表,而且这种功能是不受联机或脱机的影响的。

作为一个开源产品,Jasper Report在易用性方面的表现已是相当不错的了。一般的报表设计问题,如创建数据源、设计表格、图表、导出格式等,Jasper Report的设计器都能不错地进行处理。不过,虽然它的易用性表现已相当不错,Jasper Report在功能上仍远远不及其它几款商业报表工具。

3.可扩展性

所有企业都希望能购买到一套功能可满足所有需要的报表工具。但几乎没有人能完全预知企业未来的扩展需求。这就涉及到了报表功能、性能的可扩展性问题。

Crystal Report在功能扩展方面的特点是与.net平台的“联手”,除其自带功能外,用户还可以利用.net平台上的其它功能。不过,除.net平台外,用户基本上不能将其它应用软件中的报表功能补充到Crystal Report之中,而Crystal Report的功能本身也没有可扩展性,这点不足在中式报表应用上尤为突出。

安讯百灵报表BIRT的前身是开源的Eclipse BIRT,它具备了一个可扩展性非常强的架构,预置了很多扩展接口(Extension Point),且支持脚本语言。用户可以根据需要通过扩展接口和脚本向BIRT添加功能。这点对于OEM厂商以及项目开发者是非常有吸引力的,因为BIRT有很好的“可塑性”。

除功能可扩展性外,报表产品性能的可扩展性也是很重要的一方面。报表系统必须能够应付不断增加的使用人数和报表。理想情况下,报表只需增加硬件设备就能完成对其性能的提升。但不是所有的工具都能做到这点,大部分的报表工具能用上两、三个CPU就已很不错了。

安讯的报表平台iServer是业内公认的最具有可扩展性的平台。根据权威机构IBM Innovation Center的测试数据:“安讯iServer报表平台能够从1台扩展到16台服务器(共64个CPU),做到近乎线性的扩展。”目前在业内还没有第二个产品能够交出这样的成绩单。

Crystal Report Enterprise和润乾报表都支持集群,也能扩展到数千用户的大级别的应用,但由于扩展的效率不如安讯平台,所以需要更多服务器和CPU。Jasper Report作为一个免费的软件,在性能方面没有太多的优势,能够支持共线用户已经足够让人满意了。

4.安全性/可靠性

安全性指的是信息不会丢失、不会落到没有授权的人手里,这点在企业应用中尤为重要,因为报表平台上的信息必须要做到有控制的共享。

安全性存在于用户终端和报表后台系统。前者往往易被忽略,因而也最容易出现问题。在用户终端,安装浏览器插件和改变浏览器安全配置都会对用户端的安全性产生很大影响,因为它们都存在潜在的风险,会为“恶意程序”提供可乘之机。换句话说,不安装插件、不改变用户的安全设置,对用户才是安全的。另一方面,报表后台系统的安全性主要体现在对用户的权限管理、对数据的加密及对数据访问的控制。数据访问控制涉及一个的宽窄度问题,指的是访问权的授权单位的大小,比如说,最“宽”的权限管理可能是控制用户能否登录系统;略窄一些则可能是控制用户能否访问特定目录和文件;权限再窄一点就可能是控制用户能否访问特定的数据行和报表页了。

Crystal Report Enterprise和Actuate iServer平台的安全机制是基于“用户与角色的安全模型”,通过该安全模型控制系统内部的各种报表、程序、资源等的访问权。此外,它们也提供与外部安全系统结合的接口,能把报表系统与环境的安全机制融为一体。而两个产品最大的差别在于Crystal Report的数据访问控制是基于数据行,而Actuate是基于报表页或电子表格的单元,而基于页的控制对用户来讲可能更直观易用。

润乾报表的安全机制是基于用户的,访问权一般授予用户,不支持更细化的数据访问控制。Jasper Report的安全控制由部署环境实现。

与安全性相比,可靠性的含义就更为直观了。对用户而言,可靠性就是系统能让人更放心地使用。目前的计算机系统还不能保证100%不出问题,但一个好的系统应该很少出问题,就算有问题也不会是那种“恶性事故”,导致信息丢失、系统崩溃等难以挽回的局面。所以,系统出问题后,能够尽快恢复才是最实际的。报表应用的可靠性不仅是一个软件质量问题,还是一个架构问题。有的架构对环境和第三方依赖很大,“命运”不掌握在自己手上,就会存在不少外在的可靠性风险。

Crystal Report与Actuate都已发展多年,在产品的研发方面都有极大的投入,两个品牌在国际上也各自拥有很多大客户。它们的产品经受住了时间的考验,在可靠性方面是令人放心的。Crystal与Actuate都支持故障转移,并能通过配备后备服务器、硬盘的方式增加系统可靠性。相比之下,润乾报表和Jasper Report还没有太长的历史,难以对它们的可靠性作出总结。而从系统架构来讲,Jasper Report的部署需要第三方的应用服务器,系统的可靠性有赖于所选的应用服务器的可靠性。此外,Jasper Report 和润乾报表都没有自主的故障转移能力,它们这部分的能力是依赖部署环境的,存在很大的局限性,发生问题时,很难辨别是报表系统本身的问题还是部署环境问题。

5.完整性

报表工具的完整性主要体现在它是否具有强大的信息展现功能;能否覆盖不同类型的数据源和格式;能否部署、集成在不同的运行平台和环境。大多数的主流报表工具都具有相当出色的完整性,因而才能够在激烈的竞争中占有一席之地。他们共通的方面,就不在此赘述,只就它们的差异,做一些说明:

对Excel的支持:微软Excel是最常用的数据分析、展现工具,因此兼容Excel成为了很多报表工具的追求。从兼容的效果来看,Actuate e.Spreadsheet可谓接近完美,除不能输出静态图片外,几乎能100%地支持Excel的功能。与之相比,其它系统对Excel的支持,只能做到数据层面,输出的是一张“看上去像Excel”的表格,却不能像e.Spreadsheet那样做到输出带公式图表的XLS文件。比如,润乾报表的编辑界面看似Excel,但润乾报表却不真正兼容Excel。

对Flash Object的支持:Flash Object能给报表页面带来生气,在很多场合都能够用得上。Crystal Report是最先实现Flash Object的,而较晚起步的Actuate BIRT支持的种类、式样更多更全,大有青出于蓝胜于蓝的势头。其他的两个工具还不具备对Flash Object的支持。

对仪表盘的支持:仪表盘式的应用非常广泛,市面上也已有许多专用仪表盘软件。面对专用仪表盘软件造成的冲击,报表工具厂商也不得不加强对仪表盘的支持。经过努力,报表工具所支持的仪表盘仍然具有灵活性上的优势。在这方面Crystal Xcelsius做的最为出色,能轻松的产生仪表盘报表。Actuate BIRT也具备了相当不错的仪表盘支持,它拥有了最接近专用仪表盘软件的功能设计。

对脚本的支持:脚本是补充报表工具自带功能不足的有效手段。高级报表设计人员往往能利用脚本,编制出一些富有创意的报表。对脚本的支持也是Actuate的传统优势,Actuate e.Report支持Basic作为脚本语言;Actuate BIRT支持Java Script/Java作为脚本语言。而目前其它几个报表工具对脚本的支持均远没有Actuate做得那么完善。

对集成的支持:润乾报表,Jasper Report和Actuate的BIRT/e.Spreadsheet报表都能以“引擎”方式嵌入到第三方应用。在单独部署时,他们都有J2EE的展现层,有基于标准的调用接口,能方便地集成到其它网络应用中,Actuate更是支持Web 2.0,使其能更为方便地集成到网页上。相比之下,Crystal Report是个比较封闭的系统,它自成一体,必须整块使用,集成非常有限而且没有太多可个性化的东西供用户应用。

以上是笔者对国内市场上热门报表应用产品:BO Crystal Report、Actuate、润乾报表和Jasper Report之间比较的一点心得。虽然,这四个产品的很多功能是重叠的,但经过较为深入的比较可以看出,它们功能的实现质量和达到的效果还是存在着明显的差别。如果读者能从中领会到这些产品相异的地方,对选择合适的报表工具必定会有帮助。正如笔者在文章开头所提到的“一个好的报表工具是使用者的延伸”,符合自身需要的产品才是最好的。

2013年11月21日 | 标签:

Q24.5gb 数据库 信息裤,不包含密码。只包含个人名字(群备注名字等信息)

详情:http://www.wooyun.org/bugs/wooyun-2013-043251

QQ24.5GB数据库解压密码 Yor9OQG7ycmG&|fuxiangmu.com|taiyouyisi.com|!4F

 

链接: http://pan.baidu.com/s/1zi6Ub 密码: shwe

(已失效,度娘把链接都吞了,现在网上应该都比较多了,我就不再发新的地址了

qqku

 

在单独给个第五卷的115网盘下载地址—QQ数据库.7z.005 115下载地址

 

要用迅雷离线加速才能拖到资源

QQ24.5GB数据库迅雷下载——QQ数据库.7z.001

QQ24.5GB数据库迅雷下载——QQ数据库.7z.002

QQ24.5GB数据库迅雷下载——QQ数据库.7z.003

QQ24.5GB数据库迅雷下载——QQ数据库.7z.004

QQ24.5GB数据库迅雷下载——QQ数据库.7z.005

QQ24.5GB数据库迅雷下载——QQ数据库.7z.006

 

qqku2

 

 

苏ICP备2021017351号