ETL,即Extract, Transform, Cleaning和Load,是将生产库中的数据提取到数据仓库中,再由报表、统计和分析工具进行分析的过程。Informatic PowerCenter主要用于数据提取、存储和转换,其中主要包含四个部分:Client,Reposity Server,Reposity Database和Informatic Server。 Client部分包括五个模块,分别是Reposity Manager、Designer、Workflow Manager、Workflow Monitor和Application Console。Reposity Manager用于管理Reposity库,包括文件夹权限的创建和用户权限、密码的管理等。Designer用于设计数据抽取转换工具,包括mapping设计、源数据库和目标数据库结构设计,以及需要进行的转换操作。 Workflow Manager用于设计流程任务,设计任务流程时,每个任务针对一个Session,一个Session针对一个mapping。Workflow Monitor则用于跟踪流程运行情况,包括Session和Workflow日志。Application Console用于管理Reposity库,包括Reposity Server的启动、关闭操作,以及库级别的管理。 Reposity Server为客户端提供服务,数据抽取设计成果转换成XML格式的源数据,通过Reposity Server存放到Reposity Database Server上。Reposity Database Server存放ETL设计的元数据,可以支持各类数据库。 Informatic Server是实际执行数据抽取任务的运行环境,根据定义的workflow元数据库,在自己的实际环境中执行数据抽取操作。Informatic的功能主要体现在Designer和Workflow Manager上,其中Designer实现数据抽取的数据转换方式设计,而Workflow Manager则将具体的数据转换方式应用到具体的工作任务中。 Designer的工作区包括Source Analyzer、Warehouse Designer、Transformation Designer、Mapplet Designer和Mapping Designer。这些工作区的功能分别用于源数据库表的设计、目标数据库结构设计、可重用的transformation组件设计、多个组件设计以及具体进行抽取数据的mapping设计。 Informatic提供的组件包括Active组件和Passive组件。Active组件包括Source Qualifier、Expression、Filter、Sorter、Aggregator、Joiner、Lookup、Update Strategy、Router、Sequence Generator、Normalizer、Rank、Union、Transaction Control和Stored Procedure等。 Passive组件包括External Procedure和Custom等。这些组件有各自独特功能,如Source Qualifier支持同构数据源的连接,而Lookup则用于查找值并传递给其他对象。Workflow是对执行任务进行控制的工具,可以在执行时传入参数,达到动态执行的目的。



































