`
kongshanxuelin
  • 浏览: 911393 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

通用数据抽取系统的设计与实现

阅读更多
1.可以实现异地的同构(可扩展)数据库的数据抽取。
2.由于考虑到地市局不能通过JDBC直连省局数据库,所以我们这里采用WEB SERVICE来绕过省局的防火墙,从而通过返回的SOAP信息的解析正确执行数据抽取操作。
3.由于考虑到数据源不一定是数据库,也可能是XML文件,所以我们的系统提供XML文件为数据源的数据抽取操作,但此XML文件必须遵循一定的格式。
4.由于考虑到数据抽取过程中可能会遇到记录重复的记录,我们这里采用重复的记录可以略过或者更新,同时这些设置都可以在data.xml可配置,但要指出的是如果需要更新重复的记录,则必须定义目的表的关键字列表,同时抽取操作将大大减慢速度,所以除非有必要,要不然,请不要这么做。
5.由于考虑到有的抽取操作必须定时定点执行,而且在一定的周期下,重复执行抽取操作,所以系统也提供了可配置的这种需求的实现。
6.由于考虑到少数情况下的大的数据量的抽取操作,而ORACLE本身提供的JDBC驱动不能执行有效的数据抽取操作,所以我们这里采用INET的JDBC驱动来执行数据抽取操作,这在数据源的定义中,可配置。
7.由于考虑到有的复杂的数据抽取操作并不能简单的以语句集来实现,所以我们的系统提供自己编写复杂类,然后把该类加入到包中,然后经过配置就可以执行该复杂类,但需要指出的是该复杂类必须继承自,具体的可供的函数请查看我们给出的JAVADOC文档

在我的另一篇博文中有该源代码和工具的下载地址:http://cxlh.iteye.com/blog/243132
  • 大小: 42.5 KB
  • 大小: 34.5 KB
分享到:
评论
5 楼 jeekchen 2009-03-13  
和我做的一个数据适配引擎有点像,可以适配来自http、webservice、各种数据库的数据
4 楼 脑袋雷劈的 2009-03-12  
不知道怎么实现异构库之间的数据抽取!
3 楼 grandboy 2008-10-22  
我用过SQLServer 2005, ETL功能挺方便的。源数据和目标数据都可以是其他数据库。
2 楼 yashilandai86 2008-10-08  
oracle 的ODI比较好用,但是整个软件运行起来占资源奥!
1 楼 godson_2003 2008-09-17  
不错 可以看一下oracle的odi数据抽取产品,国内用的好像不多;

相关推荐

    垂直搜索引擎的设计与实现

    论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入...

    论文研究-通用互联网信息采集系统的设计与初步实现.pdf

    通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类...

    python数据可视化分析毕业设计(源码+文档).zip

    一、内容概要:本课题研究的是通用网络爬虫,它是从一个或若干个初始网页的链接...四、阅读建议:首先阅读python数据可视化分析毕业设计.docx文档掌握整个系统的设计过程以及使用到的技术,接着阅读源码,运行源码。

    基于EtherCAT的从站微处理器的设计与实现

    格式的数据帧的封装与解析工作,能够准确地实现主战与从站之间的数据交换 功能。所设计的LPC1754芯片能够实现整个EtherCAT网络化控制系统中从站微 处理器的功能。整个模块工作稳定可靠,能够满足基本的工业化网络...

    论文研究-异构数据集成采集交换平台中安全审计技术的设计与实现.pdf

    以自行开发的基于异构数据源通用ETLA工具为背景,讨论了其审计监控子系统的设计方法和实现。该子系统具有完整的审计安全保护、监控整个数据的ETLA过程和日志分析功能。

    北京中科信软数据仓库培训

    决策支持系统的数据抽取流程所带来的数据仓库技术 使用数据仓库技术的原因 如何使用数据仓库来加速商业决策和提高决策的质量 中间休息十分钟 数据仓库的概念和术语 通用的,被广泛接受的数据仓库定义 独立和非...

    基于BeautifulSoup,pyecharts,jieba,Tkinter的Python版通用网络爬虫

    一、内容概要:本课题研究的是通用网络爬虫,它是从一个或若干个初始网页的链接...四、阅读建议:首先阅读python数据可视化分析毕业设计.docx文档掌握整个系统的设计过程以及使用到的技术,接着阅读源码,运行源码。

    概要设计说明书模版

    示例:为了开发人员更好的从整体上把把握系统,理解需求、快速准确地进行概要设计与详细设计,同时方便今后设计人员和开发人员的维护工作,特在《01-湖南移动渠道系统功能规格说明书.doc》的基础上撰写此文档资料。...

    北京中科信软oracle培训课件

    决策支持系统的数据抽取流程所带来的数据仓库技术 使用数据仓库技术的原因 如何使用数据仓库来加速商业决策和提高决策的质量 中间休息十分钟 数据仓库的概念和术语 通用的,被广泛接受的数据仓库定义 独立和非...

    Access 2000数据库系统设计(PDF)---002

    Access 2000数据库系统设计(PDF)---002目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....

    Access 2000数据库系统设计(PDF)---003

    Access 2000数据库系统设计(PDF)---002目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....

    Access 2000数据库系统设计(PDF)---018

    Access 2000数据库系统设计(PDF)---018目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....

    Access 2000数据库系统设计(PDF)---011

    Access 2000数据库系统设计(PDF)---011目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....

    Access 2000数据库系统设计(PDF)---020

    Access 2000数据库系统设计(PDF)---020目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....

    Access 2000数据库系统设计(PDF)---009

    Access 2000数据库系统设计(PDF)---009目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....

    Access 2000数据库系统设计(PDF)---001

    1717.7.2 将数据导出为一个文本文件 1727.7.3 以其他文件格式导出数据 1737.8 疑难解答 1737.9 现实世界—Microsoft的付出与 回报 175第二部分 最大限度地利用查询第8章 设计Access 查询 1778.1 查询简介 1778.2 ...

    JAVA上百实例源码以及开源项目源代码

     Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。  部分源代码摘录:  ftpClient = new FtpClient(); //实例化FtpClient对象  String serverAddr=jtfServer.getText(); //得到服务器地址  ...

    史上最大规模1.4亿知识图谱数据下载,知识图谱,通用知识图谱,融合了两千五百多万的实体,拥有亿级别的实体属性关系。.zip

    构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...

    毕业设计(带论文)—试卷生成系统.rar

    用模块化设计方法设计试卷自动生系统,可以使那些繁琐、复杂的功能变成一个简单易实现的小模块,从而使设计工作事倍功半。 五、 研究手段 1、 自我准备:本次设计所需要的是Delphi和SQL2000。我已学习过这两个软件的...

Global site tag (gtag.js) - Google Analytics