1.可以实现异地的同构(可扩展)数据库的数据抽取。
2.由于考虑到地市局不能通过JDBC直连省局数据库,所以我们这里采用WEB SERVICE来绕过省局的防火墙,从而通过返回的SOAP信息的解析正确执行数据抽取操作。
3.由于考虑到数据源不一定是数据库,也可能是XML文件,所以我们的系统提供XML文件为数据源的数据抽取操作,但此XML文件必须遵循一定的格式。
4.由于考虑到数据抽取过程中可能会遇到记录重复的记录,我们这里采用重复的记录可以略过或者更新,同时这些设置都可以在data.xml可配置,但要指出的是如果需要更新重复的记录,则必须定义目的表的关键字列表,同时抽取操作将大大减慢速度,所以除非有必要,要不然,请不要这么做。
5.由于考虑到有的抽取操作必须定时定点执行,而且在一定的周期下,重复执行抽取操作,所以系统也提供了可配置的这种需求的实现。
6.由于考虑到少数情况下的大的数据量的抽取操作,而ORACLE本身提供的JDBC驱动不能执行有效的数据抽取操作,所以我们这里采用INET的JDBC驱动来执行数据抽取操作,这在数据源的定义中,可配置。
7.由于考虑到有的复杂的数据抽取操作并不能简单的以语句集来实现,所以我们的系统提供自己编写复杂类,然后把该类加入到包中,然后经过配置就可以执行该复杂类,但需要指出的是该复杂类必须继承自,具体的可供的函数请查看我们给出的JAVADOC文档
在我的另一篇博文中有该源代码和工具的下载地址:
http://cxlh.iteye.com/blog/243132
- 大小: 42.5 KB
- 大小: 34.5 KB
分享到:
相关推荐
论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入...
通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类...
一、内容概要:本课题研究的是通用网络爬虫,它是从一个或若干个初始网页的链接...四、阅读建议:首先阅读python数据可视化分析毕业设计.docx文档掌握整个系统的设计过程以及使用到的技术,接着阅读源码,运行源码。
格式的数据帧的封装与解析工作,能够准确地实现主战与从站之间的数据交换 功能。所设计的LPC1754芯片能够实现整个EtherCAT网络化控制系统中从站微 处理器的功能。整个模块工作稳定可靠,能够满足基本的工业化网络...
以自行开发的基于异构数据源通用ETLA工具为背景,讨论了其审计监控子系统的设计方法和实现。该子系统具有完整的审计安全保护、监控整个数据的ETLA过程和日志分析功能。
决策支持系统的数据抽取流程所带来的数据仓库技术 使用数据仓库技术的原因 如何使用数据仓库来加速商业决策和提高决策的质量 中间休息十分钟 数据仓库的概念和术语 通用的,被广泛接受的数据仓库定义 独立和非...
一、内容概要:本课题研究的是通用网络爬虫,它是从一个或若干个初始网页的链接...四、阅读建议:首先阅读python数据可视化分析毕业设计.docx文档掌握整个系统的设计过程以及使用到的技术,接着阅读源码,运行源码。
示例:为了开发人员更好的从整体上把把握系统,理解需求、快速准确地进行概要设计与详细设计,同时方便今后设计人员和开发人员的维护工作,特在《01-湖南移动渠道系统功能规格说明书.doc》的基础上撰写此文档资料。...
决策支持系统的数据抽取流程所带来的数据仓库技术 使用数据仓库技术的原因 如何使用数据仓库来加速商业决策和提高决策的质量 中间休息十分钟 数据仓库的概念和术语 通用的,被广泛接受的数据仓库定义 独立和非...
Access 2000数据库系统设计(PDF)---002目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....
Access 2000数据库系统设计(PDF)---002目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....
Access 2000数据库系统设计(PDF)---018目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....
Access 2000数据库系统设计(PDF)---011目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....
Access 2000数据库系统设计(PDF)---020目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....
Access 2000数据库系统设计(PDF)---009目 录译者序前言第一部分 Access基础第1章 Access 2000的新增功能 11.1 Access 2000透视 11.2 用Office Web组件部署数据访问页 21.2.1 Office Web 组件 21.2.2 DAP演示测试....
1717.7.2 将数据导出为一个文本文件 1727.7.3 以其他文件格式导出数据 1737.8 疑难解答 1737.9 现实世界—Microsoft的付出与 回报 175第二部分 最大限度地利用查询第8章 设计Access 查询 1778.1 查询简介 1778.2 ...
Java实现的FTP连接与数据浏览程序,实现实例化可操作的窗口。 部分源代码摘录: ftpClient = new FtpClient(); //实例化FtpClient对象 String serverAddr=jtfServer.getText(); //得到服务器地址 ...
构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,...
用模块化设计方法设计试卷自动生系统,可以使那些繁琐、复杂的功能变成一个简单易实现的小模块,从而使设计工作事倍功半。 五、 研究手段 1、 自我准备:本次设计所需要的是Delphi和SQL2000。我已学习过这两个软件的...