Skip to content

Latest commit

 

History

History
15 lines (9 loc) · 783 Bytes

README.md

File metadata and controls

15 lines (9 loc) · 783 Bytes

程序有三个入口:createTableStart、ScanFileStart和TarFileStart

其中createTableStart为建表,提前一天建好所需表格。

ScanFileStart为循环进程,扫描文件夹bjxxx_fdr中所有txt.gz,验证后置入新建的bj中。

TarFileStart为循环进程,scanFile方法扫描城市内文件将文件list传给tarProcess生成 .tar文件,tar文件为直接拼接在HDFS上。每一个companyHourID生成一个Tar,每生成一个 part同时生成一个index文件。

TarFileSystem继承FileSystem,功能与HarFileSystem功能基本一致。首先读取所有index, 读取index中拼接part文件的源文件信息存入名为archive的hashMap中,包括源文件所在part、 start、length,之后读取源文件信息全部从该archive中获取。