TextInputFormat
TextInputFormat
是 FileInputFormat
类的实现类
点进 TextInputFormat
类,查看它的源码,该类上的注释是这样描述的:纯文本文件的 InputFormat。文件被分成几行。换行或回车用于发出行结束的信号。键是文件中的位置,值是文本行。
该类有两个方法,第一个方法是创建记录读取器,第二个方法是判断一个文件是否可切片。
前面说过有的文件经过压缩等处理后不支持分割,后续会说到什么文件压缩后支持切片。
再来看第一个方法 createRecordReader
,可以看见这个方法的返回值类型是 RecordReader
,而返回值是在 return 语句中通过 LineRecordReader
类的构造方法创建了一个对象。
点进该类,可以看到该类上的注释是这么写的:将键视为文件中的偏移量,将值视为行。