Відповідно до Hadoop - The Definitive Guide
Логічні записи, які визначають FileInputFormats, зазвичай не вписуються акуратно в блоки HDFS. Наприклад, логічні записи TextInputFormat - це рядки, які частіше за все перетинають межі HDFS. Це не стосується функціонування вашої програми - наприклад, рядки не пропущені або порушені, але про це варто знати, оскільки це означає, що карти локальних даних (тобто карти, що працюють на тому ж хості, що і їх вхідні дані) виконає деякі віддалені зчитування. Незначні накладні витрати, які це викликає, як правило, не є значними.
Припустимо, рядок запису розділений на два блоки (b1 і b2). Маппер, що обробляє перший блок (b1), помітить, що останній рядок не має роздільника EOL і витягує решту рядка з наступного блоку даних (b2).
Як картограф, що обробляє другий блок (b2), визначає, що перший запис є неповним і повинен оброблятись, починаючи з другого запису в блоці (b2)?
LineReader.readLine
функції, я не думаю, що це стосується вашого питання, але за потреби можна додати більше деталей.