164

Я хотів би прочитати дуже-дуже великий файл у масиві JavaScript в node.js.

Отже, якщо файл такий:

first line
two 
three
...
...

У мене буде масив:

['first line','two','three', ... , ... ]

Функція виглядатиме так:

var array = load(filename);

Тому ідея завантажувати все це як рядок і потім розбивати його неприйнятна.

javascript node.js

— чакко
джерело

Це питання потребує серйозного редагування та очищення. Він говорить, що читати текстовий файл у масив , але коли ви читаєте всі відповіді та коментарі, це насправді означає читати текстовий файл один рядок . На це питання @zswang має найкращу відповідь досі.

— Джесс

ви просто прочитайте цей файл і просуньте кожен рядок у масив: stackoverflow.com/a/34033928/1536309

— Блер Андерсон

89

Якщо ви можете помістити підсумкові дані в масив, чи не могли б ви також вмістити їх у рядок і розділити їх, як було запропоновано? У будь-якому випадку, якщо ви хочете обробити файл один рядок, ви також можете спробувати щось подібне:

var fs = require('fs');

function readLines(input, func) {
  var remaining = '';

  input.on('data', function(data) {
    remaining += data;
    var index = remaining.indexOf('\n');
    while (index > -1) {
      var line = remaining.substring(0, index);
      remaining = remaining.substring(index + 1);
      func(line);
      index = remaining.indexOf('\n');
    }
  });

  input.on('end', function() {
    if (remaining.length > 0) {
      func(remaining);
    }
  });
}

function func(data) {
  console.log('Line: ' + data);
}

var input = fs.createReadStream('lines.txt');
readLines(input, func);

EDIT: (у відповідь на коментар phopkins ) Я думаю, що (принаймні, в нових версіях) підрядка не копіює дані, а створює спеціальний об'єкт SlicedString (з швидкого огляду вихідного коду v8). У будь-якому випадку тут є модифікація, яка дозволяє уникнути згаданої підрядки (тестується у файлі на кілька мегабайт вартістю "Вся робота і жодна гра не робить Джека нудним хлопчиком"):

function readLines(input, func) {
  var remaining = '';

  input.on('data', function(data) {
    remaining += data;
    var index = remaining.indexOf('\n');
    var last  = 0;
    while (index > -1) {
      var line = remaining.substring(last, index);
      last = index + 1;
      func(line);
      index = remaining.indexOf('\n', last);
    }

    remaining = remaining.substring(last);
  });

  input.on('end', function() {
    if (remaining.length > 0) {
      func(remaining);
    }
  });
}

— mtomis
джерело

Дякую. щоб відповісти на ваше запитання: ні, рядок був би занадто великим.

— чако

7

Я спробував це на файлах розміром близько 2 Мб, і це було болісно повільно, набагато повільніше, ніж читання у файлах синхронно до рядка. Я думаю, що проблема - це рядок, що залишився = залишається.зарядка. "Дані" Вузла можуть дати вам багато часу, і виконання цієї копії для кожного рядка швидко стає O (n ^ 2).

— Фіона Хопкінс

@ Відповідь Фінбара набагато краща

— rü-

444

Синхронні:

var fs = require('fs');
var array = fs.readFileSync('file.txt').toString().split("\n");
for(i in array) {
    console.log(array[i]);
}

Асинхронний:

var fs = require('fs');
fs.readFile('file.txt', function(err, data) {
    if(err) throw err;
    var array = data.toString().split("\n");
    for(i in array) {
        console.log(array[i]);
    }
});

— Фінбарр
джерело

11

Дякую. На жаль, мені довелося відредагувати своє запитання. Я маю на увазі, як читати масово великий файл. Читати все це в рядку неприпустимо.

— chacko

1

Тільки те, що мені було потрібно. Просто і швидко.

— Hcabnettek

16

Я виявив це робити у файлі, створеному Windows, мені довелося розділити \ r \ n, але це зламало Macs; тому більш міцний; _array = string.replace (/ \ r \ n / g, '\ n'). split ('\ n'); працював для обох

— Вілл Ханкок

6

+1 У Stackoverflow є певна проблема. Зараз я часто знаходжу відповіді з високим рівнем голосу після прокручування занадто далеко. Це теж приклад цього. Він має найвищий рівень голосування, але розташований внизу сторінки, дуже останній. Я думаю, що Stackoverflow потребує вдосконалення алгоритму замовлення.

— шашват

1

@shashwat Людина, яка задає питання, повинна вирішити, яка правильна відповідь. У цьому випадку їм було потрібно потокове рішення для великих файлів, а розміщення всього файлу в рядку неприпустимо. Нічого поганого з ТАК, насправді.

— легалізувати

73

Використання Node.js модуля Readline .

var fs = require('fs');
var readline = require('readline');

var filename = process.argv[2];
readline.createInterface({
    input: fs.createReadStream(filename),
    terminal: false
}).on('line', function(line) {
   console.log('Line: ' + line);
});

— zswang
джерело

1

На жаль, існує проблема з цим рішенням: у вас не буде останнього рядка, якщо файл не має \nкінця! Дивіться: stackoverflow.com/questions/18450197/…

— Ів М.

8

Вузол зафіксував , що проблема з \ п stackoverflow.com/a/32599033/3763850

— Gemtastic

14

js:

var array = fs.readFileSync('file.txt', 'utf8').split('\n');

ts:

var array = fs.readFileSync('file.txt', 'utf8').toString().split('\n');

— ходжин
джерело

1

Щоб запобігти TypeError: fs.readFileSync(...).split is not a functionвикидженню вище , слід скористатися .toString () таким чином:var array = fs.readFileSync('file.txt', 'utf8').toString().split('\n');

— Qua285

11

використовувати читальну лінію ( документацію ). ось приклад читання файлу css, розбору значків та запису їх до json

var results = [];
  var rl = require('readline').createInterface({
    input: require('fs').createReadStream('./assets/stylesheets/_icons.scss')
  });


  // for every new line, if it matches the regex, add it to an array
  // this is ugly regex :)
  rl.on('line', function (line) {
    var re = /\.icon-icon.*:/;
    var match;
    if ((match = re.exec(line)) !== null) {
      results.push(match[0].replace(".",'').replace(":",''));
    }
  });


  // readline emits a close event when the file is read.
  rl.on('close', function(){
    var outputFilename = './icons.json';
    fs.writeFile(outputFilename, JSON.stringify(results, null, 2), function(err) {
        if(err) {
          console.log(err);
        } else {
          console.log("JSON saved to " + outputFilename);
        }
    });
  });

— Блер Андерсон
джерело

6

file.linesз пакетом JFile

Псевдо

var JFile=require('jfile');

var myF=new JFile("./data.txt");
myF.lines // ["first line","second line"] ....

Не забувайте раніше:

npm install jfile --save

— Abdennour TOUMI
джерело

5

З BufferedReader , але функція повинна бути асинхронною:

var load = function (file, cb){
    var lines = [];
    new BufferedReader (file, { encoding: "utf8" })
        .on ("error", function (error){
            cb (error, null);
        })
        .on ("line", function (line){
            lines.push (line);
        })
        .on ("end", function (){
            cb (null, lines);
        })
        .read ();
};

load ("file", function (error, lines){
    if (error) return console.log (error);
    console.log (lines);
});

— Габріель Ллама
джерело

4

я просто хочу додати @finbarr чудову відповідь, трохи виправити в асинхронному прикладі:

Асинхронний:

var fs = require('fs');
fs.readFile('file.txt', function(err, data) {
    if(err) throw err;
    var array = data.toString().split("\n");
    for(i in array) {
        console.log(array[i]);
    }
    done();
});

@MadPhysicist, done () - це те, що звільняє асинхронію. дзвінок.

— ЕрнанФіла
джерело

3

Це зміна у відповіді вище від @mtomis.

Він створює потік ліній. Він випромінює події "дані" та "кінець", що дозволяє вам обробляти кінець потоку.

var events = require('events');

var LineStream = function (input) {
    var remaining = '';

    input.on('data', function (data) {
        remaining += data;
        var index = remaining.indexOf('\n');
        var last = 0;
        while (index > -1) {
            var line = remaining.substring(last, index);
            last = index + 1;
            this.emit('data', line);
            index = remaining.indexOf('\n', last);
        }
        remaining = remaining.substring(last);
    }.bind(this));

    input.on('end', function() {
        if (remaining.length > 0) {
            this.emit('data', remaining);
        }
        this.emit('end');
    }.bind(this));
}

LineStream.prototype = new events.EventEmitter;

Використовуйте його як обгортку:

var lineInput = new LineStream(input);

lineInput.on('data', function (line) {
    // handle line
});

lineInput.on('end', function() {
    // wrap it up
});

— oferei
джерело

1

У вас закінчиться поділ між примірниками.

var EventEmitter = require('events').EventEmitter; var util = require('util');  function GoodEmitter() {     EventEmitter.call(this); } util.inherits(GoodEmitter, EventEmitter);

— CTAPbIu_MABP

Про які конкретно ви говорите саме?

— oferei

1

спробуйте створити, var li1 = new LineStream(input1), li2 = new LineStream(input2);а потім порахуйте, скільки разів

— запускається

спробував це. 'end' був звільнений один раз для кожного примірника.

var fs = require('fs');  var input1 = fs.createReadStream('text.txt');  var ls1 = new LineStream(input1); ls1.on('data', function (line) {     console.log('1:line=' + line); }); ls1.on('end', function (line) {     console.log('1:fin'); });   var input2 = fs.createReadStream('text.txt');  var ls2 = new LineStream(input2); ls2.on('data', function (line) {     console.log('2:line=' + line); }); ls2.on('end', function (line) {     console.log('2:fin'); });

висновок: кожен рядок у текстовому файлі був запущений один раз для кожного екземпляра. так було "кінець".

— oferei

2

У мене була така ж проблема, і я вирішив її за допомогою модуля по черзі

https://www.npmjs.com/package/line-by-line

Принаймні для мене працює як шарм, і в синхронному, і в асинхронному режимі.

Також проблема з рядками, що закінчуються, не закінчуються \ n, можна вирішити за допомогою параметра:

{ encoding: 'utf8', skipEmptyLines: false }

Синхронна обробка рядків:

var LineByLineReader = require('line-by-line'),
    lr = new LineByLineReader('big_file.txt');

lr.on('error', function (err) {
    // 'err' contains error object
});

lr.on('line', function (line) {
    // 'line' contains the current line without the trailing newline character.
});

lr.on('end', function () {
    // All lines are read, file is closed now.
});

— Антоні
джерело

2

Використання Node.js v8 або новішої версії має нову функцію, яка перетворює нормальну функцію у функцію асинхронізації.

util.promisify

Це дивовижна особливість. Ось приклад розбору 10000 чисел з файлу txt в масив, підрахунку інверсій за допомогою сортування об'єднань на числа.

// read from txt file
const util = require('util');
const fs = require('fs')
fs.readFileAsync = util.promisify(fs.readFile);
let result = []

const parseTxt = async (csvFile) => {
  let fields, obj
  const data = await fs.readFileAsync(csvFile)
  const str = data.toString()
  const lines = str.split('\r\n')
  // const lines = str
  console.log("lines", lines)
  // console.log("str", str)

  lines.map(line => {
    if(!line) {return null}
    result.push(Number(line))
  })
  console.log("result",result)
  return result
}
parseTxt('./count-inversion.txt').then(() => {
  console.log(mergeSort({arr: result, count: 0}))
})

— Seunghun Sunmoon Lee
джерело

1

Для читання великого файлу в масив ви можете читати рядок за рядком або фрагмент за шматок.

рядок за рядком див. мою відповідь тут

var fs = require('fs'),
    es = require('event-stream'),

var lines = [];

var s = fs.createReadStream('filepath')
    .pipe(es.split())
    .pipe(es.mapSync(function(line) {
        //pause the readstream
        s.pause();
        lines.push(line);
        s.resume();
    })
    .on('error', function(err) {
        console.log('Error:', err);
    })
    .on('end', function() {
        console.log('Finish reading.');
        console.log(lines);
    })
);

шматок за куском посилається на цю статтю

var offset = 0;
var chunkSize = 2048;
var chunkBuffer = new Buffer(chunkSize);
var fp = fs.openSync('filepath', 'r');
var bytesRead = 0;
while(bytesRead = fs.readSync(fp, chunkBuffer, 0, chunkSize, offset)) {
    offset += bytesRead;
    var str = chunkBuffer.slice(0, bytesRead).toString();
    var arr = str.split('\n');

    if(bytesRead = chunkSize) {
        // the last item of the arr may be not a full line, leave it to the next chunk
        offset -= arr.pop().length;
    }
    lines.push(arr);
}
console.log(lines);

— Кріс Руф
джерело

node.js: прочитати текстовий файл у масив. (Кожен рядок елемент у масиві.)

Синхронні:

Асинхронний:

Псевдо