先前导入数据介绍过readLines了:
但如果当文本文件很大的时候,整体读入有时存不下,即使能存下处理速度也很慢,可以一次读入部分行,逐批读入并且逐批处理,这样程序效率更高。这样的程序要复杂一些,例如:
infcon <- file("filename.ext", open="rt") batch <- 1000
repeat{
lines <- readLines(infcon, n=batch)
if(length(lines)==0) break
## 处理读入的这些行,其实替换其他循环方法也可以处理
}
close(infcon) ## 这里有点类似py 中的open..close 操作
这里使用批量功能时,会遇到报错:
Warning message:
In readLines(infcon, n = batch) :
读'Jane Eyre - Charlotte Bronte.txt'时最后一行未遂
导致无法读取数据。
函数 writeLines(lines, con=”outfilename.txt”) 可以将字符型向量 lines 的各个元素变成输出文件的各行保存起来,自动添加分隔行的换行符。
我们还可以直接从网络读取文本: