java对大数据量文件内容的多线程读取和排序
1.Generate a random text file, which contains at least 100 Million lines. Each line must contain over 100 characters.
2.Compose a Java program to sort the file within a standard qualified time (time for data IO is also counted). Less running time used, the performance is better. The program MUST NOT consume memory over 512M Bytes, and the usage of CPU is not limited.
各位大侠,大家好,我现在有个棘手的题目,请大家帮忙,有满意答案后可给分
题目翻译入下:
1:生成一个随机的文本文件,其中包含至少10亿行,每一行必须包括100个字符。
2:编写一个java程序,对此文本内容进行排序,排序计时,时间越少性能越好,内存不得大于512MB,CPU满意限制。
个人愚见:可以考虑外部排序中使用线程来提高运行效率(cpu没有限制),到文件太大需分割(使用缓存)。如何组织好一个程序还望高手指教。最好有程序。谢谢了。
[解决办法]
先翻译准确了,100M是1亿
[解决办法]
感觉楼主的需求还没有描述完全,问题漏洞太多。
1.生成这样的文件,每行的信息内容是什么,是否包含格式?
2.排序依据是什么,如何排序。
3.排序结果是什么,如何体现。
我自己臆测下你这个题目锁涉及的难点吧。
1.文件过大,不可能一次性load。基于效率问题,批量读取,控制buffer大小提高效率。
如果是xml文件就使用Sax解析方式,基于流。
2.排序后结果统计非常麻烦,如果是把排好序的文件重新生成难度就体现出来了了,如何插入排序方式无需整理结果文件,但需要遍历原始10亿*10亿次。
需要人为策略优化。
我个人优化思路如下:
1. 读取文件基于流,每次读一行,自行判断换行符号,将排序方式编码成权计算,计算出比较权值。
形成 [文件流byte[offset]:length:行号:权值] 信息。将索引信息存放内存,因为数据量小不会耗费大量内存。
(该过程可以通过String buffer[] 来缓存一定数量的lineString信息[文件流offset,length],起用多线程并发并发计算权值)
2. 对权值进行散列,适当控制散列堆大小,散列到不同的散列堆,然后进行排序。
一个堆即一个具备排序功能的链式结构。
通过权值散列到不同的排序堆堆。
3.通过randeAccessFile 读取源文件,输出排序文件。如果排序文件可以分多个文件输出,可以依照排序堆,并给输出文件命名。
sorted_1.txt sorted_2.txt ....... sorted_n.txt,这样在写文件时可以使用多线程进行提速。
[解决办法]
IO 操作无法使用多线程,IO 操作的并发率为 0,也就是说不支持并发。
使用多个线程读写文件,比单个线程会更慢,因为带来了更多的寻道时间。
[解决办法]