博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大文件sort
阅读量:6058 次
发布时间:2019-06-20

本文共 423 字,大约阅读时间需要 1 分钟。

hot3.png

先对文件按行split

split -l 100000000 file #以一亿行分割,每行10个字符的文件,大约800M

然后sort

#!/bin/shfor file in `ls x*`do         sort $file -T /home/xxx > $file.sort ##重点在这的-T设置tmp参数,sort是会写缓存文件的工具,不会##一次性读取文件到内存,所以内存大小无所谓,但是默认会写系统区,可能造成系统区空间不够##所以找个比较大的地方放donesort -m `ls *.sort` > result

其实直接sort也是可以的,有-T就行了对付上G的文件没问题,会跑满cpu但是内存占用只有0.几

sort之后的文件可以直接uniq,uniq的速度是极其快的,一亿行的文件sort需时40分钟,uniq只需不到2分钟

转载于:https://my.oschina.net/lovejoy/blog/70465

你可能感兴趣的文章
负载均衡群集之—LVS-NAT
查看>>
软考考前注意事项
查看>>
洞悉物联网发展1000问之智能汽车会成为下一代移动智能终端吗?
查看>>
实现vlan划分、创建vlan trunk和端口聚合
查看>>
Multi-Model多模数据库引擎设计与实现
查看>>
oracle 11g安装过程中问题:找不到WFMLRSVCApp.ear
查看>>
电子印章助推《上海市公共数据和一网通办管理办法》施行
查看>>
嵌入式学习路线-嵌入式系统开发流程中常见的问题
查看>>
几款数据恢复工具的使用
查看>>
欧派家居牵手用友云平台 打造标准化数据资产管理平台
查看>>
人家弃医从文,弃笔从戎,我要弃运从码
查看>>
VMdomainXml
查看>>
部署SaltStack及批量安装httpd服务
查看>>
最简单ip地址及子网掩码换算,子网获分教程实例。
查看>>
初识易GTD
查看>>
Oracle教程之管理索引(五)--Oracle索引的维护
查看>>
Office 365系列:配置Outlook IMAP方式连接ExchangeOnline
查看>>
kali git 环境配置
查看>>
如何分析并构造cacheurl正则实现视频缓存
查看>>
终于理解你的软件 搞那么多年了 (通用权限管理系统组件源码完善了7-8年)
查看>>