首页 | 资讯动态 | linux基础 | 系统管理 | 网络管理 | 编程开发 | linux数据库 | 服务器技术 | linux相关 | linux认证 | 嵌入式 | 下载中心 | 专题 | linux招聘 | 镜像站
OKLinux中文技术站
·设为首页
·加入收藏
·联系我们
系统管理: 中文环境 系统管理 桌面应用 内核技术 | Linux基础: 基础入门 安装配置 常用命令 经验技巧 软件应用 | Linux数据库: Mysql Postgre Oracle DB2 Sybase other
网络管理: 网络安全 网络应用 Linux服务器 环境配置 黑客安全 | 编程开发: PHP CC++ Python Perl Shell 嵌入式开发 java jsp | PHP技术: PHP基础 PHP技巧 PHP应用 PHP文摘
搜索中心 Linux招聘 Linux专题 Apache | Linux相关: 硬件相关 Linux解决方案 Linux认证 企业应用 其它Unix | 相关下载: 资料下载 参考手册 开发工具 服务器类 软路由 其它
 技术搜索:
会员中心 注册会员 高级搜索  
  → 当前位置:首页>编程开发>其他编程>正文

Linux对一个3G的文本进行编码转换全过程

http://www.oklinux.cn  2008-09-21  linuxidc   会员收藏  游客收藏  【 】 
您查看的文章来源于http://www.oklinux.cn

本过程中涉及到的Linux的命令有:split, iconv, cat

问题:有一个3G的文本a.txt,编码格式为gbk,现在需要对其进行转换成为utf-8。

难点:iconv的转换是在内存中进行的,因此3G大小的文本,无法进行直接转换。

思路:先利用split进行文件切分,然后对每一个字文件进行ivonv转换,最后进行cat合并。

1) ll -h a.txt 查看文件的大小,2.9G

2) wc -l a.txt 查看文件的行数,9千200万行

3) split -l 20000000 a.txt chunk 按照每个文件2千万行进行切割,共分成5个文件

4) 进行转换
iconv -f gbk -t utf-8 chunka > chunka_utf8 -c
iconv -f gbk -t utf-8 chunkb > chunkb_utf8 -c
iconv -f gbk -t utf-8 chunkc > chunkc_utf8 -c
iconv -f gbk -t utf-8 chunkd > chunkd_utf8 -c
iconv -f gbk -t utf-8 chunke > chunke_utf8 -c

5) rm chunka chunkb chunkc chunkd chunke 删除原文件

6) cat chunk* > a.txt_utf8 进行合并

至此,工作完成。


上一篇:SUSE Linux网络配置以及防火墙配置   下一篇:Linux服务器之22端口弱口令与SSH连接程序

收藏于收藏夹】 【评论】 【推荐】 【打印】 【关闭
相关文档
·菜鸟课堂 教你打造个人无敌系统全攻略
·把Linux下nand读操作搞定了
·Linux\Unix 系统编程 -- 关于缓冲设置时容易出现的错
·Linux\Unix 系统编程 -- 等待某个子进程结束的wait方
·不安装Linux也可学习Linux命令的方法
·Linux添加路径到PATH
·Linux Shell位置参数
·关于Linux fork()函数的工作机制
·Linux内存泄漏的检查方法
·初识Linux脚本编程(shell)
·Linux shell 检查进程PID
·Ubuntu 8.04下的嵌入式开发环境建立
·Linux内核中Kconfig文档的作用
·Linux下线程调用sleep,进程挂起
·开发环境:从Windows到Linux
·创建XWindow全屏窗口(Linux可视化编程)
发表评论
密码: 匿名评论
评论内容:

(不超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规)
 
  最新文档
·菜鸟课堂 教你打造个人无敌系统全攻略
·把Linux下nand读操作搞定了
·Linux\Unix 系统编程 -- 关于缓冲设置
·Linux\Unix 系统编程 -- 等待某个子进
·不安装Linux也可学习Linux命令的方法
·Linux添加路径到PATH
·Linux Shell位置参数
·关于Linux fork()函数的工作机制
·Linux内存泄漏的检查方法
·初识Linux脚本编程(shell)
·Linux shell 检查进程PID
·Ubuntu 8.04下的嵌入式开发环境建立
  阅读排行
·Linux下Qtopia Core 4.3(QT/E)交叉编译
·开源空间 网络安全工具开发函数库Libne
·Linux编程时获取当前时间实例解析
·Linux环境下OpenGL编程学习
·Linux socket编程实例:echo服务器程序
·升级Redhat Linux 9.0内核有感
·Linux中断处理学习笔记
·Linux环境下重新编译GCC-4.3.0
·GNU/Linux应用程序编程:用管道进行编
·Linux系统中限制用户进程CPU及内存占用
·Linux下安装g77 fortran complier过程
·解决Linux中Matlab中文乱码问题
·Linux多线程编程学习之线程同步
·Linux环境下Wine的中文显示以及freetyp
·如何在Ubuntu 7.0上实现C/C++开发环境
网摘收藏: