首页 开发编程 正文

php怎么读入文本

对于大文本文件的读写有哪些高效的方法?PHP的处理方式大文件如果直接open,是将文件内容读入到字符串变量内。该函数从文件内读取一行。从$handle指向的文件中读取一行并返回长度最多为$length-1字节的字符串。碰到换行符(包括在返回值中)、EOF或者已经读取了$length-1字节后停止(看先碰到那一种情况)。Python的方...

php怎么读入文本,对于大文本文件的读写有哪些高效的方法?

结论:大文本文件,远超内存,需要格外注意。

前言

生产服务器中经常产生很多文件,有些积年累月单个文件,体积越来越大。

本文使用多种编程语言,实现大文件的读取。

PHP的处理方式

大文件如果直接open,就会被整个写入内存,内存是吃不消的。比如4G的内存,10G的文件,这是处理不了的。也没有哪个文本编辑器可以用。

常用的file_get_contents函数,是将文件内容读入到字符串变量内。而字符串变量分配在内存,所以没有任何办法处理大文件。

一般的做法是使用 fgets 函数。该函数从文件内读取一行。函数格式如下:

string fgets ( resource [, int ] )

其中参数 $handle 是文件指针,从 $handle 指向的文件中读取一行并返回长度最多为 $length 1 字节的字符串。

碰到换行符(包括在返回值中)、EOF 或者已经读取了 $length 1 字节后停止(看先碰到那一种情况)。如果没有指定 $length,则默认为 1K,或者说 1024 字节。

实际用起来像下面这样。

此函数效率极高,一次最多读一行。而碰到整个文件都是一行的情况,则按照设定的 $length 按照长度依次读取。

Python的方式

从上述PHP的处理方法可以看到,关键点是按行读取,再按长度读取。python的处理方法一样,只是掺杂了一些语法糖。

python有一个“生成器”,解决大文件的读取,就靠这个玩意儿。

在python的函数(function)定义中,只要出现了yield表达式(Yield expression),那么事实上定义的是一个generator function, 调用这个generator function返回值是一个generator。

为什么genetor效率高呢,因为其与普通函数的有区别:

function每次都是从第一行开始运行,而generator从上一次yield开始的地方运行。

function调用一次返回一个(一组)值,而generator可以多次返回。

function可以被无数次重复调用,而一个generator实例在yield最后一个值或者return之后就不能继续调用了。

下面是使用带有yield关键字的读取大文件方法。

其实python还有更优雅便捷的写法,就是for循环读取。像下面这样:

或者不用重新定义函数,直接用for循环遍历。

底层使用的原理是一样的。

Golang的方式

Golang的想法也一样,它绝不把整个文件写入内存。bufio库就是读写文件的利器。

不多解释,直接上示例。

Golang为了统一场景,无论普遍的和特殊的,都考虑在内了。这就是bufio的厉害之处。

对于读写,数据被存储直到达到特定大小,通过这种方式触发的写操作更少。同时还减少了 sycall(系统调用)的数量,却可以使用更高效的方式使用底层硬件。

Linux下的工具

如果你在Linux处理该文本,那这完全不是问题。自带的很多工具,能够帮你处理这个简单的问题。比如 head,读取某文件的前多少行;tail,读取某文件的最后多少行。

如果只是要读文件,那么 less 是你最佳的选择。

文档内说的很清楚,less并不直接读入整个文档,因此处理起来,比vi/vim编辑器速度快的多。

打开之后,就可以上下翻页阅读了。

结语

本文通过多种编程语言,实现了大文件的读取。

掌握核心的方法后,使用哪种语言实现,都可以。

【本文由 @程序员小助手 发布,持续分享编程与程序员成长相关的内容,欢迎关注】

数据库导入sql文件失败怎么办?

操作步骤:

1、使用文本编辑器editplus打开51php.sql文件,将头部信息全部删除,只保留数据库表信息。

2、删除头部信息后,一般都可以导入成功。如果还不成功,用phpmyadmin的sql语句进行导入,一般都OK的

php多线程教程?

PHP+shell实现多线程的方法

先写个简单的php代码,这里为了让脚本执行时间更长,方便看效果,sleep一下,呵呵!先看下test.php的代码:ls

PHP代码:

for ($i=0;$i<10;$i++) {

echo $i;

sleep(10);

}

?>

在看下shell脚本的代码,非常简单

#!/bin/bash

for i in 1 2 3 4 5 6 7 8 9 10

do

/usr/bin/php -q /var/www/html/test.php &

done

注意到在请求php代码的那行有一个&符号吗,这个是关键,不加的话是不能进行多线程的,&表示讲服务推送到后台执行,因此,在 shell的每次的循环中不必等php的代码全部执行完在请求下一个文件,而是同时进行的,这样就实现了多线程,下面运行下shell看下效果,这里你将 看到10个test.php进程再跑,再利用linux的定时器,定时请求这个shell,在处理一些需要多线程的任务,例如,批量下载时,非常好用!

php中用WEB服务器实现多线程

假设我们现在运行的是a.php这个文件. 但是我在程序中又请求WEB服务器运行另一个b.php,那么这两个文件将是同时执行的.(PS: 一个链接请求发送之后, WEB服务器就会执行它, 而不管客户端是否已经退出)

有些时候, 我们想运行的不是另一个文件, 而是本文件中的一部分代码.该怎么办呢?

其实可是通过参数来控制a.php来运行哪一段程序.

下面看一个例子:

//a.php,b.php

PHP代码:--------------------------------------------------------------------------------

function runThread()

{

$fp = fsockopen('localhost', 80, $errno, $errmsg);

fputs($fp, "GET /b.php?act=b\r\n\r\n"); //这里的第二个参数是HTTP协议中规定的请求头

//不明白的请看RFC中的定义

fclose($fp);

}

function a()

{

$fp = fopen('result_a.log', 'w');

fputs($fp, 'Set in ' . Date('h:i:s', time()) . (double)microtime() . "\r\n");

fclose($fp);

}

function b()

{

$fp = fopen('result_b.log', 'w');

fputs($fp, 'Set in ' . Date('h:i:s', time()) . (double)microtime() . "\r\n");

fclose($fp);

}

if(!isset($_GET['act'])) $_GET['act'] = 'a';

if($_GET['act'] == 'a')

{

runThread();

a();

}

else if($_GET['act'] == 'b') b();

?>

--------------------------------------------------------------------------------

打开result_a.log 和 result_b.log 比较一下两个文件的中访问的时间. 大家会发现, 这两个的确是在不同线程中运行的.有些时间完全一样.

上面只是一个简单的例子, 大家可以改进成其它形式.

既然PHP中也能多线程了, 那么问题也来了, 那就是同步的问题. 我们知道 PHP本身是不支持多线程的. 所以更不会有什么像Java 中synchronize的方法了. 那我们该如何做呢.

1. 尽量不访问同一个资源. 以避免冲突. 但是可以同时像数据库操作. 因为数据库是支持并发操作的. 所以在多线程的PHP中不要向同一个文件中写入数据. 如果必须要写的话, 用别的方法进行同步.. 如调用 flock对文件进行加锁等. 或建立临时文件并在另外的线程中等待这个文件的消失 while(file_exits('xxx')); 这样就等于这个临时文件存在时, 表示其实线程正在操作

如果没有了这个文件, 说明其它线程已经释放了这个.

2. 尽量不要从runThread在执行fputs后取这个socket中读取数据. 因为要实现多线程, 需要的用非阻塞模式. 即在像fgets这样的函数时立即返回.. 所以读写数据就会出问题. 如果使用阻塞模式的话, 程序就不算是多线程了. 他要等上面的返回才执行下面的程序. 所以如果需要交换数据最后利用外面文件或数据中完成. 实在想要的话就用socket_set_nonblock($fp) 来实现.

说了这么多, 倒底这个有没有实际的意义呢? 在什么时候需要这种用这种方法呢 ?

答案是肯定的. 大家知道. 在一个不断读取网络资源的应用中, 网络的速度是瓶颈. 如果采多这种形式就可以同时以多个线程对不同的页面进行读取.

本人做的一个能从8848、soaso这些商城网站搜索信息的程序。还有一个从阿里巴巴网站上读取商业信息和公司目录的程序也用到了此技术。 因为这两个程序都是要不断的链接它们的服务器读取信息并保存到数据库。 利用此技术正好消除了在等待响应时的瓶颈。

php模拟实现多线程的三种方法

PHP语言本身是不支持多线程的. 总结了一下网上关于PHP模拟多线程的方法, 总的来说, 都是利用了PHP的好伙伴们本身所具有的多线程能力. PHP的好伙伴指的就是LINUX和APACHE啦, LAMP嘛.

另外, 既然是模拟的, 就不是真正的多线程. 其实只是多进程. 进程和线程是两个不同的概念. 好了, 以下方法都是从网上找来的.

1. 利用LINUX操作系统

for ($i=0;$i<10;$i++) {

echo $i;

sleep(5);

}

?>

上面存成test.php, 然后写一段SHELL代码

#!/bin/bash

for i in 1 2 3 4 5 6 7 8 9 10

do

php -q test.php &

done

2. 利用fork子进程(其实同样是利用LINUX操作系统)

declare(ticks=1);

$bWaitFlag = FALSE; /// 是否等待进程结束

$intNum = 10; /// 进程总数

$pids = array(); /// 进程PID数组

echo ("Startn");

for($i = 0; $i < $intNum; $i++) {

$pids[$i] = pcntl_fork();/// 产生子进程,而且从当前行之下开试运行代码,而且不继承父进程的数据信息

if(!$pids[$i]) {

// 子进程进程代码段_Start

$str="";

sleep(5+$i);

for ($j=0;$j<$i;$j++) {$str.="*";}

echo "$i -> " . time() . " $str n";

exit();

// 子进程进程代码段_End

}

}

if ($bWaitFlag)

{

for($i = 0; $i < $intNum; $i++) {

pcntl_waitpid($pids[$i], $status, WUNTRACED);

echo "wait $i -> " . time() . "n";

}

}

echo ("Endn");

?>

3. 利用WEB SERVER, PHP不支持多线程, APACHE可是支持的, 呵呵.

假设我们现在运行的是a.php这个文档. 但是我在程式中又请求WEB服务器运行另一个b.php

那么这两个文档将是同时执行的.(代码同上)

当然啦,也可以把需要多线程处理的部分交给JAVA去处理, 然后在PHP里调用, 哈哈.

system('java multiThread.java');

?>

扩展资料:PHP即“超文本预处理器”,是一种通用开源脚本语言。PHP是在服务器端执行的脚本语言,与C语言类似,是常用的网站编程语言。PHP独特的语法混合了C、Java、Perl以及 PHP 自创的语法。利于学习,使用广泛,主要适用于Web开发领域。

indexphp是什么文件?

index.php是一个用PHP语言开发的网站的首页,index是普遍意义上的“首页”,也就是你输入一个域名后会打开一个页面,基本上就是index.xxxx

PHP即“超文本预处理器”,是一种通用开源脚本语言。PHP是在服务器端执行的脚本语言,与C语言类似,是常用的网站编程语言。PHP独特的语法混合了C、Java、Perl以及 PHP 自创的语法。利于学习,使用广泛,主要适用于Web开发领域。

php怎么做图片识别?

个人建议:楼主使用php进行图片识别,不如使用ocr文字识别技术来进行图片识别,这样更方便,请看下面的方法:

首先,在电脑上安装ocr文字识别软件(迅捷ocr文字识别软件)。

接着,运行ocr,选择上面的‘极速识别’功能。

然后,点击左上角的‘添加文件’,不需要识别的图片添加进去。

最后,点击操作下面的‘开始识别’按钮。

希望上方的方法可以帮助到你。

本文转载自互联网,如有侵权,联系删除