php怎么提取数据,php获得网页源代码抓取网页内容的几种方法?
1、使用file_get_contents获得网页源代码。这个方法最常用,只需要两行代码即可,非常简单方便。
2、使用fopen获得网页源代码。这个方法用的人也不少,不过代码有点多。
3、使用curl获得网页源代码。使用curl获得网页源代码的做法,往往是需要更高要求的人使用,例如当你需要在抓取网页内容的同时,得到网页header信息,还有ENCODING编码的使,USERAGENT的使用等等。 所谓的网页代码,就是指在网页制作过程中需要用到的一些特殊的"语言",设计人员通过对这些"语言"进行组织编排制作出网页,然后由浏览器对代码进行"翻译"后才是我们最终看到的效果。 制作网页时常用的代码有HTML,JavaScript,ASP,PHP,CGI等,其中超文本标记语言(标准通用标记语言下的一个应用、外语简称:HTML)是最基础的网页代码。
PHP怎样自动提取文章中的关键词?
一般来说,你可以定义几种规则来获取关键词可以设置一个关键词库,这些关键词用逗号之类的符号分隔当录入一篇文章的时候,匹配设置的关键词库,当出现次数大于多少次的词语,定义为关键词.
php获取表单控件数据有哪两种方法?
表单提交数据获取:$_POST 和 $_REQUEST
php如何抓取行业词库?
php抓取行业词库的第一步是实现序列化,也就是按照顺序去抓取字节,PHP不支持永久对象,在OOP中永久对象是可以在多个应用的引用中保持状态和功能的对象,这意味着拥有将对象保存到一个文件或数据库中的能力,而且可以在以后装入对象。这就是所谓的序列化机制。PHP 拥有序列化方法,它可以通过对象进行调用,序列化方法可以返回对象的字符串表示。然而,序列化只保存了对象的成员数据而不包话方法。
第二步是构造函数,构造函数是类中的一个特殊函数,当使用 new 操作符创建一个类的实例时,构造函数将会自动调用。当函数与类同名时,这个函数将成为构造函数。如果一个类没有构造函数,则调用基类的构造函数。第三步,是分析解构函数,PHP 5 引入了析构函数的概念,这类似于其它面向对象的语言,如 C++。析构函数会在到某个对象的所有引用都被删除或者当对象被显式销毁时执行。
第四步是,遵守cookie机制进行运作,cookie 是一种在远程浏览器端储存数据并以此来跟踪和识别用户的机制。可以用 setcookie() 或 setrawcookie() 函数来设置 cookie。cookie 是 HTTP 标头的一部分,因此 setcookie() 函数必须在其它信息被输出到浏览器前调用,这和对 header() 函数的限制类似。可以使用输出缓冲函数来延迟脚本的输出,直到按需要设置好了所有的 cookie 或者其它 HTTP 标头。
第五步,制造比如simple dict之类的简单工具,进行词库的捉取,不用安装扩展,也不依赖 xcache memcache redis 之类的缓存。当然也可以更复杂,采用complex,附加更多组件和程式原理。
php如何获取客户端信息?
代码入下,只做参考
class userPCInfo{
//获取客户端浏览器
public static function get_client_browser(){
$sys = $_SERVER['HTTP_USER_AGENT']; //获取用户代理字符串
if (stripos($sys, "Firefox/") > 0) {
preg_match("/Firefox\/([^;)]+)+/i", $sys, $b);
$exp[0] = "Firefox";
$exp[1] = $b[1]; //获取火狐浏览器的版本号
} elseif (stripos($sys, "Maxthon") > 0) {
preg_match("/Maxthon\/([\d\.]+)/", $sys, $aoyou);
$exp[0] = "傲游";
$exp[1] = $aoyou[1];
} elseif (stripos($sys, "MSIE") > 0) {
preg_match("/MSIE\s+([^;)]+)+/i", $sys, $ie);
$exp[0] = "IE";
$exp[1] = $ie[1]; //获取IE的版本号
} elseif (stripos($sys, "OPR") > 0) {
preg_match("/OPR\/([\d\.]+)/", $sys, $opera);
$exp[0] = "Opera";
$exp[1] = $opera[1];
} elseif(stripos($sys, "Edge") > 0) {
//win10 Edge浏览器 添加了chrome内核标记 在判断Chrome之前匹配
preg_match("/Edge\/([\d\.]+)/", $sys, $Edge);
$exp[0] = "Edge";
$exp[1] = $Edge[1];
} elseif (stripos($sys, "Chrome") > 0) {
preg_match("/Chrome\/([\d\.]+)/", $sys, $google);
$exp[0] = "Chrome";
$exp[1] = $google[1]; //获取google chrome的版本号
} elseif(stripos($sys,'rv:')>0 && stripos($sys,'Gecko')>0){
preg_match("/rv:([\d\.]+)/", $sys, $IE);
$exp[0] = "IE";
$exp[1] = $IE[1];
}else {
$exp[0] = "未知浏览器";
$exp[1] = "";
}
return $exp;
}
//获取客户端操作系统
public static function get_client_os(){
$agent = $_SERVER['HTTP_USER_AGENT'];
$os = false;
if (preg_match('/win/i', $agent) && strpos($agent, '95')){
$os = 'Windows 95';
}else if (preg_match('/win 9x/i', $agent) && strpos($agent, '4.90')){
$os = 'Windows ME';
}else if (preg_match('/win/i', $agent) && preg_match('/98/i', $agent)){
$os = 'Windows 98';
}else if (preg_match('/win/i', $agent) && preg_match('/nt 6.0/i', $agent)){
$os = 'Windows Vista';
}else if (preg_match('/win/i', $agent) && preg_match('/nt 6.1/i', $agent)){
$os = 'Windows 7';
}else if (preg_match('/win/i', $agent) && preg_match('/nt 6.2/i', $agent)){
$os = 'Windows 8';
}else if(preg_match('/win/i', $agent) && preg_match('/nt 10.0/i', $agent)){
$os = 'Windows 10';#添加win10判断
}else if (preg_match('/win/i', $agent) && preg_match('/nt 5.1/i', $agent)){
$os = 'Windows XP';
}else if (preg_match('/win/i', $agent) && preg_match('/nt 5/i', $agent)){
$os = 'Windows 2000';
}else if (preg_match('/win/i', $agent) && preg_match('/nt/i', $agent)){
$os = 'Windows NT';
}else if (preg_match('/win/i', $agent) && preg_match('/32/i', $agent)){
$os = 'Windows 32';
}else if (preg_match('/linux/i', $agent)){
$os = 'Linux';
}else if (preg_match('/unix/i', $agent)){
$os = 'Unix';
}else if (preg_match('/sun/i', $agent) && preg_match('/os/i', $agent)){
$os = 'SunOS';
}else if (preg_match('/ibm/i', $agent) && preg_match('/os/i', $agent)){
$os = 'IBM OS/2';
}else if (preg_match('/Mac/i', $agent) && preg_match('/PC/i', $agent)){
$os = 'Macintosh';
}else if (preg_match('/PowerPC/i', $agent)){
$os = 'PowerPC';
}else if (preg_match('/AIX/i', $agent)){
$os = 'AIX';
}else if (preg_match('/HPUX/i', $agent)){
$os = 'HPUX';
}else if (preg_match('/NetBSD/i', $agent)){
$os = 'NetBSD';
}else if (preg_match('/BSD/i', $agent)){
$os = 'BSD';
}else if (preg_match('/OSF1/i', $agent)){
$os = 'OSF1';
}else if (preg_match('/IRIX/i', $agent)){
$os = 'IRIX';
}else if (preg_match('/FreeBSD/i', $agent)){
$os = 'FreeBSD';
}else if (preg_match('/teleport/i', $agent)){
$os = 'teleport';
}else if (preg_match('/flashget/i', $agent)){
$os = 'flashget';
}else if (preg_match('/webzip/i', $agent)){
$os = 'webzip';
}else if (preg_match('/offline/i', $agent)){
$os = 'offline';
}else{
$os = '未知操作系统';
}
return $os;
}
//获取ip地址
public static function get_ip() {
//判断服务器是否允许$_SERVER
if (isset($_SERVER)) {
if (isset($_SERVER['HTTP_X_FORWARDED_FOR'])) {
$realip = $_SERVER['HTTP_X_FORWARDED_FOR'];
} elseif (isset($_SERVER['HTTP_CLIENT_IP'])) {
$realip = $_SERVER['HTTP_CLIENT_IP'];
} else {
$realip = $_SERVER['REMOTE_ADDR'];
}
} else {
//不允许就使用getenv获取
if (getenv("HTTP_X_FORWARDED_FOR")) {
$realip = getenv("HTTP_X_FORWARDED_FOR");
} elseif (getenv("HTTP_CLIENT_IP")) {
$realip = getenv("HTTP_CLIENT_IP");
} else {
$realip = getenv("REMOTE_ADDR");
}
}
return $realip;
}
//获取当前ip所在城市
public static function GetIpLookup($ip = ''){
if(empty($ip)){
return '请输入IP地址';
}
$test= 'http://ip.taobao.com/service/getIpInfo.php?ip='.$ip;
$res = @file_get_contents($test);
return $res;
}
}