php使用curl和正则表达式抓取网页数据示例

前端技术 2023/09/03 PHP

利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器，支持输入小说ID下载小说。
依赖项：curl
可以简单的看下，里面用到了curl ,正则表达式，ajax等技术，适合新手看看。在本地测试，必须保证联网并且确保php开启curl的mode

SpiderTools.class.php

复制代码代码如下:

<?php
session_start();
//封装成类开启这些自动抓取文章
#header(\"Refresh:30;http://www.test.com:8080\");
class SpiderTools{
//////////////////////////////////////////////////////////////////////////////////////////////////////////
/*传入文章ID 解析出文章标题*/
//////////////////////////////////////////////////////////////////////////////////////////////////////////
public function getBookNameById($aid){
  //初始化curl
  $ch= curl_init();
  //url
  $url=\'http://www.motie.com/book/\'.$aid;
  if(is_numeric($aid)){
  //正则表达式匹配
  $ru=\"/<h1\\sclass=\\\"p-title\\\">\\s*<a\\shref=\\\"\\/book\\/\\d+\\\">(.*)\\s*<\\/a>\\s*<\\/h1>/\";
  }
  else{
  //<title>丧尸爆发之全家求生路_第一章丧尸爆发　为吾友爱乐儿更新~_磨铁</title>
  $ru=\"/<title>(.*)<\\/title>/\";
  }
  //设置选项，包括URL
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容
  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  //执行curl
  $output = curl_exec($ch);
  //错误提示
  if(curl_exec($ch) === false){
   die(curl_error($ch));
  }
  // 检查是否有错误发生
  if(curl_errno($ch)){
  echo \'Curl error: \' . curl_error($ch);
  }
  //释放curl句柄
  curl_close($ch);
  $arr=array();
  preg_match_all($ru,$output,$arr);
  return $arr[1][0];
   }
//////////////////////////////////////////////////////////////////////////////////////////////////////////
/*传入文章ID 解析文章内容*/
//////////////////////////////////////////////////////////////////////////////////////////////////////////
public function getBookContextById($aid){
  //开始解析文章
  $ids=array();
  $ids=explode(\"_\",$aid);
  $titleId=trim($ids[0]);
  $aticleId=trim($ids[1]);
  $ch= curl_init();
  $ru=\"/<div class=\\\"page-content\\\">[\\s\\S]*<pre ondragstart=\\\"return false\\\" oncopy=\\\"return false;\\\" oncut=\\\"return false;\\\" oncontextmenu=\\\"return false\\\" class=\\\"note\\\" id=\\\"html_content_\\d*\\\">[\\s\\S]*(.*)<img src=\\\"\\/ajax\\/chapter\\/$titleId\\/$aticleId\\\" class=\\\"hidden\\\" \\/><\\/pre>/ui\";
  $url=\'http://www.motie.com/book/\'.$aid;
  //正则表达式匹配

  //设置选项，包括URL
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容
  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  //执行curl
  $output = curl_exec($ch);
  //错误提示
  if(curl_exec($ch) === false){
   die(curl_error($ch));
  }
  // 检查是否有错误发生
  if(curl_errno($ch)){
   echo \'Curl error: \' . curl_error($ch);
  }
  $arr=array();
  $arr2=array();
  preg_match_all($ru,$output,$arr);
  curl_close($ch);
  #var_dump($arr);
  $s=$arr[0][0];
  $s=substr($s,180);
  $arr2=explode(\"<img\",$s);
  return trim($arr2[0]);
}

//////////////////////////////////////////////////////////////////////////////////////////////////////////
/*静态方法 @生成小说文件可以直接调用 */
//////////////////////////////////////////////////////////////////////////////////////////////////////////
public static function createBookById($id){

if(!is_numeric($id)){

  echo \"<br/>INIT BEGIN START WRITE!\";
  $st=new self();
  $cons=$st->getBookContextById($id);
  $title=$st->getBookNameById($id);
  $cons=trim($cons);
  $t=explode(\" \",$title);
  //构造目录
  $dir=array();
  $dir=explode(\"_\",$t[0]);
  $wzdir=$dir[0];  //书名称作为目录名称
  $wzchapter=$dir[1]; //第几章
  //创建目录
  $wzdir2=iconv(\"UTF-8\", \"GBK\", $wzdir);//目录编码注意这里保留对$wzdir字符串的引用，用来构造文件名，不能用此处，防止二次编码
  if(!file_exists($wzdir2)){
   mkdir($wzdir2); //创建目录
  }
  //构造文件名
  $wztitle=\"./\".$wzdir.\"/\".\"$t[0]\".\".txt\";
  //保证保存的文件名称不是乱码
  $wztitle=iconv(\"UTF-8\", \"GBK\", $wztitle);
  $f=fopen($wztitle,\"w+\");
  fwrite($f,$cons);
  echo \"<font color=\'green\'>$wzdir </font>\".$wzchapter.\"<font color=\'red\'>写入成功</font>\";
  fclose($f);

  }
  else{
  $ids=self::getBookIdsById($id);

  //这里服务器可能会掉线，所以最好用session记录循环
  #for($i=$_SESSION[\"$id\".\"_fid\"];$i<=count($ids);$_SESSION[\"$id\".\"_fid\"]++,$i++){

   #self::createBookById($id.\"_\".$ids[$_SESSION[\"$id\".\"_fid\"]++]);//构造id
  #}

  for($i=$_SESSION[\"$id\".\"_fid\"];$i<=count($ids);$_SESSION[\"$id\".\"_fid\"]++,$i++){

   self::createBookById($id.\"_\".$ids[$i]);//构造id
  }

  #echo \"<hr/><hr/><br/><h1>写入工作全部完成</h1>\";
  #echo $id.\"_\".$ids[0].\"<br/>\";
  #var_dump($ids);

  }

}
  /*
  获取小说的所有ID
  @param $id 文章ID
  @return array;
  */
  public static function getBookIdsById($aid){
  $ch= curl_init();
  $url=\'http://www.motie.com/book/\'.$aid.\"/chapter\";
  //注意这里的?可以获取最少匹配项
  $ru=\'/[\\s\\S]*?<li class=\\\"\\\" createdate=\\\"\\d{4}\\-\\d{2}\\-\\d{2} \\d{2}:\\d{2}:\\d{2}\\\">[\\s\\S]*?<a href=\\\"\\/book\\/\'.$aid.\'_(\\d*?)\\\"\\s{1}>.*?<\\/a>.*?/u\';//正则表达式匹配
  //设置选项，包括URL
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容
  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  //执行curl
  $output = curl_exec($ch);
  // 检查是否有错误发生
  if(curl_errno($ch)){
  echo \'Curl error: \' . curl_error($ch);
  }
  //释放curl句柄
  curl_close($ch);
  $arr=array();
  preg_match_all($ru,$output,$arr,PREG_PATTERN_ORDER);
  return $arr[1];
  }
}
?>

本文地址：https://www.stayed.cn/item/8205

转载请注明出处。

本站部分内容来源于网络,如侵犯到您的权益,请联系我

微信
QQ好友
QQ空间
腾讯微博
新浪微博
人人网

我的博客

人生若只如初见，何事秋风悲画扇。

我的标签

随笔档案

2024-02(2)
2023-06(1)
2023-05(1)
2023-04(14)
2023-03(3)
2023-01(6)
2022-12(5)
2022-11(5)
2022-07(2)
2022-06(4)
2022-05(3)
2022-03(1)
2021-12(6)
2021-11(1)
2021-10(3)
2021-09(5)
2021-07(5)
2021-02(2)
2021-01(7)
2020-12(18)
2020-11(14)
2020-10(12)
2020-09(10)
2020-08(22)
2020-07(2)
2020-06(1)
2020-04(5)
2020-03(9)
2020-02(7)
2020-01(9)
2019-12(8)
2019-11(10)
2019-10(11)
2019-09(17)
2019-08(16)
2019-07(6)
2019-06(3)
2019-04(1)
2019-03(8)
2019-02(5)
2019-01(1)
2018-11(2)
2018-10(3)
2018-09(1)
2018-08(3)
2018-07(3)
2018-06(7)
2018-04(4)
2018-03(5)
2018-02(4)
2018-01(22)
2017-12(3)
2017-11(5)
2017-10(15)
2017-09(26)
2017-08(1)
2017-07(3)