亚洲韩日午夜视频,欧美日韩在线精品一区二区三区,韩国超清无码一区二区三区,亚洲国产成人影院播放,久草新在线,在线看片AV色

您好,歡迎來到思海網絡,我們將竭誠為您提供優質的服務! 誠征網絡推廣 | 網站備案 | 幫助中心 | 軟件下載 | 購買流程 | 付款方式 | 聯系我們 [ 會員登錄/注冊 ]
促銷推廣
客服中心
業務咨詢
有事點擊這里…  531199185
有事點擊這里…  61352289
點擊這里給我發消息  81721488
有事點擊這里…  376585780
有事點擊這里…  872642803
有事點擊這里…  459248018
有事點擊這里…  61352288
有事點擊這里…  380791050
技術支持
有事點擊這里…  714236853
有事點擊這里…  719304487
有事點擊這里…  1208894568
有事點擊這里…  61352289
在線客服
有事點擊這里…  531199185
有事點擊這里…  61352288
有事點擊這里…  983054746
有事點擊這里…  893984210
當前位置:首頁 >> 技術文章 >> 文章瀏覽
技術文章

PHP多線程抓取網頁的代碼

添加時間:2014-2-9 19:58:10  添加: 思海網絡 
 PHP 利用 Curl Functions 可以完成各種傳送文件操作,比如模擬瀏覽器發送GET,POST請求等等。

  受限于php語言本身不支持多線程,所以開發爬蟲程序效率并不高,這時候往往需 要借助Curl Multi Functions 它可以實現并發多線程的訪問多個url地址。既然 Curl Multi Function如此強大,能否用 Curl Multi Functions 來寫并發多線程下載文件呢,當然可以,下面給出代碼:

  代碼1:將獲得的代碼直接寫入某個文件

  <?php

  $urls = array(

  'http://www.sina.com.cn/',

  'http://www.sohu.com/',

  ); // 設置要抓取的頁面URL

  $save_to='/test.txt'; // 把抓取的代碼寫入該文件

  $st = fopen($save_to,"a");

  $mh = curl_multi_init();

  foreach ($urls as $i => $url) {

  $conn[$i] = curl_init($url);

  curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");

  curl_setopt($conn[$i], CURLOPT_HEADER ,0);

  curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60);

  curl_setopt($conn[$i], CURLOPT_FILE,$st); // 設置將爬取的代碼寫入文件

  curl_multi_add_handle ($mh,$conn[$i]);

  } // 初始化

  do {

  curl_multi_exec($mh,$active);

  } while ($active); // 執行

  foreach ($urls as $i => $url) {

  curl_multi_remove_handle($mh,$conn[$i]);

  curl_close($conn[$i]);

  } // 結束清理

  curl_multi_close($mh);

  fclose($st);

  ?>

  代碼2:將獲得的代碼先放入變量,再寫入某個文件

  <?php

  $urls = array(

  'http://www.sina.com.cn/',

  'http://www.sohu.com/',

  );

  $save_to='/test.txt'; // 把抓取的代碼寫入該文件

  $st = fopen($save_to,"a");

  $mh = curl_multi_init();

  foreach ($urls as $i => $url) {

  $conn[$i] = curl_init($url);

  curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");

  curl_setopt($conn[$i], CURLOPT_HEADER ,0);

  curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60);

  curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,true); // 設置不將爬取代碼寫到瀏覽器,而是轉化為字符串

  curl_multi_add_handle ($mh,$conn[$i]);

  }

  do {

  curl_multi_exec($mh,$active);

  } while ($active);

  foreach ($urls as $i => $url) {

  $data = curl_multi_getcontent($conn[$i]); // 獲得爬取的代碼字符串

  fwrite($st,$data); // 將字符串寫入文件。當然,也可以不寫入文件,比如存入數據庫

  } // 獲得數據變量,并寫入文件

  foreach ($urls as $i => $url) {

  curl_multi_remove_handle($mh,$conn[$i]);

  curl_close($conn[$i]);

  }

  curl_multi_close($mh);

  fclose($st);

  ?>

關鍵字:PHP、多線程、數據庫

分享到:

頂部 】 【 關閉
版權所有:佛山思海電腦網絡有限公司 ©1998-2024 All Rights Reserved.
聯系電話:(0757)22630313、22633833
中華人民共和國增值電信業務經營許可證: 粵B1.B2-20030321 備案號:粵B2-20030321-1
網站公安備案編號:44060602000007 交互式欄目專項備案編號:200303DD003  
察察 工商 網安 舉報有獎  警警  手機打開網站