昨天朋友给了我一个任务,让我想办法获取http://lishi.tianqi.com/hongya/201611.html中的部分内容到excel表中
    image.png

    通过网址和页面规律,我觉得可以扒指定地点,指定时间段内的内容。这还是蛮简单的。
    先贴一下我获取网站内容的方法吧

    1. <?php
    2. require_once "OTagString.class.php";
    3. $str = file_get_contents("http://lishi.tianqi.com/hongya/201611.html");
    4. $str = iconv("gb2312", "utf-8",$str); //转码,防止乱码
    5. //获取需要的内容
    6. $class = new OTagString();
    7. $str2 = $class->get_str($str,"<div class=\"tqtongji2\">","<div class=\"lishicity03\">");
    8. $str2 = trim($str2);
    9. //echo $str2;
    10. $table_data = preg_match_all('#<ul>(.*?)</ul>#si',$str2,$match);
    11. //print_r($match[0]);
    12. $table_array = $match[0];
    13. //$table_array = explode('<li>',$match[0]);
    14. //print_r($table_array);exit;
    15. $data = [];
    16. $data2 = [];
    17. for($i=0;$i<count($table_array);$i++){
    18. $data[$i] = explode('</li>',$table_array[$i]);
    19. //只要前四组数据
    20. for($j = 0;$j<4;$j++){
    21. $data2[$i][$j] = preg_replace('/\s(?=\s)/','',trim(strip_tags($data[$i][$j])));
    22. }
    23. }
    24. print_r($data2);

    结果:
    image.png

    ps:相关经验见
    https://www.yuque.com/darry/php/qpbnq2
    https://www.yuque.com/darry/php/ti0nm3