【Sanplit】发布的文章

在爬取网页的时候我们经常会遇到乱码,但是我们可以通过查看网页的源代码查看charset方式。打开要访问的url,查看网页源码会发现类似代码:<meta charset="utf-8">,通常在代码中加入decode(‘utf8’)进行解码即可 代码如下:(有时不需要编码即可默认输出了,所以不必多此一举) # -*- ...

Linux中最重要的三个命令在业界被称为“三剑客”,它们分别是awk,sed,grep,他们是普通的命令,也可以说他们说很好用的工具。 三剑客的功能非常强大,但我们只需要掌握他们分别擅长的领域即可:grep擅长查找功能,sed擅长取行和替换。awk擅长取列。

第一种、普通抓取方式   针对于很多不带头部信息,没有任何反爬措施的普通网站图片抓取使用。如 妹子图。 开始新建spider1.py文件,输入代码如下: #-*- encoding:utf-8 -*- """ @desc 抓取普通网络图片 @author Sanplit """ import...
PHP

有的时候总会遇到一个“莫名其妙的问题”,复制链接明明能在浏览器上访问,而curl请求却总是返回false,下面来分析以下原因或解决方法。 如以下代码为例: public function curlHttps($url, $postdata=array(), $timeOut=5, $header=array()){ $ch = curl_i...

给定一个文本文件 file.txt,请只打印这个文件中的第十行。 示例: 假设 file.txt 有如下内容: Line 1 Line 2 Line 3 Line 4 Line 5 Line 6 Line 7 Line 8 Line 9 Line 10 你的脚本应当显示第十行: Line 10 方法一: #!/bin/sh #shell.sh in...