一个简单的爬虫代码java爬虫代码

gptg 文章 2023-05-03 21:42 249 0 全屏看文

AI助手支持GPT4.0

以下是一个简单的Java爬虫代码,可以爬取指定网站的HTML内容: ```java import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; public class Spider {    public static void main(String[] args) {        String url = "https://www.example.com"; // 要爬取的网站地址        String result = sendGet(url); // 发送GET请求获取HTML内容        System.out.println(result); // 输出HTML内容    }    public static String sendGet(String url) {        String result = "";        BufferedReader in = null;        try {            URL realUrl = new URL(url);            URLConnection connection = realUrl.openConnection();            connection.connect();            in = new BufferedReader(new InputStreamReader(connection.getInputStream()));            String line;            while ((line = in.readLine()) != null) {                result += line;            }        } catch (Exception e) {            System.out.println("发送GET请求出现异常:" + e);            e.printStackTrace();        } finally {            try {                if (in != null) {                    in.close();                }            } catch (Exception e2) {                e2.printStackTrace();            }        }        return result;    } } ``` 请注意,这只是一个简单的示例代码,实际的爬虫需要更复杂的逻辑和处理方式,以避免被目标网站识别为恶意行为。此外,爬虫也需要遵守相关法律法规和道德规范。

-EOF-

AI助手支持GPT4.0


您还可能感兴趣的文章