一个简单的爬虫代码java爬虫代码

gptg 文章 2023-05-03 21:42 348  0 全屏看文

以下是一个简单的Java爬虫代码，可以爬取指定网站的HTML内容： ```java import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; public class Spider { public static void main(String[] args) { String url = "https://www.example.com"; // 要爬取的网站地址 String result = sendGet(url); // 发送GET请求获取HTML内容 System.out.println(result); // 输出HTML内容 } public static String sendGet(String url) { String result = ""; BufferedReader in = null; try { URL realUrl = new URL(url); URLConnection connection = realUrl.openConnection(); connection.connect(); in = new BufferedReader(new InputStreamReader(connection.getInputStream())); String line; while ((line = in.readLine()) != null) { result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常：" + e); e.printStackTrace(); } finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } } ``` 请注意，这只是一个简单的示例代码，实际的爬虫需要更复杂的逻辑和处理方式，以避免被目标网站识别为恶意行为。此外，爬虫也需要遵守相关法律法规和道德规范。

-EOF-

AI助手支持GPT4.0

原文出处:http://www.sanshu.cn/a/75950.html

您还可能感兴趣的文章

一个简单的爬虫代码java爬虫代码

一个简单的爬虫代码java爬虫代码

国内超级便宜服务器

摸鱼人热门新闻聚合

开发者在线工具

第三方支付技术请加QQ群

开发工具

友情链接