代码编织梦想

1.0 简介

网络爬虫(Web Crawler),是按照一定的规则,自动地抓取万维网信息的程序或脚本。

1.1 入门 Java 爬虫

1.1.1 环境准备

版本(IntelliJ IDEA Ultimate + version 11.0.11 + Maven)

  • JetBrains 能很方便地管理多个 IDEA
    在这里插入图片描述
  • 左上角File -> Project Structure -> Project Settings -> Project
    在这里插入图片描述
  • 用自带的 Maven 进行管理,主要的东西都在 main 中

在这里插入图片描述

JDK VS SDK

  • JDK,是 Java 开发工具包,主要用于编写Java程序;即想使用Java语言,就需要安装jdk
  • SDK,就是软件开发包,是一个广义的概念,任何编程工具几乎都可以看成是 SDK
  • 单说SDK,范围太大,如果是Android SDK,就可以理解是安卓机器的操作系统,类似 Windows 操作系统
  • 简言之,JDK是SDK的一种!

1.1.2 环境配置

  1. 建立框架:New Module -> Maven -> GroupId & ArtifactId etc
  2. 在 pom.xml 中创建依赖关系: Apache HttpClient & SLF4J LOG4J 12 Binding(链接:Maven Repository
  3. 在 resources 中创建日志 log4j.properties

pom.xml 配置

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.itcast</groupId>
    <artifactId>itcast-crawler</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>11</maven.compiler.source>
        <maven.compiler.target>11</maven.compiler.target>
    </properties>

    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.13</version>
        </dependency>
        <!-- 日志 -->
        <!-- https://mvnrepository.com/artifact/org.slf4j/slf4j-log4j12 -->
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.25</version>
            <!--<scope>test</scope>-->
        </dependency>

    </dependencies>

</project>

log4j.properties 配置

# A1: print in the console
log4j.rootLogger=DEBUG,A1
log4j.logger.cn.itcast = DEBUG

log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH??ss,SSS} [%t] [%c]-[%p] %m%n

1.1.3 编写程序

  • 在 main 中 new 一个 Java Class, 就可以开始写程序啦~

代码

package cn.itcast.crawler.test;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class CrawlerFirst {

    public static void main(String[] args) throws Exception {
        // 1. Open a browser, set up a 'HttpClient' object
        CloseableHttpClient httpClient = HttpClients.createDefault();

        // 2. Input the URL, initiate a 'get' request, set up a 'HttpGet' object
        HttpGet httpGet = new HttpGet("https://www.itcast.cn");

        // 3. Enter, use 'HttpClient' to initiate a request, return the response
        CloseableHttpResponse response = httpClient.execute(httpGet);

        // 4. Parse the response, get the data
        // judge whether the 'status code' is 200
        if (response.getStatusLine().getStatusCode() == 200) {
            HttpEntity httpEntity = response.getEntity();
            String content = EntityUtils.toString(httpEntity, "utf8");
            System.out.println(content);
        }
    }

}

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/HuangXinyue1017/article/details/123413815

【爬虫】一、爬虫的基本原理-爱代码爱编程

       一、 爬虫是干嘛的 简单来说,爬虫就是获取网页并提取和保存信息的自动化程序,下面概要介绍一下。 二、爬虫步骤 1、 获取网页 爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码。源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息了。 前面讲了请求和响应的概念,向网站的服务器发送一个请求,返回

java爬虫入门案例,第一个爬虫程序_exception.的博客-爱代码爱编程

首先创建maven工程添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

【爬虫入门】day1爬虫基本原理_周小丫0_0的博客-爱代码爱编程

什么是爬虫 请求网站并提取数据的自动化程序 (写程序模拟浏览器向服务器发送请求来获取网页资源) 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等

java 网络爬虫,就是这么的简单_平头哥的技术博文的博客-爱代码爱编程_java爬虫

这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看 学 Java 网络爬虫,需要哪些基础知识。第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑列表新闻的新闻标题和详情

Python爬虫超详细讲解(零基础入门,老年人都看的懂)-爱代码爱编程

注重版权,转载请注明原作者和原文链接 作者:码农BookSea 原文链接:https://blog.csdn.net/bookssea/article/details/107309591 先看后赞,养成习惯。 点赞收藏,人生辉煌。 讲解我们的爬虫之前,先概述关于爬虫的简单概念(毕竟是零基础教程) 爬虫 网络爬虫(又被称为网页蜘蛛,网络机器

python爬虫与java爬虫_Java爬虫其实也很简单,实用的入门级爬虫-爱代码爱编程

前言 任何语言都是可以爬虫的,只要你懂的常用的http协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例:如何获取全民K歌的下载链接。 ps: 这主要是教大家一个入门级的爬虫,不是希望大家去跳过vip下载... 这里有码云的代码片段是main的解析可以参考下: 码云代码片段 浏览器抓包 那种专业fildder这类软件抓包我就不

java爬虫代码示例_「爬虫教程」吐血整理,最详细的爬虫入门教程-爱代码爱编程

初识爬虫 学习爬虫之前,我们首先得了解什么是爬虫。来自于百度百科的解释: 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 通俗来讲,假如你需要互联网上的信息,如商品价格,图片视频资源等,但你又不想或者不能自己一个一个自己去打开网页收

python网络爬虫开发从入门到精通下载_[java电子书] Python 网络爬虫从入门到精通 PDF 电子书...-爱代码爱编程

第1章 Python与网络爬虫1 % I  x& q3 D/ p/ w1 k0 Z. S1.1 Python语言1 % `6 |* M2 l. f0 N4 Z: [0 {, P( Y1.1.1 什么是Python1* s; f7 ]8 y$ Q& s/ P* T 1.1.2 Python的应用现状2; i. d# ]8 s8 \8

java爬虫面试题_Java 网络爬虫基础知识入门解析-爱代码爱编程

前言 说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少。有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬虫而且还能做的非常好,在开源社区中有不少优秀的 Java 网络爬虫框架,例如 webmagic 。我的第一份正式工作就是使用 webmagic 编

java正则表达式输出换行_Java 网络爬虫,复杂?不存在!看完就知道够简单!-爱代码爱编程

是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看 学 Java 网络爬虫,需要哪些基础知识。第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例,需要提取的内容如下图所示: 我们需要提取图中圈出来的文字及其对应的链接,在提取的过程中,我们会使用两种方式来提取

java网页爬虫_Java实现网络爬虫-Java入门|Java基础课程-爱代码爱编程

目标网络爬虫的是做什么的? 手动写一个简单的网络爬虫; 1. 网络爬虫 1.1. 名称网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚 本。 另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.2. 简述网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,

java爬虫入门_Java 网络爬虫新手入门详解-爱代码爱编程

这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看Java 网络爬虫基础知识入门解析。第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例,需要提取的内容如下图所示: 我们需要提取图中圈出来的文字及其对应的链接,在提取的过程中,我们会使用两种方式来提取,一种是 J

java爬虫 教程_Java爬虫其实也很简单,教你实用的入门级爬虫-爱代码爱编程

原标题:Java爬虫其实也很简单,教你实用的入门级爬虫 任何语言都是可以爬虫的,只要你懂的常用的http协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例:如何获取全民K歌的下载链接。 ps: 这主要是教大家一个入门级的爬虫,不是希望大家去跳过vip下载... 那种专业fildder这类软件抓包我就不提了,免得文章显