【爬虫 | 1. Java之入门第一爬】-爱代码爱编程

2022-03-10 分类: intellij-ide Java 爬虫

1.0 简介

网络爬虫（Web Crawler），是按照一定的规则，自动地抓取万维网信息的程序或脚本。

1.1 入门 Java 爬虫

1.1.1 环境准备

JDK (链接: 如何查看自己的版本）
IntelliJ IDEA
IDEA 自带的 Maven

版本（IntelliJ IDEA Ultimate + version 11.0.11 + Maven）

JetBrains 能很方便地管理多个 IDEA
左上角File -> Project Structure -> Project Settings -> Project
用自带的 Maven 进行管理，主要的东西都在 main 中

在这里插入图片描述

JDK VS SDK

JDK，是 Java 开发工具包，主要用于编写Java程序；即想使用Java语言，就需要安装jdk
SDK，就是软件开发包，是一个广义的概念，任何编程工具几乎都可以看成是 SDK
单说SDK，范围太大，如果是Android SDK，就可以理解是安卓机器的操作系统，类似 Windows 操作系统
简言之，JDK是SDK的一种！

1.1.2 环境配置

建立框架：New Module -> Maven -> GroupId & ArtifactId etc
在 pom.xml 中创建依赖关系： Apache HttpClient & SLF4J LOG4J 12 Binding（链接：Maven Repository）
在 resources 中创建日志 log4j.properties

pom.xml 配置

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.itcast</groupId>
    <artifactId>itcast-crawler</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>11</maven.compiler.source>
        <maven.compiler.target>11</maven.compiler.target>
    </properties>

    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.13</version>
        </dependency>
        <!-- 日志 -->
        <!-- https://mvnrepository.com/artifact/org.slf4j/slf4j-log4j12 -->
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.25</version>
            <!--<scope>test</scope>-->
        </dependency>

    </dependencies>

</project>

log4j.properties 配置

# A1: print in the console
log4j.rootLogger=DEBUG,A1
log4j.logger.cn.itcast = DEBUG

log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH??ss,SSS} [%t] [%c]-[%p] %m%n

1.1.3 编写程序

在 main 中 new 一个 Java Class, 就可以开始写程序啦~

代码

package cn.itcast.crawler.test;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class CrawlerFirst {

    public static void main(String[] args) throws Exception {
        // 1. Open a browser, set up a 'HttpClient' object
        CloseableHttpClient httpClient = HttpClients.createDefault();

        // 2. Input the URL, initiate a 'get' request, set up a 'HttpGet' object
        HttpGet httpGet = new HttpGet("https://www.itcast.cn");

        // 3. Enter, use 'HttpClient' to initiate a request, return the response
        CloseableHttpResponse response = httpClient.execute(httpGet);

        // 4. Parse the response, get the data
        // judge whether the 'status code' is 200
        if (response.getStatusLine().getStatusCode() == 200) {
            HttpEntity httpEntity = response.getEntity();
            String content = EntityUtils.toString(httpEntity, "utf8");
            System.out.println(content);
        }
    }

}

本文链接：https://blog.csdn.net/HuangXinyue1017/article/details/123413815

【爬虫】一、爬虫的基本原理-爱代码爱编程

2019-03-19 分类: 爬虫

一、爬虫是干嘛的简单来说，爬虫就是获取网页并提取和保存信息的自动化程序，下面概要介绍一下。二、爬虫步骤 1、获取网页爬虫首先要做的工作就是获取网页，这里就是获取网页的源代码。源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息了。前面讲了请求和响应的概念，向网站的服务器发送一个请求，返回

java爬虫入门案例，第一个爬虫程序_exception.的博客-爱代码爱编程

2019-09-24 分类: Java 爬虫爬虫学习

首先创建maven工程添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

【爬虫入门】day1爬虫基本原理_周小丫0_0的博客-爱代码爱编程

2019-09-30 分类: python基础爬虫

什么是爬虫请求网站并提取数据的自动化程序（写程序模拟浏览器向服务器发送请求来获取网页资源）爬虫的基本流程发起请求通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等

java 网络爬虫，就是这么的简单_平头哥的技术博文的博客-爱代码爱编程_java爬虫

2019-10-08 分类: 网络爬虫 java爬虫爬虫正则表达式 java 基础笔记 jsoup

这是 Java 网络爬虫系列文章的第一篇，如果你还不知道 Java 网络爬虫系列文章，请参看学 Java 网络爬虫，需要哪些基础知识。第一篇是关于 Java 网络爬虫入门内容，在该篇中我们以采集虎扑列表新闻的新闻标题和详情

Python爬虫超详细讲解（零基础入门，老年人都看的懂）-爱代码爱编程

2020-07-13 标签: python 爬虫分类: python

注重版权，转载请注明原作者和原文链接作者：码农BookSea 原文链接：https://blog.csdn.net/bookssea/article/details/107309591 先看后赞，养成习惯。点赞收藏，人生辉煌。讲解我们的爬虫之前，先概述关于爬虫的简单概念（毕竟是零基础教程）爬虫网络爬虫（又被称为网页蜘蛛，网络机器

python爬虫与java爬虫_Java爬虫其实也很简单，实用的入门级爬虫-爱代码爱编程

2020-11-24 标签: python爬虫与jav

前言任何语言都是可以爬虫的，只要你懂的常用的http协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例：如何获取全民K歌的下载链接。 ps: 这主要是教大家一个入门级的爬虫，不是希望大家去跳过vip下载... 这里有码云的代码片段是main的解析可以参考下：码云代码片段浏览器抓包那种专业fildder这类软件抓包我就不

java爬虫代码示例_「爬虫教程」吐血整理，最详细的爬虫入门教程-爱代码爱编程

2020-11-21 标签: java爬虫代码示例分类: 爬虫取中间文本爬虫xhr打开网页为空

初识爬虫学习爬虫之前，我们首先得了解什么是爬虫。来自于百度百科的解释：网络爬虫(又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。通俗来讲，假如你需要互联网上的信息，如商品价格，图片视频资源等，但你又不想或者不能自己一个一个自己去打开网页收

python网络爬虫开发从入门到精通下载_[java电子书] Python 网络爬虫从入门到精通 PDF 电子书...-爱代码爱编程

2020-12-02 标签: python网络爬虫开发

第1章 Python与网络爬虫1 % I x& q3 D/ p/ w1 k0 Z. S1.1 Python语言1 % `6 |* M2 l. f0 N4 Z: [0 {, P( Y1.1.1 什么是Python1* s; f7 ]8 y$ Q& s/ P* T 1.1.2 Python的应用现状2; i. d# ]8 s8 \8

java爬虫面试题_Java 网络爬虫基础知识入门解析-爱代码爱编程

2020-12-23 分类: java爬虫面试题

前言说起网络爬虫，大家想起的估计都是 Python ，诚然爬虫已经是 Python 的代名词之一，相比 Java 来说就要逊色不少。有不少人都不知道 Java 可以做网络爬虫，其实 Java 也能做网络爬虫而且还能做的非常好，在开源社区中有不少优秀的 Java 网络爬虫框架，例如 webmagic 。我的第一份正式工作就是使用 webmagic 编

java正则表达式输出换行_Java 网络爬虫，复杂？不存在！看完就知道够简单！-爱代码爱编程

2021-01-22 分类: java正则表达式输出换

是 Java 网络爬虫系列文章的第一篇，如果你还不知道 Java 网络爬虫系列文章，请参看学 Java 网络爬虫，需要哪些基础知识。第一篇是关于 Java 网络爬虫入门内容，在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例，需要提取的内容如下图所示：我们需要提取图中圈出来的文字及其对应的链接，在提取的过程中，我们会使用两种方式来提取

java网页爬虫_Java实现网络爬虫-Java入门|Java基础课程-爱代码爱编程

2021-02-12 分类: java网页爬虫

目标网络爬虫的是做什么的? 手动写一个简单的网络爬虫; 1. 网络爬虫 1.1. 名称网络爬虫(又被称为网页蜘蛛，网络机器人)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.2. 简述网络爬虫是通过网页的链接地址来寻找网页，从网站某一个页面(通常是首页)开始，

java爬虫入门_Java 网络爬虫新手入门详解-爱代码爱编程

2021-02-12 分类: java爬虫入门

这是 Java 网络爬虫系列文章的第一篇，如果你还不知道 Java 网络爬虫系列文章，请参看Java 网络爬虫基础知识入门解析。第一篇是关于 Java 网络爬虫入门内容，在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例，需要提取的内容如下图所示：我们需要提取图中圈出来的文字及其对应的链接，在提取的过程中，我们会使用两种方式来提取，一种是 J

java爬虫教程_Java爬虫其实也很简单，教你实用的入门级爬虫-爱代码爱编程

2021-02-12 分类: java爬虫教程

原标题：Java爬虫其实也很简单，教你实用的入门级爬虫任何语言都是可以爬虫的，只要你懂的常用的http协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例：如何获取全民K歌的下载链接。 ps: 这主要是教大家一个入门级的爬虫，不是希望大家去跳过vip下载... 那种专业fildder这类软件抓包我就不提了，免得文章显