配景
随着后疫情期间的到来,在过去的2022年,天下的经济环境,想必是很多学者和研究对象都非常关心的事。而这些数据在国家统计局网站上都有相应的纪录。通太过析这些数据,可以从某一个角度来验证和观察当下的经济环境。
天下共计有1279个县级单位已经披露了2022年GDP和一样平常公共预算收入数据环境,企业预警通根据这些数据整理出中国百强县gdp排行榜和百强县一样平常公共预算收入排行榜。此中昆山市以5006.66亿元GDP连任榜单榜首,江阴市、晋江市位列百强县第二三位,长沙县是湖南省唯一进入天下前十的(Top7)。来源:2023中国县城GDP百强榜发表 2023中国百强县排行榜一览。


第一张图是以图片的形式发布的,第二种是接纳Html的表格(table)形式展示的。在离线分析使用数据的时间非常不方便。作为程序猿,这肯定难不倒您。我们可以接纳网页抓取的技能对数据举行整理。本文将以Java语言为编程语言,解说使用Jsoup对Web网页知识举行爬取,文中给出了具体的示例代码,渴望对大家有帮助。
一、初识Jsoup抓取
1、网页布局分析
在使用Jsoup对页面举行抓取时,须要对网页的布局举行开端的分析,便于订定相对应的抓取战略。首先打开欣赏器,输入目标网站的地点,同时打开F12进入调试,找到目标网页的元素。

打开上面gdp百强榜表格中的div下table表格,找到如下的数据

同理,对于一样平常公共预算收入的数据处置惩罚也是同样的处置惩罚办法,在此不再赘述。
二、Java开辟Jsoup抓取
1、引用Jsoup相干依靠包
这里我们接纳Maven的jar举行包的依靠处置惩罚管理。因此先界说Pom.xml,关键代码如下所示:
- <project xmlns="http://maven.apache.org/POM/4.0.0"
- xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
- xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
- <modelVersion>4.0.0</modelVersion>
- <groupId>com.yelang</groupId>
- <artifactId>jsoupdemo</artifactId>
- <version>0.0.1-SNAPSHOT</version>
- <dependencies>
- <dependency>
- <groupId>org.jsoup</groupId>
- <artifactId>jsoup</artifactId>
- <version>1.11.3</version>
- </dependency>
- <dependency>
- <groupId>com.alibaba</groupId>
- <artifactId>easyexcel</artifactId>
- <version>3.0.5</version>
- </dependency>
- </dependencies>
- </project>
复制代码 2、 信息实体类的处置惩罚
对比发现两个表格处置惩罚具体的指标不一样,前面的排名和县名称,地点省份名称都是一样的。因此我们接纳面向对象的设计方法对信息处置惩罚的类举行开辟。相应的类图如下所示:

3、数据收罗实体
- package com.yelang.entity;
- import java.io.Serializable;
- import com.alibaba.excel.annotation.ExcelProperty;
- public class CountyBase implements Serializable {
- private static final long serialVersionUID = -1760099890427975758L;
- @ExcelProperty(value= {"序号"},index = 1)
- private Integer index;
- @ExcelProperty(value= {"县级地区"},index = 2)
- private String name;
- @ExcelProperty(value= {"所属省"},index = 3)
- private String province;
- public Integer getIndex() {
- return index;
- }
- public void setIndex(Integer index) {
- this.index = index;
- }
- public String getName() {
- return name;
- }
- public void setName(String name) {
- this.name = name;
- }
- public String getProvince() {
- return province;
- }
- public void setProvince(String province) {
- this.province = province;
- }
- public CountyBase(Integer index, String name, String province) {
- super();
- this.index = index;
- this.name = name;
- this.province = province;
- }
- public CountyBase() {
- super();
- }
- }
复制代码 在上面的代码中,将排序、县级地区、省作为父类抽象出来,设计两个子类:GDP类和一样平常公共收入类。这里须要留意的是,由于这里我们须要将收罗的数据生存到本地的Excel表格中,这里我们接纳EasyExcel作为技能天生组件。@ExcelProperty这个属性中,我们界说了写入的Excel表头以及具体的排序。
- package com.yelang.entity;
- import java.io.Serializable;
- import com.alibaba.excel.annotation.ExcelProperty;
- public class Gdp extends CountyBase implements Serializable {
- private static final long serialVersionUID = 5265057372502768147L;
- @ExcelProperty(value= {"GDP(亿元)"},index = 4)
- private String gdp;
-
- public String getGdp() {
- return gdp;
- }
- public void setGdp(String gdp) {
- this.gdp = gdp;
- }
- public Gdp(Integer index, String name, String province, String gdp) {
- super(index,name,province);
- this.gdp = gdp;
- }
- public Gdp(Integer index, String name, String province) {
- super(index, name, province);
- }
- }
复制代码- package com.yelang.entity;
- import java.io.Serializable;
- import com.alibaba.excel.annotation.ExcelProperty;
- public class Gpbr extends CountyBase implements Serializable {
- private static final long serialVersionUID = 8612514686737317620L;
- @ExcelProperty(value= {"一般公共预算收入(亿元)"},index = 4)
- private String gpbr;// General public budget revenue
- public String getGpbr() {
- return gpbr;
- }
- public void setGpbr(String gpbr) {
- this.gpbr = gpbr;
- }
- public Gpbr(Integer index, String name, String province, String gpbr) {
- super(index, name, province);
- this.gpbr = gpbr;
- }
- public Gpbr(Integer index, String name, String province) {
- super(index, name, province);
- }
- }
复制代码 4、实际爬取
下面是处置惩罚GDP数据的转换代码,假如不熟悉Jsoup可以先熟悉下相干语法,假如有雷同Jquery的开辟经验,对于Jsoup上手非常快。
- static void grabGdp() {
- String target = "https://www.maigoo.com/news/665462.html";
- try {
- Document doc = Jsoup.connect(target)
- .ignoreContentType(true)
- .userAgent(FetchCsdnCookie.ua[1])
- .timeout(300000)
- .header("referer","https://www.maigoo.com")
- .get();
- Elements elements = doc.select("#t_container > div:eq(3) table tr");
- List<Gdp> list = new ArrayList<Gdp>();
- for(int i = 1;i<elements.size();i++) {
- Element tr = elements.get(i);//获取表头
- Elements tds = tr.select("td");
- Integer index = Integer.valueOf(tds.get(0).text());
- String name = tds.get(1).text();
- String province = tds.get(2).text();
- String gdp = tds.get(3).text();
- Gdp county = new Gdp(index, name, province, gdp);
- list.add(county);
- }
- String fileName = "E:/gdptest/2023全国百强县GDP排行榜 .xlsx";
- EasyExcel.write(fileName, Gdp.class).sheet("GDP百强榜").doWrite(list);
- System.out.println("完成...");
- } catch (Exception e) {
- System.out.println(e.getMessage());
- System.out.println("发生异常,继续下一轮循环");
- }
- }
复制代码 这里须要留意的是在jsoup中如何举行网页的元素定位及抓取。在上面这里,我们使用雷同jquery的Dom获取方法。
- Elements elements = doc.select("#t_container > div:eq(3) table tr");
复制代码 通过这一行去获取表格下的每一个tr,然后再循环每个td就可以获取对应的数据。
三、过程分析及结果
1、收罗过程分析
这里接纳对源程序举行debug的方法对网页举行抽丝剥茧的分析。使用jsou举行网页模仿访问

接纳select(xxx)的方法获取页面元素,

获取tr下的td单位格数据,

2、运行结果
上述代码运行完成后,在目标磁盘可以看到以下两个文件,

打开上述两个excel文件可以看到想要收罗的数据已经收罗完毕,数据的次序也是完全按照网页上的次序来举行天生的。


总结
以上就是本文的重要内容。本文将以Java语言为编程语言,具体解说了如何使用Jsoup对Web网页知识举行爬取,联合EasyExcel将网页表格转换成Excel表格,同时文中给出了具体的示例代码。由于行文急忙,难免有误,接待品评指正交流。
来源:https://blog.csdn.net/yelangkingwuzuhu/article/details/130901172
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |