基于ApachePOI实现百度POI分类快速导入PostgreSQL数据库实战

前言

一、百度POI分类简介

1、数据表格

2、分类结构

二、从Excel导入到PG数据库

1、Excel解析流程

2、数据入库

3、入库成果及检索

三、总结

前言

在上一篇博文中，我们对高德POI分类进行了深入剖析并对Excel 中 POI 分类数据的存储结构特点进行了详细介绍，针对美食、电影院等不同分类数据字段特性，还将着重探索如何优化导入流程，基于ApachePOI实现高德POI分类快速导入PostgreSQL数据库实战。除了高德地图之外，还有百度开放地图也同样提供POI的检索服务，与之配套的也还有POI分类的管理。但是两个POI的分类存在非常大的差异，层次结构也是不一样的。如下图:

百度地图的POI分类从大类来说就跟高德POI不一样，单从一级大类的数量来说，百度拥有 32个，而高德只区分了25个，不仅如何，从层级上来说，高德通常只区分了3即分类，而百度竟然有5级分类。那么本文即来重点讲讲百度POI分类与高德POI分类存在什么不一样的地方，同时深入讲解开百度 POI 分类如何进行数据导入，也为各类基于 POI 分类数据的地理信息系统开发、商业智能分析以及城市规划应用等，铺设一条从数据获取到存储利用的高效路径，助力行业在空间数据赋能下实现精准决策与创新发展。

一、百度POI分类简介

本节将首先重点介绍百度地图的POI分类信息，在之前的博客中我们设计了用于POI管理的物理表，希望可以用来存储对应的POI分类信息。然后使用数据库脚本的方法对POI分类信息进行录入管理。而对于百度地图而言，其POI的分类是非常详细的，因此这一节我们来详细的解读一下百度的POI分类，让大家对分类信息有进一步的了解，为下一步数据的批量解析入库打下牢固的基础。

1、数据表格

与之前介绍的内容一样，大家可以从百度的地图开放平台中获取其最新的POI分类的Excel表格，这里我将从官网下载的类型截取一部分给大家参考，这里不进行赘述，需要原始Excel表格的，可以去网站上下载。

从上面这张图可以看出，百度地图的POI分类确实分的比较细，比较符合一些细粒度的区分，比如如果有一个场景需要区分历史博物馆和海洋博物馆等，如果使用的是百度的API来进行检索，那么是比较容易进行行业细分的。同时也能看到一个比较明显的区别，在百度的POI分类中，在它的五级分类管理体系中，其分类没有编码的概念，也没有对应的英文，当然，编码只是一个逻辑编码，并不代表严格的含义，最主要的还是分类的名称，这才是最重要的。

同样的，基于百度地图的POI检索可以从返回接口中看到其对应的POI分类值为：

{"name":"千佛洞景区","location":{"lat":28.220183,"lng":112.148422},"address":"长沙市宁乡市104县道(近天紫漂流)","province":"湖南省","city":"长沙市","area":"宁乡市","street_id":"","telephone":"(0731)87550989","detail":1,"uid":"5b25f44687acb9ea1029352c","detail_info":{"classified_poi_tag":"旅游景点;自然景观;风景区","new_alias":"宁乡千佛洞","tag":"旅游景点;风景区","navi_location":{"lng":112.14478762174,"lat":28.220406186348},"type":"scope","detail_url":"http://api.map.baidu.com/place/detail?uid=5b25f44687acb9ea1029352c&output=html&source=placeapi_v2","overall_rating":"4.4","comment_num":"56","shop_hours":"08:00-18:00","label":"AAAA景区,洞穴"}
}

其中classified_poi_tag对应poi分类的类别。

2、分类结构

在了解了百度地图的POI分类之后，下面我们基于之前设计的数据库物理表和分类信息构建树形的信息。因此需要对其分类采取细致的分类管理。在进行树形层次构建时，我们根据分类名称来进行统一管理：

这个结构是百度POI分类管理的基础，也是后面的数据程序解析的基础。我们将使用编码来进行五级分类的解析及入库。在Excel中，很大的大类和种类都是重复的，因此需要在入库时将类别进行去重分类，最终构建一棵完整的POI分类树。与高德POI分类不一样的是，百度的POI分类在层次上不是不一样的，不仅在层级上比高德多两极。同时存在为空的情况，并不是所有的POI分类都可以分成5级。

二、从Excel导入到PG数据库

本节将详细介绍在Java中使用ApachePOI实现从Excel中解析到存储至PostgreSQL中，主要包含两个方面，第一个是如何结合POI分类的规则进行分类解析。第二个方面是如何基于Mybatis实现程序的批量入库。完整的数据处理流程与高德POI入库的流程一致，基本分为三个步骤：第一步是批量读取Excel，第二步是将Excel解析出POI分类数据，最后将分类好的数据导入到PG数据库中。由于百度地图和高德地图的层级存在很大的差距，因此这里着重介绍如何动态构建百度的层级树。

1、Excel解析流程

首先还是对百度Excel的POI分类进行解析，在进行POI的分类进行构建时尤其重要，为了防止各层级在构建时出现重复的情况，这里采用LinkedHashMap集合来进行重复判断，在存储集合对象时，将分类编码作为map的key，而具体分类对象作为value。在后续的对象去重判断时，key就是重复的标记。为了实现Excel数据的导入，需要定义一个JavaBean来读取数据，其关键代码如下：

package com.yelang.project.poisubject.poi.domain;
import java.io.Serializable;
import com.yelang.framework.aspectj.lang.annotation.Excel;
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
/*** - 百度POI分类Excel视图对象* @author 夜郎king*/
@Data
@AllArgsConstructor
@NoArgsConstructor
public class BaiduPoiCategoryExcelVO implements Serializable{private static final long serialVersionUID = -4167642920886200649L;@Excel(name = "一级")private String levelFirst;//一级@Excel(name = "二级")private String levelSecond;//二级@Excel(name = "三级")private String levelThird;//三级@Excel(name = "四级")private String levelFourth;//四级@Excel(name = "五级")private String levelFifth;//五级
}

与高德POI分类的Excel解析对象类似的是，这里的属性定义与Excel表格中的单元格需要逐一对应方可解析。接下来读取Excel的数据，按照分类对百度POI分类进行层级重建，与高德的三级分类不同的是，百度地图有五级分类，需要进行五级分类的检验，核心代码如下：

File file = new File(BAIDU_POI_FILE);
FileInputStream fis = new FileInputStream(file);
ExcelUtil<BaiduPoiCategoryExcelVO> util = new ExcelUtil<BaiduPoiCategoryExcelVO>(BaiduPoiCategoryExcelVO.class);
List<BaiduPoiCategoryExcelVO> dataList = util.importExcel(fis);
LinkedHashMap<String,PoiCategory> amapPoiTypeMap = new LinkedHashMap<String, PoiCategory>();
for(BaiduPoiCategoryExcelVO poiCategory : dataList) {String levelFirst = poiCategory.getLevelFirst();//处理一级，添加到集合中if(!amapPoiTypeMap.containsKey(levelFirst)) {PoiCategory category = new PoiCategory(IdWorker.getId(),102L,"0,100,102",levelFirst,StringUtils.EMPTY,StringUtils.EMPTY);amapPoiTypeMap.put(levelFirst, category);}//处理二级，添加到集合中String levelSecond = poiCategory.getLevelSecond();if(com.yelang.common.utils.StringUtils.isEmpty(levelSecond)) {continue;}String keySecond = levelFirst + "-" + levelSecond;if(!amapPoiTypeMap.containsKey(keySecond)) {PoiCategory parentCategory = amapPoiTypeMap.get(levelFirst);String ancestors = parentCategory.getAncestors() + "," + parentCategory.getPkId();PoiCategory category = new PoiCategory(IdWorker.getId(),parentCategory.getPkId(),ancestors,levelSecond,StringUtils.EMPTY,StringUtils.EMPTY);amapPoiTypeMap.put(keySecond, category);}         //处理三级String levelThird = poiCategory.getLevelThird();if(com.yelang.common.utils.StringUtils.isEmpty(levelThird)) {continue;}String keyThird = keySecond + "-" + levelThird;if(!amapPoiTypeMap.containsKey(keyThird)) {PoiCategory parentCategory = amapPoiTypeMap.get(keySecond);String ancestors = parentCategory.getAncestors() + "," + parentCategory.getPkId();PoiCategory category = new PoiCategory(IdWorker.getId(),parentCategory.getPkId(),ancestors,levelThird,StringUtils.EMPTY,StringUtils.EMPTY);amapPoiTypeMap.put(keyThird, category);}    //处理四级String levelFourth = poiCategory.getLevelFourth();if(com.yelang.common.utils.StringUtils.isEmpty(levelFourth)) {continue;}String keyFourth = keyThird + "-" + levelFourth;if(!amapPoiTypeMap.containsKey(keyFourth)) {PoiCategory parentCategory = amapPoiTypeMap.get(keyThird);String ancestors = parentCategory.getAncestors() + "," + parentCategory.getPkId();PoiCategory category = new PoiCategory(IdWorker.getId(),parentCategory.getPkId(),ancestors,levelFourth,StringUtils.EMPTY,StringUtils.EMPTY);amapPoiTypeMap.put(keyFourth, category);}        //处理五级String levelFifth = poiCategory.getLevelFifth();if(com.yelang.common.utils.StringUtils.isEmpty(levelFifth)) {continue;}String keylevelFifth = keyFourth + "-" + levelFifth;if(!amapPoiTypeMap.containsKey(keylevelFifth)) {PoiCategory parentCategory = amapPoiTypeMap.get(keyFourth);String ancestors = parentCategory.getAncestors() + "," + parentCategory.getPkId();PoiCategory category = new PoiCategory(IdWorker.getId(),parentCategory.getPkId(),ancestors,levelFifth,StringUtils.EMPTY,StringUtils.EMPTY);amapPoiTypeMap.put(keylevelFifth, category);}
}

在树形结构的构造过程当中，需要注意map中key的构建，与高德不一样的是，百度地图没有分类编码的设置，因此我们直接使用分类名称，在父子层级中将分类按照“-”进行连接作为组装，以此来构建一棵完整的分类层级树。

2、数据入库

对于Mybatis的批量入库方法与高德POI入库的方法一致，均是采用Mybatis的批量入库方法。再次不进行重复叙述。在设置POI分类数据源的时候，需要区分所属平台，比如百度或者高德，这里需要进行一个设置。调用批量入库和统一属性的设置方法如下：

List<PoiCategory> categoryData = new ArrayList<PoiCategory>();
for (PoiCategory value : amapPoiTypeMap.values()) {value.setPlatform("baidu");value.setDelFlag(0);value.setStatus(0);value.setOrderNum(1);value.setCreateTime(DateUtils.getNowDate());categoryData.add(value);
}
poiCateGoryService.batchInsertPoiCategory(categoryData);
//数据入库 
System.out.println("finished...");

3、入库成果及检索

完成以上的操作后就完成了百度POI分类数据的Postgresql数据库导入操作，程序执行完成后，可以在控制台看到以下输出：

说明Excel成功被解析，并将数据持久化到了数据库之中。为了验证是否在数据库中是否也保存了这些数据，可以使用以下SQL语句进行查询：


select * from biz_poi_category where parent_id = 102;

在客户端软件中执行以上SQL后可以看到以下结果：

三、总结

以上就是本文的主要内容，支持对于高德地图和百度地图的POI分类的Excel入库及检索就基本完成，后续我们将深入使用两者的POI信息以及如何进行相应数据的采集。那么本文即来重点讲讲百度POI分类与高德POI分类存在什么不一样的地方，同时深入讲解开百度 POI 分类如何进行数据导入，也为各类基于 POI 分类数据的地理信息系统开发、商业智能分析以及城市规划应用等，铺设一条从数据获取到存储利用的高效路径，助力行业在空间数据赋能下实现精准决策与创新发展。行文仓促，难免有许多不足之处，如有不足，在此恳请各位专家博主在评论区不吝留言指出，不胜感激。