Skip to content

Commit

Permalink
Merge pull request #4 from douyasi/dev
Browse files Browse the repository at this point in the history
sync database to 2021 year
  • Loading branch information
ycrao authored Feb 8, 2023
2 parents 9a05147 + bb1f3e9 commit 8ef3e67
Show file tree
Hide file tree
Showing 18 changed files with 16,512 additions and 80 deletions.
8 changes: 4 additions & 4 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,7 +6,7 @@
### 基于本数据库实现的项目

- 中国(大陆)身份证号码校验类库 [douyasi/identity-card](https://github.com/douyasi/identity-card) 及其衍生版本: [Node/Javascript 实现版本](https://github.com/ycrao/id.js)[Rust 实现版本](https://github.com/ycrao/idrs)
- 省市县三级联动地址效果 [进行中]
- 省市县三级联动地址效果见此 [在线网页](https://raoyc.com/address-selector/) ,地区相关的js数据在 [](https://raoyc.com/address-selector/divisions.js) ,文件大小约 `99KB`


### 数据爬虫
Expand All @@ -19,10 +19,10 @@

### 数据源文件

最新的(多格式)数据源文件位于 `dist/2020` 目录下,采集截止到 2020年08月 的最新数据,来自于民政部网站。
最新的(多格式)数据源文件位于 `dist/2021` 目录下,采集截止到 2021年 的最新数据,来自于民政部网站。

### 参考资源

- 中华人民共和国国家统计局 [行政区划代码](http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/)
- 中华人民共和国国家统计局 [行政区划代码](http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/)
- 民政部 [县级以上行政区划变更情况](http://xzqh.mca.gov.cn/description?dcpid=1)
- 民政部 [中华人民共和国行政区划代码](http://www.mca.gov.cn/article/sj/tjbz/a/)
- 民政部 [中华人民共和国行政区划代码](https://www.mca.gov.cn/article/sj/xzqh/1980/)
3 changes: 3 additions & 0 deletions crawler/crawler.php
Original file line number Diff line number Diff line change
Expand Up @@ -10,6 +10,7 @@
function analyze_data($url, $key, &$places)
{
$res = get_request($url);

// 进行源码预处理工作
$res = strip_tags($res);
$res = str_replace(' ', '', $res);
Expand All @@ -21,6 +22,7 @@ function analyze_data($url, $key, &$places)
$res = preg_replace('/(.*)110000(.*)/', '110000${2}', $res);
$res = preg_replace('/(.*)注(.*)/', '${1}', $res);
$count = preg_match_all('/([\d]{6})\s+([\x{4e00}-\x{9fa5}]{2,})/imu', $res, $match, PREG_PATTERN_ORDER);

$file = __DIR__.'/data/'.$key.'.txt';
if (file_exists($file)) {
unlink($file);
Expand Down Expand Up @@ -60,6 +62,7 @@ function main() {
// 行政区划新老历史沿革 数据 网址
$urls = require __DIR__.'/urls.php';
foreach ($urls as $key => $url) {
echo 'handle year: ' .$key. ' url: '. $url .PHP_EOL;
analyze_data($url, $key, $places);
}
ksort($places);
Expand Down
22 changes: 11 additions & 11 deletions crawler/data/1982.txt
Original file line number Diff line number Diff line change
Expand Up @@ -2030,17 +2030,17 @@
442632:连南瑶族自治县
442633:乳源瑶族自治县
442700:佛山地区
442621:三水县
442622:南海县
442623:顺德县
442624:中山县
442625:斗门县
442626:新会县
442627:台山县
442628:恩平县
442629:开平县
442631:鹤山县
442632:高明县
442721:三水县
442722:南海县
442723:顺德县
442724:中山县
442725:斗门县
442726:新会县
442727:台山县
442728:恩平县
442729:开平县
442731:鹤山县
442732:高明县
442800:肇庆地区
442801:肇庆市
442821:高要县
Expand Down
4 changes: 2 additions & 2 deletions crawler/data/1987.txt
Original file line number Diff line number Diff line change
Expand Up @@ -1045,8 +1045,8 @@
339004:瑞安市
339005:萧山市
339006:江山市
339007:安徽省
339008:合肥市
340000:安徽省
340100:合肥市
340102:东市区
340103:中市区
340104:西市区
Expand Down
1 change: 0 additions & 1 deletion crawler/data/2014.txt
Original file line number Diff line number Diff line change
Expand Up @@ -35,7 +35,6 @@
130000:河北省
130100:石家庄市
130102:长安区
130103:桥东区
130104:桥西区
130105:新华区
130107:井陉矿区
Expand Down
2 changes: 1 addition & 1 deletion crawler/data/2015.txt
Original file line number Diff line number Diff line change
Expand Up @@ -2419,7 +2419,7 @@
512022:乐至县
512081:简阳市
513200:阿坝藏族羌族自治州
513201:马尔康区
513201:马尔康市
513221:汶川县
513222:理县
513223:茂县
Expand Down
2 changes: 1 addition & 1 deletion crawler/data/2018.txt
Original file line number Diff line number Diff line change
Expand Up @@ -2110,8 +2110,8 @@
450328:龙胜各族自治县
450329:资源县
450330:平乐县
450381:荔浦市
450332:恭城瑶族自治县
450381:荔浦市
450400:梧州市
450403:万秀区
450405:长洲区
Expand Down
2 changes: 1 addition & 1 deletion crawler/data/2019.txt
Original file line number Diff line number Diff line change
Expand Up @@ -2104,8 +2104,8 @@
450328:龙胜各族自治县
450329:资源县
450330:平乐县
450381:荔浦市
450332:恭城瑶族自治县
450381:荔浦市
450400:梧州市
450403:万秀区
450405:长洲区
Expand Down
21 changes: 9 additions & 12 deletions crawler/data/202008.txt → crawler/data/2020.txt
Original file line number Diff line number Diff line change
Expand Up @@ -843,13 +843,12 @@
320583:昆山市
320585:太仓市
320600:南通市
320602:崇川区
320611:港闸区
320612:通州区
320613:崇川区
320614:海门区
320623:如东县
320681:启东市
320682:如皋市
320684:海门市
320685:海安市
320700:连云港市
320703:连云区
Expand Down Expand Up @@ -1018,11 +1017,10 @@
340181:巢湖市
340200:芜湖市
340202:镜湖区
340203:弋江区
340207:鸠江区
340208:三山区
340221:芜湖县
340222:繁昌县
340209:弋江区
340210:湾沚区
340212:繁昌区
340223:南陵县
340281:无为市
340300:蚌埠市
Expand Down Expand Up @@ -1386,11 +1384,10 @@
370611:福山区
370612:牟平区
370613:莱山区
370634:长岛县
370614:蓬莱区
370681:龙口市
370682:莱阳市
370683:莱州市
370684:蓬莱市
370685:招远市
370686:栖霞市
370687:海阳市
Expand Down Expand Up @@ -1741,11 +1738,11 @@
421002:沙市区
421003:荆州区
421022:公安县
421023:监利县
421024:江陵县
421081:石首市
421083:洪湖市
421087:松滋市
421088:监利市
421100:黄冈市
421102:黄州区
421121:团风县
Expand Down Expand Up @@ -2103,8 +2100,8 @@
450328:龙胜各族自治县
450329:资源县
450330:平乐县
450381:荔浦市
450332:恭城瑶族自治县
450381:荔浦市
450400:梧州市
450403:万秀区
450405:长洲区
Expand Down Expand Up @@ -2475,7 +2472,7 @@
520200:六盘水市
520201:钟山区
520203:六枝特区
520221:水城县
520204:水城区
520281:盘州市
520300:遵义市
520302:红花岗区
Expand Down
Loading

0 comments on commit 8ef3e67

Please sign in to comment.