我用AI做了一個(gè)1978年至2019年中國(guó)大陸企業(yè)注冊(cè)的網(wǎng)站
最近星哥在GitHub上偶然發(fā)現(xiàn)了一個(gè)寶藏倉(cāng)庫(kù)——Enterprise-Registration-Data-of-Chinese-Mainland。這個(gè)包含1978到2019年全國(guó)企業(yè)注冊(cè)信息的數(shù)據(jù)集,像一座塵封的經(jīng)濟(jì)檔案庫(kù),靜靜躺在代碼海洋里。588萬(wàn)條記錄、31個(gè)省份、10個(gè)核心字段,從"東方華脈建筑設(shè)計(jì)"到"冷酸靈互娛科技",這些帶著時(shí)代印記的企業(yè)名稱背后,藏著中國(guó)改革開(kāi)放42年的經(jīng)濟(jì)密碼。
數(shù)據(jù)源來(lái)自 GitHub 上的開(kāi)源項(xiàng)目 Enterprise-Registration-Data-of-Chinese-Mainland 。
全程不使用手寫(xiě)代碼,僅使用AI編程工具。
![]()
技術(shù)實(shí)現(xiàn)思路 獲取免費(fèi)服務(wù)器
? 申請(qǐng)免費(fèi)服務(wù)器(一個(gè)月)
? 最好有域名
? 我這里申請(qǐng)的是騰訊云的,如果你有其他的云服務(wù)器或者虛擬機(jī)都行。
? 原始數(shù)據(jù)來(lái)自 GitHub 倉(cāng)庫(kù),格式為 CSV。
? 新建數(shù)據(jù)表、合理索引
? 將csv數(shù)據(jù)導(dǎo)入
? 數(shù)據(jù)量較大,需要進(jìn)行清洗、索引和分庫(kù)處理。
? 檢索公司名、法人、地址得出結(jié)果
? 支持模糊搜索,例如輸入“華為”即可匹配“華為技術(shù)有限公司”。
? 簡(jiǎn)潔的搜索框 + 結(jié)果列表。
? 支持按年份、地區(qū)分類篩選。
大家可以使用github或者夸克下載。
數(shù)據(jù)源來(lái)自github: https://github.com/kinginsun/Enterprise-Registration-Data-of-Chinese-Mainland夸克下載:
我用夸克網(wǎng)盤(pán)給你分享了「1978-2019新注冊(cè)的企業(yè)工商信息.zip」鏈接:https://pan.quark.cn/s/efd621e2c4f9
提取碼:DLFT
文件夾以年份命名,隨便進(jìn)入一個(gè)文件夾打開(kāi)文件夾中的文檔
![]()
![]()
如圖表格
![]()
2.連接服務(wù)器
這步不是必須,也可以在本地電腦或者虛擬機(jī)上安裝
我這里使用的是騰訊的CodeBuddy1024送的免費(fèi)1個(gè)月的輕量云
![]()
3.安裝寶塔
具體可以看一下星哥之前寫(xiě)的
安裝寶塔命令
if [ -f /usr/bin/curl ];then curl -sSO https://download.bt.cn/install/install_panel.sh;else wget -O install_panel.sh https://download.bt.cn/install/install_panel.sh;fi;bash install_panel.sh ed8484bec進(jìn)入寶塔
安裝WEB環(huán)境 ![]()
WEB環(huán)境安裝成功
記住mysql密碼
記住mysql的密碼,以后要用的
![]()
4.下載CodeBuddy編程工具
騰訊 CodeBuddy 是一款由騰訊云推出的智能編程助手,定位為“AI時(shí)代的編程伙伴”,通過(guò)自然語(yǔ)言交互幫助開(kāi)發(fā)者更高效地完成從需求到上線的全流程開(kāi)發(fā)。
再到本地開(kāi)發(fā)電腦上安裝CodeBuddy
下載:
瀏覽器打開(kāi) https://copilot.tencent.com/點(diǎn)擊安裝IDE
![]()
安裝之后
![]()
新建項(xiàng)目文件夾
新建文件夾,命名為“AI-1978-and-2019-register-company”將csv文件放到目錄中
把zip解壓
$ ll
total 16
drwxr-xr-x 1 Administrator 197121 0 Feb 22 2020 Enterprise-Registration-Data-of-Chinese-Mainland-master/
使用CodeBuddy打開(kāi)文件夾AI-1978-and-2019-register-company
提示詞:
寫(xiě)一個(gè)shell腳本,將Enterprise-Registration-Data-of-Chinese-Mainland-master目錄中的csv文件批量導(dǎo)入到mysql數(shù)據(jù)庫(kù)中表索引要有企業(yè)名稱、法人代表、所在省份
結(jié)果得到import_to_mysql.sh文件
import_to_mysql.sh提示詞輸入之后,生成了三個(gè)文件
![]()
將文件上傳到輕量云服務(wù)器中,修改root密碼
新建數(shù)據(jù)庫(kù) ![]()
運(yùn)行
sh import_to_mysql.sh導(dǎo)入數(shù)據(jù)庫(kù)#!/bin/bash
# MySQL數(shù)據(jù)庫(kù)配置
DB_HOST="localhost"
DB_USER="改成你的用戶名"
DB_PASS="改成你的密碼"
DB_NAME="enterprise_registration"
# CSV文件目錄
CSV_DIR="Enterprise-Registration-Data-of-Chinese-Mainland-master/1978-2019新注冊(cè)的企業(yè)工商信息"
# 創(chuàng)建數(shù)據(jù)庫(kù)和表
create_database_and_table() {
echo "創(chuàng)建數(shù)據(jù)庫(kù)和表..."
mysql -h $DB_HOST -u $DB_USER -p$DB_PASS << EOF
CREATE DATABASE IF NOT EXISTS $DB_NAME CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
USE $DB_NAME;
DROP TABLE IF EXISTS enterprise_data;
CREATE TABLE enterprise_data (
id INT AUTO_INCREMENT PRIMARY KEY,
企業(yè)名稱 VARCHAR(500) NOT NULL,
統(tǒng)一社會(huì)信用代碼 VARCHAR(100),
注冊(cè)日期 DATE,
企業(yè)類型 VARCHAR(100),
法人代表 VARCHAR(100),
注冊(cè)資金 VARCHAR(100),
經(jīng)營(yíng)范圍 TEXT,
所在省份 VARCHAR(50),
地區(qū) VARCHAR(100),
注冊(cè)地址 TEXT,
年份 INT,
省份 VARCHAR(50),
created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
-- 創(chuàng)建索引以提高查詢性能
CREATE INDEX idx_year ON enterprise_data(年份);
CREATE INDEX idx_province ON enterprise_data(省份);
CREATE INDEX idx_reg_date ON enterprise_data(注冊(cè)日期);
EOF
}
# 導(dǎo)入單個(gè)CSV文件
import_csv_file() {
local csv_file="$1"
local year="$2"
local province="$3"
echo "導(dǎo)入文件: $csv_file (年份: $year, 省份: $province)"
# 提取文件名中的省份信息(去掉.csv后綴)
local province_name=$(basename "$csv_file" .csv)
# 使用LOAD DATA INFILE導(dǎo)入CSV文件
mysql -h $DB_HOST -u $DB_USER -p$DB_PASS $DB_NAME << EOF
LOAD DATA LOCAL INFILE '$csv_file'
INTO TABLE enterprise_data
CHARACTER SET utf8mb4
FIELDS TERMINATED BY ','
OPTIONALLY ENCLOSED BY '"'
LINES TERMINATED BY '\n'
IGNORE 1 LINES
(企業(yè)名稱, 統(tǒng)一社會(huì)信用代碼, 注冊(cè)日期, 企業(yè)類型, 法人代表, 注冊(cè)資金, 經(jīng)營(yíng)范圍, 所在省份, 地區(qū), 注冊(cè)地址)
SET 年份 = $year, 省份 = '$province_name';
EOF
}
# 批量導(dǎo)入所有CSV文件
batch_import() {
echo "開(kāi)始批量導(dǎo)入CSV文件..."
# 查找所有年份目錄
for year_dir in "$CSV_DIR"/*/; do
if [ -d "$year_dir" ]; then
# 提取年份
local year=$(basename "$year_dir")
echo "處理年份: $year"
# 查找該年份下的所有CSV文件
for csv_file in "$year_dir"/*.csv; do
if [ -f "$csv_file" ]; then
# 提取省份名稱
local province=$(basename "$csv_file" .csv)
import_csv_file "$csv_file" "$year" "$province"
fi
done
fi
done
}
# 顯示導(dǎo)入統(tǒng)計(jì)信息
show_statistics() {
echo "導(dǎo)入完成,統(tǒng)計(jì)信息:"
mysql -h $DB_HOST -u $DB_USER -p$DB_Pass $DB_NAME << EOF
SELECT
年份,
COUNT(*) as 企業(yè)數(shù)量,
COUNT(DISTINCT 省份) as 省份數(shù)量
FROM enterprise_data
GROUP BY 年份
ORDER BY 年份;
SELECT
COUNT(*) as 總企業(yè)數(shù)量,
COUNT(DISTINCT 省份) as 總省份數(shù)量,
MIN(年份) as 最早年份,
MAX(年份) as 最晚年份
FROM enterprise_data;
EOF
}
# 主函數(shù)
main() {
echo "=== 企業(yè)工商信息數(shù)據(jù)導(dǎo)入MySQL數(shù)據(jù)庫(kù) ==="
# 檢查MySQL連接
if ! mysql -h $DB_HOST -u $DB_USER -p$DB_PASS -e "SELECT 1;" > /dev/null 2>&1; then
echo "錯(cuò)誤:無(wú)法連接到MySQL數(shù)據(jù)庫(kù),請(qǐng)檢查配置"
exit 1
fi
# 檢查CSV目錄是否存在
if [ ! -d "$CSV_DIR" ]; then
echo "錯(cuò)誤:CSV目錄不存在: $CSV_DIR"
exit 1
fi
# 執(zhí)行導(dǎo)入流程
create_database_and_table
batch_import
show_statistics
echo "=== 導(dǎo)入完成 ==="
}
# 使用說(shuō)明
usage() {
echo "使用方法:"
echo " ./import_to_mysql.sh # 執(zhí)行完整導(dǎo)入流程"
echo ""
echo "配置說(shuō)明:"
echo " 請(qǐng)修改腳本開(kāi)頭的數(shù)據(jù)庫(kù)配置:"
echo " - DB_HOST: MySQL服務(wù)器地址"
echo " - DB_USER: MySQL用戶名"
echo " - DB_PASS: MySQL密碼"
echo " - DB_NAME: 數(shù)據(jù)庫(kù)名稱"
}# 參數(shù)處理
case "$1" in
-h|--help)
usage
exit 0
;;
*)
main
;;
esac
數(shù)據(jù)庫(kù)導(dǎo)入成功之后,用寶塔自帶的phpmyadmin查看數(shù)據(jù)。
![]()
創(chuàng)建web站點(diǎn)的提示語(yǔ)
輸入提示語(yǔ)
請(qǐng)幫我創(chuàng)建一個(gè)web站點(diǎn)
前端使用 html ,前端界面要美觀大方、自適應(yīng)移動(dòng)端
后端使用 php8.2數(shù)據(jù)庫(kù)配置如下:
用戶名:star
密碼是:改成你自己密碼
主機(jī):127.0.0.1
端口是:3306
數(shù)據(jù)庫(kù)名:enterprise_registration
做一個(gè)企業(yè)查詢的站點(diǎn)
可以根據(jù)企業(yè)名稱、法人姓名、查詢公司詳情
最后給我創(chuàng)建了如下的文件
![]()
寶塔新建站點(diǎn) 新建站點(diǎn)
使用域名:cha.xgss.net
如圖新建站點(diǎn)
![]()
上傳文件 ![]()
域名解析到輕量云
調(diào)試結(jié)果
![]()
有如下bug
有如下BUG,請(qǐng)幫我解決
1.點(diǎn)擊查詢按鈕數(shù)據(jù)查不到
2.輸入法人代表或者企業(yè)名稱需要查詢到相關(guān)信息把提示詞喂給CodeBuddy,讓CodeBuddy來(lái)調(diào)試
應(yīng)用場(chǎng)景
? 學(xué)術(shù)研究:經(jīng)濟(jì)學(xué)、社會(huì)學(xué)研究者可用來(lái)分析企業(yè)發(fā)展趨勢(shì)。
? 商業(yè)分析:投資人或咨詢公司可快速定位目標(biāo)企業(yè)。
? 個(gè)人興趣:普通用戶也能一窺中國(guó)企業(yè)發(fā)展的歷史脈絡(luò)。
做這個(gè)網(wǎng)站的過(guò)程,讓我再次體會(huì)到:數(shù)據(jù)只有被激活,才真正有價(jià)值。AI不是替代人,而是幫助我們提高效率的工具。
如果你也對(duì)這個(gè)項(xiàng)目感興趣,可以去 GitHub 上看看原始數(shù)據(jù),或者嘗試自己搭建一個(gè)查詢工具。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.