Add HF bshada/open-schematics to Phase 1 plan

Why:
- Charles 点名把该 HF 数据集纳入第一批。它是已预处理包(非待爬网站),
  和 oshwhub 的抓取逻辑不一样,先把决策面在 plan 里讲清楚,再动手拉。
- 与 oshwhub (EasyEDA 生态) 互补,补 KiCad 原生路径。

What:
- docs/sources/hf_bshada_open_schematics.md: 调研文档
  - 78 parquet shards, 6.4 GB 总量
  - CC-BY-4.0 商用友好
  - 字段:.kicad_sch 源 / PNG / 组件列表 / JSON / YAML / name / desc
  - 镜像方案(整包存 data/external/..., 不拆 per-project)
  - .gitattributes 建议(data/external/**/*.{parquet,png} → LFS)
- plan.md §1.5: 阶段说明 + 待 Charles 批 6.4 GB 预算
- README.md 数据源表: 加一行
- log.md: 本次记录

下载未触发,等 Charles 拍板。

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
Zhang Jiahao
2026-04-23 19:51:24 +08:00
parent ce22717288
commit 53b7648984
4 changed files with 154 additions and 3 deletions

21
plan.md
View File

@@ -56,12 +56,29 @@
### 1.4 放量(待决策)
- [ ] Charles 定目标规模50 / 500 / 5000 / 全量 12493
- [ ] 估算存储52 附件 / 10 项目 ≈ 52MB/项目 → 全量约 **650GB**Gitea LFS 需评估)
- [x] 实测规模分布(见 `docs/sources/oshwhub_corpus_estimate.md`
- median/proj 9 MB → 全量 **~110 GB**(合理预算)
- p90 上界 **660 GB**
- mp4+qt 视频占 54% → 加 `--skip-ext mp4,qt` 可省一半
- [ ] 未解决:
- `fs-web-stream.jlc.com` 工程源下载路径(未测)
- `u.lceda.cn` EasyEDA 工程 JSON需登录v0.1 跳过)
- 增量更新:`updated_at` 变动检测 + LFS prune 策略
### 1.5 纳入第三方预处理数据集 `bshada/open-schematics`
**性质**Hugging Face 已发布的 KiCad schematics 数据集(非待爬网站),镜像导入即可。
**目标**:补 KiCad 原生生态,与 oshwhub (EasyEDA) 互补。
- [x] 调研(见 `docs/sources/hf_bshada_open_schematics.md`
- [ ] **待 Charles 拍板** 6.4 GB LFS 预算
- [ ] 目录:`data/external/huggingface/bshada--open-schematics/`
- 整包镜像,**不**拆成 per-project 目录10K+ 条记录)
- 78 parquet shards + README + 封面 + 追加 `ATTRIBUTION.md`
- [ ] `.gitattributes``data/external/**/*.{parquet,png}` 走 LFS
- [ ] 下载:`huggingface-cli download bshada/open-schematics --repo-type dataset --local-dir data/external/huggingface/bshada--open-schematics`
- [ ] 单独维护 `datasets.md`per-project 索引 `projects.md` 不适合整包数据集)
---
## Phase 2 — GitHub 开源硬件 repo