Add HF bshada/open-schematics to Phase 1 plan
Why:
- Charles 点名把该 HF 数据集纳入第一批。它是已预处理包(非待爬网站),
和 oshwhub 的抓取逻辑不一样,先把决策面在 plan 里讲清楚,再动手拉。
- 与 oshwhub (EasyEDA 生态) 互补,补 KiCad 原生路径。
What:
- docs/sources/hf_bshada_open_schematics.md: 调研文档
- 78 parquet shards, 6.4 GB 总量
- CC-BY-4.0 商用友好
- 字段:.kicad_sch 源 / PNG / 组件列表 / JSON / YAML / name / desc
- 镜像方案(整包存 data/external/..., 不拆 per-project)
- .gitattributes 建议(data/external/**/*.{parquet,png} → LFS)
- plan.md §1.5: 阶段说明 + 待 Charles 批 6.4 GB 预算
- README.md 数据源表: 加一行
- log.md: 本次记录
下载未触发,等 Charles 拍板。
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
21
plan.md
21
plan.md
@@ -56,12 +56,29 @@
|
||||
### 1.4 放量(待决策)
|
||||
|
||||
- [ ] Charles 定目标规模:50 / 500 / 5000 / 全量 12493
|
||||
- [ ] 估算存储:52 附件 / 10 项目 ≈ 52MB/项目 → 全量约 **650GB**(Gitea LFS 需评估)
|
||||
- [x] 实测规模分布(见 `docs/sources/oshwhub_corpus_estimate.md`):
|
||||
- median/proj 9 MB → 全量 **~110 GB**(合理预算)
|
||||
- p90 上界 **660 GB**
|
||||
- mp4+qt 视频占 54% → 加 `--skip-ext mp4,qt` 可省一半
|
||||
- [ ] 未解决:
|
||||
- `fs-web-stream.jlc.com` 工程源下载路径(未测)
|
||||
- `u.lceda.cn` EasyEDA 工程 JSON(需登录,v0.1 跳过)
|
||||
- 增量更新:`updated_at` 变动检测 + LFS prune 策略
|
||||
|
||||
### 1.5 纳入第三方预处理数据集 `bshada/open-schematics`
|
||||
|
||||
**性质**:Hugging Face 已发布的 KiCad schematics 数据集(非待爬网站),镜像导入即可。
|
||||
|
||||
**目标**:补 KiCad 原生生态,与 oshwhub (EasyEDA) 互补。
|
||||
|
||||
- [x] 调研(见 `docs/sources/hf_bshada_open_schematics.md`)
|
||||
- [ ] **待 Charles 拍板** 6.4 GB LFS 预算
|
||||
- [ ] 目录:`data/external/huggingface/bshada--open-schematics/`
|
||||
- 整包镜像,**不**拆成 per-project 目录(10K+ 条记录)
|
||||
- 78 parquet shards + README + 封面 + 追加 `ATTRIBUTION.md`
|
||||
- [ ] `.gitattributes`:`data/external/**/*.{parquet,png}` 走 LFS
|
||||
- [ ] 下载:`huggingface-cli download bshada/open-schematics --repo-type dataset --local-dir data/external/huggingface/bshada--open-schematics`
|
||||
- [ ] 单独维护 `datasets.md`(per-project 索引 `projects.md` 不适合整包数据集)
|
||||
|
||||
---
|
||||
|
||||
## Phase 2 — GitHub 开源硬件 repo
|
||||
|
||||
Reference in New Issue
Block a user