Add HF bshada/open-schematics to Phase 1 plan
Why:
- Charles 点名把该 HF 数据集纳入第一批。它是已预处理包(非待爬网站),
和 oshwhub 的抓取逻辑不一样,先把决策面在 plan 里讲清楚,再动手拉。
- 与 oshwhub (EasyEDA 生态) 互补,补 KiCad 原生路径。
What:
- docs/sources/hf_bshada_open_schematics.md: 调研文档
- 78 parquet shards, 6.4 GB 总量
- CC-BY-4.0 商用友好
- 字段:.kicad_sch 源 / PNG / 组件列表 / JSON / YAML / name / desc
- 镜像方案(整包存 data/external/..., 不拆 per-project)
- .gitattributes 建议(data/external/**/*.{parquet,png} → LFS)
- plan.md §1.5: 阶段说明 + 待 Charles 批 6.4 GB 预算
- README.md 数据源表: 加一行
- log.md: 本次记录
下载未触发,等 Charles 拍板。
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
26
log.md
26
log.md
@@ -4,6 +4,32 @@
|
||||
|
||||
---
|
||||
|
||||
## 2026-04-23 19:50 加入 HF bshada/open-schematics 计划
|
||||
|
||||
**Claude 会话**
|
||||
|
||||
Charles 点名把 https://huggingface.co/datasets/bshada/open-schematics 纳入第一批。
|
||||
|
||||
调研结论:
|
||||
- 这是**已预处理**的 HF 数据集,非待爬网站
|
||||
- 78 parquet shards **6.4 GB**;CC-BY-4.0(商用友好)
|
||||
- 10K+ 条记录,每条含 `.kicad_sch` 源 / PNG / 组件列表 / JSON / YAML / name / description
|
||||
- 与 oshwhub (EasyEDA) 互补,补 KiCad 生态
|
||||
|
||||
决定:
|
||||
- **整包镜像**到 `data/external/huggingface/bshada--open-schematics/`,**不**拆 per-project 目录
|
||||
- 用 `huggingface-cli download ... --repo-type dataset` 拉;parquet 走 LFS
|
||||
- 维护单独的 `datasets.md`,不与 per-project 的 `projects.md` 混
|
||||
|
||||
改动:
|
||||
- 新增 `docs/sources/hf_bshada_open_schematics.md` 完整调研
|
||||
- `plan.md` 加 Phase 1.5
|
||||
- `README.md` 数据源表加一行
|
||||
|
||||
**未下载**,等 Charles 拍板 6.4 GB LFS 预算。
|
||||
|
||||
---
|
||||
|
||||
## 2026-04-23 19:30 Phase 1 MVP:10 个高质量 oshwhub 项目入库
|
||||
|
||||
**Claude 会话**:承接仓库初始化
|
||||
|
||||
Reference in New Issue
Block a user