Remove personal name from suggestion/decision phrasing
Why: - "给 Charles 的建议"、"待 Charles 拍板"、"需要 Charles 决策" 这些写法 把具体人绑到了文档里,换维护者就失准。改成中性的 "建议 / 待决策 / 待拍板",文档对未来协作者和 agent 都更通用。 What: - log.md: 四处去掉 "给 Charles / 还是需要 Charles 决策 / 等 Charles 拍板" - plan.md: 三处去掉 "待 Charles / Charles 定目标 / 需要 Charles 定" - docs/sources/hf_bshada_open_schematics.md: "待 Charles 决策" → "待决策" - scripts/estimate_size.py: docstring 去掉 "给 Charles 一个估计" - CLAUDE.md: 数据删除确认规则从 "先跟 Charles 确认" 改成 "先跟用户确认" 保留的 Charles 提及都是事实性的: - README/plan 里的 "维护者:Charles"(身份字段) - log.md 历史条目里 "Charles 要求..." / "Charles 点名..."(历史事件记录) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
10
plan.md
10
plan.md
@@ -12,7 +12,7 @@
|
||||
|
||||
1. 每个数据源先做一份 "可行性调研"(一页纸,放 `docs/sources/<site>.md`),明确:访问形式、速率限制、许可证分布、ToS 摘要、数据字段覆盖。
|
||||
2. 每个站点实现一个最小 MVP 爬虫,**单项目跑通** → 然后才全量化。
|
||||
3. 全量化之前先跟 Charles 对齐抽样结果与存储开销。
|
||||
3. 全量化之前先对齐抽样结果与存储开销。
|
||||
4. 所有站点输出统一到 `schemas/project.schema.json` 定义的结构,不要让下游消费者去适配 N 种 schema。
|
||||
|
||||
---
|
||||
@@ -50,12 +50,12 @@
|
||||
### 1.3 验收 ⏳
|
||||
|
||||
- [x] 10/10 成功,产出符合 `schemas/project.schema.json`
|
||||
- [ ] **待 Charles**:随机抽查 2-3 条对照原站
|
||||
- [ ] **待人工**:随机抽查 2-3 条对照原站
|
||||
- [ ] `scripts/validate.py` 自动 schema 校验(未写,后续补)
|
||||
|
||||
### 1.4 放量(待决策)
|
||||
|
||||
- [ ] Charles 定目标规模:50 / 500 / 5000 / 全量 12493
|
||||
- [ ] 定目标规模:50 / 500 / 5000 / 全量 12493
|
||||
- [x] 实测规模分布(见 `docs/sources/oshwhub_corpus_estimate.md`):
|
||||
- median/proj 9 MB → 全量 **~110 GB**(合理预算)
|
||||
- p90 上界 **660 GB**
|
||||
@@ -71,7 +71,7 @@
|
||||
**目标**:补 KiCad 原生生态,与 oshwhub (EasyEDA) 互补。
|
||||
|
||||
- [x] 调研(见 `docs/sources/hf_bshada_open_schematics.md`)
|
||||
- [ ] **待 Charles 拍板** 6.4 GB LFS 预算
|
||||
- [ ] **待拍板** 6.4 GB LFS 预算
|
||||
- [ ] 目录:`data/external/huggingface/bshada--open-schematics/`
|
||||
- 整包镜像,**不**拆成 per-project 目录(10K+ 条记录)
|
||||
- 78 parquet shards + README + 封面 + 追加 `ATTRIBUTION.md`
|
||||
@@ -147,7 +147,7 @@
|
||||
| GitHub API rate limit | Phase 2 慢 | 使用已登录 `gh` token;必要时换 fine-grained PAT |
|
||||
| 站点改版 | 爬虫失效 | 爬虫带 schema 自检,HTML 结构变化时告警 |
|
||||
|
||||
**未决**(需要 Charles 定):
|
||||
**未决**:
|
||||
- 数据存储方案:本地盘(够吗?)、Gitea LFS、或外挂对象存储?
|
||||
- 是否要保留图片/Gerber/STEP 的二进制,还是只存 URL?
|
||||
- 目标规模:第一版想要 1 万 / 10 万 / 全量?
|
||||
|
||||
Reference in New Issue
Block a user