Remove personal name from suggestion/decision phrasing
Why: - "给 Charles 的建议"、"待 Charles 拍板"、"需要 Charles 决策" 这些写法 把具体人绑到了文档里,换维护者就失准。改成中性的 "建议 / 待决策 / 待拍板",文档对未来协作者和 agent 都更通用。 What: - log.md: 四处去掉 "给 Charles / 还是需要 Charles 决策 / 等 Charles 拍板" - plan.md: 三处去掉 "待 Charles / Charles 定目标 / 需要 Charles 定" - docs/sources/hf_bshada_open_schematics.md: "待 Charles 决策" → "待决策" - scripts/estimate_size.py: docstring 去掉 "给 Charles 一个估计" - CLAUDE.md: 数据删除确认规则从 "先跟 Charles 确认" 改成 "先跟用户确认" 保留的 Charles 提及都是事实性的: - README/plan 里的 "维护者:Charles"(身份字段) - log.md 历史条目里 "Charles 要求..." / "Charles 点名..."(历史事件记录) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
10
log.md
10
log.md
@@ -50,7 +50,7 @@ Charles 点名把 https://huggingface.co/datasets/bshada/open-schematics 纳入
|
||||
- `plan.md` 加 Phase 1.5
|
||||
- `README.md` 数据源表加一行
|
||||
|
||||
**未下载**,等 Charles 拍板 6.4 GB LFS 预算。
|
||||
**未下载**,等拍板 6.4 GB LFS 预算。
|
||||
|
||||
---
|
||||
|
||||
@@ -102,7 +102,7 @@ Charles 点名把 https://huggingface.co/datasets/bshada/open-schematics 纳入
|
||||
- 新增:`crawlers/oshwhub/{__init__,__main__,crawler}.py`、`schemas/project.schema.json`、`docs/sources/oshwhub.md`、`pyproject.toml`
|
||||
- 修改:`.gitattributes`(缩窄到 `data/raw/**/files/**`)、`.gitignore`(移除 `data/raw/*` 排除)
|
||||
|
||||
### 下一步建议给 Charles
|
||||
### 下一步建议
|
||||
|
||||
1. 验收 10 个项目元数据质量(随机抽 2-3 条对照原站)
|
||||
2. 决定 Phase 1.4 放量目标(50?500?全量 12493?)
|
||||
@@ -131,7 +131,7 @@ jsonschema 做两层校验:
|
||||
- `scripts/validate.py`
|
||||
- `pyproject.toml` 加 `jsonschema>=4.26`
|
||||
|
||||
### 还是需要 Charles 决策
|
||||
### 待决策
|
||||
|
||||
- 放量规模 —— 已提供实测数据:**median ≈ 110 GB,p90 上界 ≈ 660 GB,建议预算 150–180 GB**(见 `docs/sources/oshwhub_corpus_estimate.md`)
|
||||
- 是否需要抓 `u.lceda.cn` 的 EasyEDA 源 JSON(需登录,v0.1 跳过)
|
||||
@@ -152,7 +152,7 @@ jsonschema 做两层校验:
|
||||
|
||||
结果固化到 `docs/sources/oshwhub_corpus_estimate.md`,可随时重跑验证。
|
||||
|
||||
### 给 Charles 的建议
|
||||
### 建议
|
||||
|
||||
1. 存储预算定 **180 GB**(median + 15% buffer)
|
||||
2. Phase 1.4 前给 crawler 加 `--skip-ext` 开关滤视频
|
||||
@@ -183,7 +183,7 @@ jsonschema 做两层校验:
|
||||
- 每个空目录放 `.gitkeep`
|
||||
- 首次提交 & 推送到 `origin main`
|
||||
|
||||
**下一步建议给 Charles**:
|
||||
**下一步建议**:
|
||||
1. 拍板存储方案(本地盘 / Gitea LFS / 外部 OSS)—— 影响 Phase 1.4 放量时机
|
||||
2. 目标规模(1 万 / 10 万 / 全量)
|
||||
3. 决定是否保留二进制附件或只存 URL
|
||||
|
||||
Reference in New Issue
Block a user