Rewrite oshwhub.md as canonical data source investigation
Why:
- Charles 要求把 12493 总数验证 + 90 项目采样结果合进主调研文档,消除
oshwhub_corpus_estimate.md 与 oshwhub.md 的重复与分散。
- 一份高质量的数据源调查应该独立完备:任何人(人或 agent)读完就能
复现爬取 / 估算 / 合规判断,不用跨文件拼凑。
What:
- docs/sources/oshwhub.md 重写为 9 节 + 附录:
- TL;DR 表(一页纸核心事实)
- 站点架构 / robots / API 入口 / 项目详情 SSR / 附件 CDN
- 排除项:fs-web-stream.jlc.com 推广图标 / u.lceda.cn 登录源
- §4 项目总数验证(新):三路 sort 一致 12493 + 分页二分边界 ≈250 页 + grade 覆盖抽样
- §5 抽样语料特征(从 corpus_estimate 并入):体积 median 9MB/p90 54MB、
视频占 54%、license 分布 GPL 3.0 49%/Public Domain 21%
- 风险表 7 条、附录重跑命令
- 删除 docs/sources/oshwhub_corpus_estimate.md(内容已并入 §5)
- log.md: 本次记录
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
24
log.md
24
log.md
@@ -4,6 +4,30 @@
|
||||
|
||||
---
|
||||
|
||||
## 2026-04-23 19:55 oshwhub.md 重写成完整调研文档
|
||||
|
||||
**Claude 会话**
|
||||
|
||||
Charles 要求把 12 493 总数验证、90 项目采样结果合进主调研文档。
|
||||
|
||||
`docs/sources/oshwhub.md` 重写为 9 节 + 2 附录的完整调研:
|
||||
|
||||
1. 一页纸 TL;DR 表
|
||||
2. 站点架构
|
||||
3. robots.txt 与合规
|
||||
4. API 与抓取入口(列表 / SSR 详情 / 附件 CDN / 排除项 / 未开放端点)
|
||||
5. **项目总数验证(新)**:三路 sort 一致 + 分页二分搜索(250 × 50 = 12 500 吻合)+ grade 覆盖抽样
|
||||
6. **抽样语料特征(从 oshwhub_corpus_estimate.md 并入)**:体积 / 文件类型 / license 分布
|
||||
7. Schema 映射
|
||||
8. 速率与礼貌
|
||||
9. 目录输出约定
|
||||
10. 风险与未解决(7 条)
|
||||
11. 附录:重跑命令、变更历史
|
||||
|
||||
删除重复文件 `oshwhub_corpus_estimate.md`(内容已并入 §5)。
|
||||
|
||||
---
|
||||
|
||||
## 2026-04-23 19:50 加入 HF bshada/open-schematics 计划
|
||||
|
||||
**Claude 会话**
|
||||
|
||||
Reference in New Issue
Block a user