Zhang Jiahao
|
e222b08f27
|
Add corpus size/license estimator; snapshot 90-project findings
Why:
- 放量决策需要比"52MB/项目 × 12493 = 650GB"更扎实的数据。用
scripts/estimate_size.py 采样 90 个 hot 项目的 attachments[].size
得到真实分布(median 9MB / p90 54MB),全量 median 估算 110GB,
p90 上界 660GB。这给 Charles 一个可信的存储预算。
- 附带 license 和 ext 分布采出两个重要洞察:
(1) mp4+qt 视频占 54% 存储,加 --skip-ext 开关可节省一半;
(2) NC (Non-Commercial) 许可 ~11%,下游必须按 whitelist 过滤。
What:
- scripts/estimate_size.py: 无下载的元数据采样器,复用 crawler.parse_detail_html
- docs/sources/oshwhub_corpus_estimate.md: 结果快照 + 决策建议
- log.md: 本次会话记录
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
|
2026-04-23 19:45:54 +08:00 |
|