Why: - 放量决策需要比"52MB/项目 × 12493 = 650GB"更扎实的数据。用 scripts/estimate_size.py 采样 90 个 hot 项目的 attachments[].size 得到真实分布(median 9MB / p90 54MB),全量 median 估算 110GB, p90 上界 660GB。这给 Charles 一个可信的存储预算。 - 附带 license 和 ext 分布采出两个重要洞察: (1) mp4+qt 视频占 54% 存储,加 --skip-ext 开关可节省一半; (2) NC (Non-Commercial) 许可 ~11%,下游必须按 whitelist 过滤。 What: - scripts/estimate_size.py: 无下载的元数据采样器,复用 crawler.parse_detail_html - docs/sources/oshwhub_corpus_estimate.md: 结果快照 + 决策建议 - log.md: 本次会话记录 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
4.2 KiB
4.2 KiB