log: 飞控-77 batch summary

This commit is contained in:
2026-04-30 19:06:36 +08:00
parent 29530e09d2
commit 5aefd7c0a7

39
log.md
View File

@@ -4,6 +4,45 @@
--- ---
## 2026-04-30 19:10 飞控-77主题定向抓 77 块标准飞控板
**Claude 会话**
走完整 pipeline本地索引筛 → dev1 抓 → tar+scp 回 SG → push gitea。
### 候选筛选
- 数据源:`data/state/oshwhub_listing_full.jsonl`33,695 项)
- 过滤:`origin=std AND ('飞控' in name OR '飞控' in introduction)` → 79 hits
- 减去已抓的 2 项 → 77 个新候选
- 工具:临时脚本,候选 jsonl 落 dev1 `data/state/oshwhub_feikong_candidates.jsonl`(不入 git可重算
### 抓取dev1 Guangzhouconcurrency=5
- Step 1 详情扫 license: ~12s, 74/77 OK + 3 fail
- 3 fail 都是同一个 buglisting entry 的 `count` dict 缺 `like` 字段crawler 直接 `count["like"]` 抛 KeyError
- 修:`rank_score` / `pick_top` / metadata builder 全改 `count.get("like", 0)` 形式commit `29530e0`
- 重抓 3 项 → 全 OK
- Step 4 std-source backfill: ~80s, 73/77 拉到源工程文档4 项 upstream 就是 attachments-only没编辑器 session`source_documents=[]` 是真实状态)
### 传输tar+scp 而非 dev1 push gitea
- dev1 → SG 同样吃 6.5% 丢包 link单 TCP cwnd 压扁
- 33 MB tarball 走 scp ~3 min与之前 dev1 push gitea 同量级)
- 落 SG 后从 SG 直推 gitea同区低延迟秒级完成
- rebasedev1 端有人手动推了 74-项 commit (`c199840`),本地 77-项 superset rebase 上去conflicts 仅 projects.mdregen 一遍即解)
### 完成度
- 79/79 飞控 std 项目都有 metadata
- 73 项有完整 std 源工程
- 4 项是真实 attachments-onlyupstream API 返空)
- License 分布65% GPL 3.011% PD11% MIT~6% CC variants与 batch-50 同形态)
- corpus 由 65 项扩到 142 项(+77
### 下一步建议
- 跨区传输优化tencent-cloud COS 同 cloud 跨区复制走骨干网,比 scp 快几倍;下次大批量再装。或者 split + 并行 scp 也能拉 3-5x。
- 清理 stash 里那两份 .decrypted.txtpre-existing 调试残留)
- 可以再试一波 Pro 飞控93 hitsorigin=pro
---
## 2026-04-29 04:30 std/ writer 翻 Option 2raw objects dump + mapping doc ## 2026-04-29 04:30 std/ writer 翻 Option 2raw objects dump + mapping doc
**Claude 会话** **Claude 会话**