Files

Zhang Jiahao bf2370f83b Initial skeleton for FacereDataset

Why:
- Facere 需要一个统一的开源硬件设计数据源，用于训练专有模型与
  构建检索型知识库。仓库先立骨架，把合规红线、数据 schema 要求、
  爬虫规约写在 CLAUDE.md 里，避免后续实现时各站点爬虫写法发散。
- plan.md 用阶段化路线图明确"先广度后深度、先合规后规模"的策略，
  让放量前必须经过 Charles 对齐一次，降低存储与法律风险。

Contents:
- README.md: 项目简介、数据源表、仓库结构、合规声明
- CLAUDE.md: 项目级 Claude 指令（工作流 / 爬虫规约 / 合规红线）
- plan.md: Phase 0-6 分阶段计划 + 风险与未决项
- log.md: 首条日志（调研 + 初始化记录）
- .gitignore: 排除 data/{raw,processed,state} 内容，保留目录占位
- 目录骨架: crawlers/ schemas/ scripts/ data/ docs/sources/

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-23 18:58:10 +08:00

1.7 KiB

Raw Blame History

FacereDataset 执行日志

时间倒序，最新在顶部。

2026-04-23 18:50 仓库初始化 & 数据源调研

Claude 会话：初始化

完成：

从 git.deepknow.site/Facere/FacereDataset 克隆空仓到 ~/repo/FacereDataset
调研立创开源平台（oshwhub.com）初步数据：
- robots.txt 仅 Disallow /posts，其他路径允许
- 存在 sitemap.xml（首页 + explore + activities + market 等入口已列出）
- 项目详情页路径为 /detail/<uuid>（示例 f0652fd2ae3e40b8a0ecc8dc773e3512）
- 图片 CDN：image.lceda.cn/oshwhub/pullImage/...
- 文件下载：fs-web-stream.jlc.com/fs-web-stream/file-operation/download/<snowflake-id>
- 页面是 Next.js SPA，首屏 HTML 800KB，但数据加载具体 API 入口需要浏览器 trace（留给 Phase 1.1）
创建项目骨架：
- README.md — 项目简介与数据源表
- CLAUDE.md — 项目级 Claude 指令（爬虫规约、合规红线、schema 要求）
- plan.md — 6 阶段建设计划（Phase 0 骨架 → Phase 5 数据清洗 → Phase 6 持续运营）
- log.md — 本文件
- .gitignore — 排除 data/raw data/processed data/state Python 缓存等
- 目录骨架 crawlers/ schemas/ scripts/ data/{raw,processed,state} docs/{sources,}
- 每个空目录放 .gitkeep
首次提交 & 推送到 origin main

下一步建议给 Charles：

拍板存储方案（本地盘 / Gitea LFS / 外部 OSS）—— 影响 Phase 1.4 放量时机
目标规模（1 万 / 10 万 / 全量）
决定是否保留二进制附件或只存 URL
完成上述 3 项后启动 Phase 1.1（用 chrome-devtools MCP 录 oshwhub 的 network trace 定位真实 API）

1.7 KiB Raw Blame History Unescape Escape

FacereDataset 执行日志

2026-04-23 18:50 仓库初始化 & 数据源调研

1.7 KiB

Raw Blame History