Files
FacereDataset/README.md
Zhang Jiahao bf2370f83b Initial skeleton for FacereDataset
Why:
- Facere 需要一个统一的开源硬件设计数据源,用于训练专有模型与
  构建检索型知识库。仓库先立骨架,把合规红线、数据 schema 要求、
  爬虫规约写在 CLAUDE.md 里,避免后续实现时各站点爬虫写法发散。
- plan.md 用阶段化路线图明确"先广度后深度、先合规后规模"的策略,
  让放量前必须经过 Charles 对齐一次,降低存储与法律风险。

Contents:
- README.md: 项目简介、数据源表、仓库结构、合规声明
- CLAUDE.md: 项目级 Claude 指令(工作流 / 爬虫规约 / 合规红线)
- plan.md: Phase 0-6 分阶段计划 + 风险与未决项
- log.md: 首条日志(调研 + 初始化记录)
- .gitignore: 排除 data/{raw,processed,state} 内容,保留目录占位
- 目录骨架: crawlers/ schemas/ scripts/ data/ docs/sources/

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-23 18:58:10 +08:00

69 lines
2.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# FacereDataset
**Facere** 专有模型训练与硬件设计知识库提供数据支撑的开源硬件设计数据集。
## 目标
采集、清洗、结构化互联网公开可用的硬件设计资产原理图、PCB、BOM、Gerber、3D 模型、固件、文档),输出:
1. **训练数据集**:可直接喂给 LLM / 多模态模型做预训练、SFT、RAG 的结构化语料。
2. **检索型知识库**:按元器件、拓扑、应用领域可查的设计参考库。
3. **派生产物**元件封装库、常见子电路模板、BOM 成本曲线等。
## 数据来源(第一批)
| 站点 | URL | 覆盖 | 许可 | 抓取复杂度 |
|------|-----|------|------|-----------|
| 立创开源平台 | oshwhub.com | 国内 PCB/EDA 设计 ~百万量级 | 多为 CC-BY-SA / 作者自定 | 中SPA需 API 逆向) |
| 嘉立创 EDA 样例 | lceda.cn/example | 官方示例 | 开放 | 低 |
| Hackaday.io | hackaday.io | 项目叙事 + 文件 | 作者自定 | 中 |
| GitHub | github.com | KiCad/EasyEDA repo | 各 repo 自定 | 低gh API |
| CERN OHR | ohwr.org | 高质量工业级 | CERN-OHL | 低 |
| Wikifactory | wikifactory.com | 社区项目 | 作者自定 | 中 |
详细爬取计划见 [`plan.md`](./plan.md)。
## 仓库结构
```
FacereDataset/
├── README.md 项目简介(本文件)
├── CLAUDE.md Claude Code 项目级指令
├── plan.md 分阶段爬取与处理计划
├── log.md 执行日志(时间倒序)
├── crawlers/ 各站点爬虫(一站一子包)
├── schemas/ 统一数据 schemaproject.schema.json
├── scripts/ 去重、格式转换、完整性校验工具
├── data/ 数据产出raw/ processed/,大文件走 LFS 或外部存储)
└── docs/ 设计笔记、法律合规、数据字典
```
## 合法与伦理
- 只抓取**公开可访问**、标注为开源或明确允许再分发的内容。
- 遵守目标站点的 `robots.txt` 与 ToS登录才能访问的内容不在本项目范围内。
- 每条记录保留 `source_url``author``license``crawled_at` 作溯源。
- 商业使用前按许可证逐条核对CC-BY 要求署名CC-BY-SA 要求同许可分享,等)。
## 快速开始
```bash
# 克隆
git clone https://git.deepknow.site/Facere/FacereDataset.git
cd FacereDataset
# 安装Python 3.11+uv
uv sync
# 运行某个爬虫
uv run python -m crawlers.oshwhub --limit 10
```
> 当前处于骨架初始化阶段,爬虫尚未实现。见 `plan.md` Phase 1。
## 维护
- 主要维护者Charles`git.deepknow.site/Knowit`
- 远端:`git.deepknow.site/Facere/FacereDataset`
- 问题追踪Gitea Issues