Files
FacereDataset/README.md
Zhang Jiahao ce22717288 Add projects.md index (stars-sorted) + build_index.py generator
Why:
- Charles 要一个索引页看入库项目 + 他们的 stars。手工维护会漂移,
  所以 scripts/build_index.py 直接读 metadata.json 重新生成,保证
  projects.md 永远是 data/raw/ 的镜像。

What:
- projects.md: 10 个项目按 Stars 倒序(最高 3293 的加热台量产计划
  → 最低 236 的柚子爱 AI 相机),含 stars/likes/forks/views/comments/
  files/size,+ License 与数据源分布
- scripts/build_index.py: 扫 metadata.json 渲染 markdown,支持未来
  多数据源(source 字段区分),下次新增 oshwhub / github / hackaday
  项目后重跑即可
- README.md: 加 projects.md 链接

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-23 19:48:21 +08:00

69 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# FacereDataset
**Facere** 专有模型训练与硬件设计知识库提供数据支撑的开源硬件设计数据集。
## 目标
采集、清洗、结构化互联网公开可用的硬件设计资产原理图、PCB、BOM、Gerber、3D 模型、固件、文档),输出:
1. **训练数据集**:可直接喂给 LLM / 多模态模型做预训练、SFT、RAG 的结构化语料。
2. **检索型知识库**:按元器件、拓扑、应用领域可查的设计参考库。
3. **派生产物**元件封装库、常见子电路模板、BOM 成本曲线等。
## 数据来源(第一批)
| 站点 | URL | 覆盖 | 许可 | 抓取复杂度 |
|------|-----|------|------|-----------|
| 立创开源平台 | oshwhub.com | 国内 PCB/EDA 设计 ~百万量级 | 多为 CC-BY-SA / 作者自定 | 中SPA需 API 逆向) |
| 嘉立创 EDA 样例 | lceda.cn/example | 官方示例 | 开放 | 低 |
| Hackaday.io | hackaday.io | 项目叙事 + 文件 | 作者自定 | 中 |
| GitHub | github.com | KiCad/EasyEDA repo | 各 repo 自定 | 低gh API |
| CERN OHR | ohwr.org | 高质量工业级 | CERN-OHL | 低 |
| Wikifactory | wikifactory.com | 社区项目 | 作者自定 | 中 |
详细爬取计划见 [`plan.md`](./plan.md);当前已入库项目清单见 [`projects.md`](./projects.md)。
## 仓库结构
```
FacereDataset/
├── README.md 项目简介(本文件)
├── CLAUDE.md Claude Code 项目级指令
├── plan.md 分阶段爬取与处理计划
├── log.md 执行日志(时间倒序)
├── crawlers/ 各站点爬虫(一站一子包)
├── schemas/ 统一数据 schemaproject.schema.json
├── scripts/ 去重、格式转换、完整性校验工具
├── data/ 数据产出raw/ processed/,大文件走 LFS 或外部存储)
└── docs/ 设计笔记、法律合规、数据字典
```
## 合法与伦理
- 只抓取**公开可访问**、标注为开源或明确允许再分发的内容。
- 遵守目标站点的 `robots.txt` 与 ToS登录才能访问的内容不在本项目范围内。
- 每条记录保留 `source_url``author``license``crawled_at` 作溯源。
- 商业使用前按许可证逐条核对CC-BY 要求署名CC-BY-SA 要求同许可分享,等)。
## 快速开始
```bash
# 克隆
git clone https://git.deepknow.site/Facere/FacereDataset.git
cd FacereDataset
# 安装Python 3.11+uv
uv sync
# 运行某个爬虫
uv run python -m crawlers.oshwhub --limit 10
```
> 当前处于骨架初始化阶段,爬虫尚未实现。见 `plan.md` Phase 1。
## 维护
- 主要维护者Charles`git.deepknow.site/Knowit`
- 远端:`git.deepknow.site/Facere/FacereDataset`
- 问题追踪Gitea Issues