Why:
- Facere 需要一个统一的开源硬件设计数据源,用于训练专有模型与
构建检索型知识库。仓库先立骨架,把合规红线、数据 schema 要求、
爬虫规约写在 CLAUDE.md 里,避免后续实现时各站点爬虫写法发散。
- plan.md 用阶段化路线图明确"先广度后深度、先合规后规模"的策略,
让放量前必须经过 Charles 对齐一次,降低存储与法律风险。
Contents:
- README.md: 项目简介、数据源表、仓库结构、合规声明
- CLAUDE.md: 项目级 Claude 指令(工作流 / 爬虫规约 / 合规红线)
- plan.md: Phase 0-6 分阶段计划 + 风险与未决项
- log.md: 首条日志(调研 + 初始化记录)
- .gitignore: 排除 data/{raw,processed,state} 内容,保留目录占位
- 目录骨架: crawlers/ schemas/ scripts/ data/ docs/sources/
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
40 lines
515 B
Plaintext
40 lines
515 B
Plaintext
# Data outputs (大文件不入库,走 LFS 或外部存储)
|
|
# 忽略目录内容,保留目录本身(靠 .gitkeep 占位)
|
|
data/raw/*
|
|
data/processed/*
|
|
data/state/*
|
|
!data/raw/.gitkeep
|
|
!data/processed/.gitkeep
|
|
!data/state/.gitkeep
|
|
|
|
# Python
|
|
__pycache__/
|
|
*.py[cod]
|
|
*.egg-info/
|
|
.pytest_cache/
|
|
.ruff_cache/
|
|
.mypy_cache/
|
|
.venv/
|
|
venv/
|
|
.env
|
|
.env.*
|
|
!.env.example
|
|
|
|
# uv
|
|
uv.lock
|
|
|
|
# Node (if we add JS helpers)
|
|
node_modules/
|
|
|
|
# Editor / OS
|
|
.vscode/
|
|
.idea/
|
|
.DS_Store
|
|
Thumbs.db
|
|
*.swp
|
|
|
|
# Local scratch
|
|
/tmp/
|
|
/scratch/
|
|
*.log
|