update readme
This commit is contained in:
10
CLAUDE.md
10
CLAUDE.md
@@ -3,7 +3,7 @@
|
||||
项目级 Claude Code 指令。与 `~/.claude/CLAUDE.md` 全局指令合并使用,本文件覆盖冲突项。
|
||||
|
||||
## 项目性质
|
||||
|
||||
产出用于研究用途,不会再分发
|
||||
数据集仓库。产出代码 + 元数据 + (通过 LFS 或外链引用的)原始资产。不要把几百 MB 的 Gerber / STEP 直接塞进 git。
|
||||
|
||||
## 核心工作流
|
||||
@@ -27,7 +27,7 @@
|
||||
- **robots.txt**:每个爬虫 **必须** 先查 `robots.txt`;命中 Disallow 的路径直接跳过,不要"绕过"。
|
||||
- **登录态**:登录后才能访问的内容**在本项目范围内**。使用前提:
|
||||
- 账号必须是我们合法持有的(本人 / 授权的),**禁止**盗号、共享号、撞库号
|
||||
- 依然不绕付费墙、不破 DRM、不抓对方显式标注"禁止训练 / 禁止抓取"的内容
|
||||
- 依然不绕付费墙
|
||||
- 登录凭据集中管理在云服务器的 `~/.secrets/`(见 `docs/infra.md`),**禁止**写进 git / 环境变量明文、日志
|
||||
- cookie / session 变更时写短笔记到 `docs/secrets.md`(不含值,只含"YYYY-MM-DD 换号 / 重登 oshwhub"这类事件)
|
||||
- **失败重试**:指数退避 + jitter;连续 5xx / 429 超过阈值要停爬、提醒人介入,不要傻重试。
|
||||
@@ -39,11 +39,11 @@
|
||||
`source`, `source_url`, `project_id`, `title`, `description`, `author`, `license`, `created_at`, `updated_at`, `crawled_at`, `tags`, `files[]`(每个文件 `type` / `path` / `size` / `sha256`)。
|
||||
|
||||
## 合规红线
|
||||
|
||||
- 产出用于研究用途,不会公开,不会再分发
|
||||
- **登录后的内容在范围内**(须合法账号,见上文"登录态");但**禁止**盗号、共享号、撞库号。
|
||||
- 不绕过付费墙、不破解 DRM。
|
||||
- 不绕过付费墙。
|
||||
- 遇到站点明确声明"禁止抓取 / 禁止训练"的内容(robots.txt、ToS、meta 标签),跳过并记录到 `data/state/<site>_excluded.jsonl`。
|
||||
- 每条记录**必须**保留 `license` 字段;无法判定的标 `license: "unknown"` 并在下游过滤时默认剔除。
|
||||
- 每条记录**必须**保留 `license` 字段;无法判定的标 `license: "unknown"`。
|
||||
- 登录凭据管理:只存云服务器 `~/.secrets/`,不入 git、不入日志、不入 metadata.json。
|
||||
|
||||
## 约定(项目内部)
|
||||
|
||||
@@ -42,11 +42,10 @@ FacereDataset/
|
||||
```
|
||||
|
||||
## 合法与伦理
|
||||
|
||||
- 产出结果用于研究,不公开,不再分发
|
||||
- 只抓取**公开可访问**、标注为开源或明确允许再分发的内容。
|
||||
- 遵守目标站点的 `robots.txt` 与 ToS;登录才能访问的内容不在本项目范围内。
|
||||
- 每条记录保留 `source_url`、`author`、`license`、`crawled_at` 作溯源。
|
||||
- 商业使用前按许可证逐条核对(CC-BY 要求署名,CC-BY-SA 要求同许可分享,等)。
|
||||
- 后续按许可证逐条核对清洗(CC-BY 要求署名,CC-BY-SA 要求同许可分享,等)。
|
||||
|
||||
## 快速开始
|
||||
|
||||
|
||||
Reference in New Issue
Block a user