update readme

This commit is contained in:
2026-04-26 11:54:01 +08:00
parent a3942c03df
commit b0d3afd2a9
2 changed files with 7 additions and 8 deletions

View File

@@ -3,7 +3,7 @@
项目级 Claude Code 指令。与 `~/.claude/CLAUDE.md` 全局指令合并使用,本文件覆盖冲突项。
## 项目性质
产出用于研究用途,不会再分发
数据集仓库。产出代码 + 元数据 + (通过 LFS 或外链引用的)原始资产。不要把几百 MB 的 Gerber / STEP 直接塞进 git。
## 核心工作流
@@ -27,7 +27,7 @@
- **robots.txt**:每个爬虫 **必须** 先查 `robots.txt`;命中 Disallow 的路径直接跳过,不要"绕过"。
- **登录态**:登录后才能访问的内容**在本项目范围内**。使用前提:
- 账号必须是我们合法持有的(本人 / 授权的),**禁止**盗号、共享号、撞库号
- 依然不绕付费墙、不破 DRM、不抓对方显式标注"禁止训练 / 禁止抓取"的内容
- 依然不绕付费墙
- 登录凭据集中管理在云服务器的 `~/.secrets/`(见 `docs/infra.md`**禁止**写进 git / 环境变量明文、日志
- cookie / session 变更时写短笔记到 `docs/secrets.md`(不含值,只含"YYYY-MM-DD 换号 / 重登 oshwhub"这类事件)
- **失败重试**:指数退避 + jitter连续 5xx / 429 超过阈值要停爬、提醒人介入,不要傻重试。
@@ -39,11 +39,11 @@
`source`, `source_url`, `project_id`, `title`, `description`, `author`, `license`, `created_at`, `updated_at`, `crawled_at`, `tags`, `files[]`(每个文件 `type` / `path` / `size` / `sha256`)。
## 合规红线
- 产出用于研究用途,不会公开,不会再分发
- **登录后的内容在范围内**(须合法账号,见上文"登录态");但**禁止**盗号、共享号、撞库号。
- 不绕过付费墙、不破解 DRM
- 不绕过付费墙。
- 遇到站点明确声明"禁止抓取 / 禁止训练"的内容robots.txt、ToS、meta 标签),跳过并记录到 `data/state/<site>_excluded.jsonl`。
- 每条记录**必须**保留 `license` 字段;无法判定的标 `license: "unknown"` 并在下游过滤时默认剔除
- 每条记录**必须**保留 `license` 字段;无法判定的标 `license: "unknown"`。
- 登录凭据管理:只存云服务器 `~/.secrets/`,不入 git、不入日志、不入 metadata.json。
## 约定(项目内部)

View File

@@ -42,11 +42,10 @@ FacereDataset/
```
## 合法与伦理
- 产出结果用于研究,不公开,不再分发
- 只抓取**公开可访问**、标注为开源或明确允许再分发的内容。
- 遵守目标站点的 `robots.txt` 与 ToS登录才能访问的内容不在本项目范围内。
- 每条记录保留 `source_url``author``license``crawled_at` 作溯源。
- 商业使用前按许可证逐条核对CC-BY 要求署名CC-BY-SA 要求同许可分享,等)。
- 后续按许可证逐条核对清洗CC-BY 要求署名CC-BY-SA 要求同许可分享,等)。
## 快速开始