From b0d3afd2a96551551e0e19e8fb1343939e3f2423 Mon Sep 17 00:00:00 2001 From: Knowit Date: Sun, 26 Apr 2026 11:54:01 +0800 Subject: [PATCH] update readme --- CLAUDE.md | 10 +++++----- README.md | 5 ++--- 2 files changed, 7 insertions(+), 8 deletions(-) diff --git a/CLAUDE.md b/CLAUDE.md index de0f053..1268f20 100644 --- a/CLAUDE.md +++ b/CLAUDE.md @@ -3,7 +3,7 @@ 项目级 Claude Code 指令。与 `~/.claude/CLAUDE.md` 全局指令合并使用,本文件覆盖冲突项。 ## 项目性质 - +产出用于研究用途,不会再分发 数据集仓库。产出代码 + 元数据 + (通过 LFS 或外链引用的)原始资产。不要把几百 MB 的 Gerber / STEP 直接塞进 git。 ## 核心工作流 @@ -27,7 +27,7 @@ - **robots.txt**:每个爬虫 **必须** 先查 `robots.txt`;命中 Disallow 的路径直接跳过,不要"绕过"。 - **登录态**:登录后才能访问的内容**在本项目范围内**。使用前提: - 账号必须是我们合法持有的(本人 / 授权的),**禁止**盗号、共享号、撞库号 - - 依然不绕付费墙、不破 DRM、不抓对方显式标注"禁止训练 / 禁止抓取"的内容 + - 依然不绕付费墙 - 登录凭据集中管理在云服务器的 `~/.secrets/`(见 `docs/infra.md`),**禁止**写进 git / 环境变量明文、日志 - cookie / session 变更时写短笔记到 `docs/secrets.md`(不含值,只含"YYYY-MM-DD 换号 / 重登 oshwhub"这类事件) - **失败重试**:指数退避 + jitter;连续 5xx / 429 超过阈值要停爬、提醒人介入,不要傻重试。 @@ -39,11 +39,11 @@ `source`, `source_url`, `project_id`, `title`, `description`, `author`, `license`, `created_at`, `updated_at`, `crawled_at`, `tags`, `files[]`(每个文件 `type` / `path` / `size` / `sha256`)。 ## 合规红线 - +- 产出用于研究用途,不会公开,不会再分发 - **登录后的内容在范围内**(须合法账号,见上文"登录态");但**禁止**盗号、共享号、撞库号。 -- 不绕过付费墙、不破解 DRM。 +- 不绕过付费墙。 - 遇到站点明确声明"禁止抓取 / 禁止训练"的内容(robots.txt、ToS、meta 标签),跳过并记录到 `data/state/_excluded.jsonl`。 -- 每条记录**必须**保留 `license` 字段;无法判定的标 `license: "unknown"` 并在下游过滤时默认剔除。 +- 每条记录**必须**保留 `license` 字段;无法判定的标 `license: "unknown"`。 - 登录凭据管理:只存云服务器 `~/.secrets/`,不入 git、不入日志、不入 metadata.json。 ## 约定(项目内部) diff --git a/README.md b/README.md index 8011675..f0c3063 100644 --- a/README.md +++ b/README.md @@ -42,11 +42,10 @@ FacereDataset/ ``` ## 合法与伦理 - +- 产出结果用于研究,不公开,不再分发 - 只抓取**公开可访问**、标注为开源或明确允许再分发的内容。 -- 遵守目标站点的 `robots.txt` 与 ToS;登录才能访问的内容不在本项目范围内。 - 每条记录保留 `source_url`、`author`、`license`、`crawled_at` 作溯源。 -- 商业使用前按许可证逐条核对(CC-BY 要求署名,CC-BY-SA 要求同许可分享,等)。 +- 后续按许可证逐条核对清洗(CC-BY 要求署名,CC-BY-SA 要求同许可分享,等)。 ## 快速开始