From b0d3afd2a96551551e0e19e8fb1343939e3f2423 Mon Sep 17 00:00:00 2001
From: Knowit <charles2023@qq.com>
Date: Sun, 26 Apr 2026 11:54:01 +0800
Subject: [PATCH] update readme

---
 CLAUDE.md | 10 +++++-----
 README.md |  5 ++---
 2 files changed, 7 insertions(+), 8 deletions(-)
diff --git a/CLAUDE.md b/CLAUDE.md
index de0f053..1268f20 100644
--- a/CLAUDE.md
+++ b/CLAUDE.md
@@ -3,7 +3,7 @@
 项目级 Claude Code 指令。与 `~/.claude/CLAUDE.md` 全局指令合并使用，本文件覆盖冲突项。
 
 ## 项目性质
-
+产出用于研究用途，不会再分发
 数据集仓库。产出代码 + 元数据 + （通过 LFS 或外链引用的）原始资产。不要把几百 MB 的 Gerber / STEP 直接塞进 git。
 
 ## 核心工作流
@@ -27,7 +27,7 @@
 - **robots.txt**：每个爬虫 **必须** 先查 `robots.txt`；命中 Disallow 的路径直接跳过，不要"绕过"。
 - **登录态**：登录后才能访问的内容**在本项目范围内**。使用前提：
   - 账号必须是我们合法持有的（本人 / 授权的），**禁止**盗号、共享号、撞库号
-  - 依然不绕付费墙、不破 DRM、不抓对方显式标注"禁止训练 / 禁止抓取"的内容
+  - 依然不绕付费墙
   - 登录凭据集中管理在云服务器的 `~/.secrets/`（见 `docs/infra.md`），**禁止**写进 git / 环境变量明文、日志
   - cookie / session 变更时写短笔记到 `docs/secrets.md`（不含值，只含"YYYY-MM-DD 换号 / 重登 oshwhub"这类事件）
 - **失败重试**：指数退避 + jitter；连续 5xx / 429 超过阈值要停爬、提醒人介入，不要傻重试。
@@ -39,11 +39,11 @@
 `source`, `source_url`, `project_id`, `title`, `description`, `author`, `license`, `created_at`, `updated_at`, `crawled_at`, `tags`, `files[]`（每个文件 `type` / `path` / `size` / `sha256`）。
 
 ## 合规红线
-
+- 产出用于研究用途，不会公开，不会再分发
 - **登录后的内容在范围内**（须合法账号，见上文"登录态"）；但**禁止**盗号、共享号、撞库号。
-- 不绕过付费墙、不破解 DRM。
+- 不绕过付费墙。
 - 遇到站点明确声明"禁止抓取 / 禁止训练"的内容（robots.txt、ToS、meta 标签），跳过并记录到 `data/state/<site>_excluded.jsonl`。
-- 每条记录**必须**保留 `license` 字段；无法判定的标 `license: "unknown"` 并在下游过滤时默认剔除。
+- 每条记录**必须**保留 `license` 字段；无法判定的标 `license: "unknown"`。
 - 登录凭据管理：只存云服务器 `~/.secrets/`，不入 git、不入日志、不入 metadata.json。
 
 ## 约定（项目内部）
diff --git a/README.md b/README.md
index 8011675..f0c3063 100644
--- a/README.md
+++ b/README.md
@@ -42,11 +42,10 @@ FacereDataset/
 ```
 
 ## 合法与伦理
-
+- 产出结果用于研究，不公开，不再分发
 - 只抓取**公开可访问**、标注为开源或明确允许再分发的内容。
-- 遵守目标站点的 `robots.txt` 与 ToS；登录才能访问的内容不在本项目范围内。
 - 每条记录保留 `source_url`、`author`、`license`、`crawled_at` 作溯源。
-- 商业使用前按许可证逐条核对（CC-BY 要求署名，CC-BY-SA 要求同许可分享，等）。
+- 后续按许可证逐条核对清洗（CC-BY 要求署名，CC-BY-SA 要求同许可分享，等）。
 
 ## 快速开始