当前位置：首页>学习笔记>养虾2周学习笔记

养虾2周学习笔记

跟风养了2周小龙虾，初心是多源收集资料和给烂记性的自己制作一个外延大脑。最后发现翻墙、链接数据源困难重重，但涨了不少IT、AI类知识，总结一下。希望未来帮助自己和他人构建一套既懂应用、又明原理的数字生存体系。

普通人视角：
我们常觉得记不住东西，是因为人类的大脑擅长思考，不擅长存储。核心原则是：“脑海中的笔记（Mental notes）不持久，文件才持久。”

技术深潜（术语详解）：
这在计算机科学中被称为“外部化记忆系统”。

状态持久化 (Persistence)
：计算机程序（AI）在运行时被称为“进程”，一旦关闭，其内部的临时数据（RAM中的数据）就会丢失。将数据写入硬盘文件（如 Markdown、.env、JSON），就是将“易失性数据”转化为“非易失性数据”的过程。
应用场景
：无论是复杂的代码配置，还是日常的灵感，一旦产生，立刻写入文件（如 MEMORY.md），这就是在为 AI 建立一个**“长期上下文（Context Window）”**，让它每次重启都能“满血复活”。

1. 容器技术（Docker/OCI）：自带说明书的集装箱

容器镜像 (Container Image)
：一种高度集成的软件交付格式。它遵循 OCI（开放容器计划）标准，将应用程序代码、运行时环境（如 Python）、系统依赖库（如 libc）和配置文件打包成一个不可变的文件。
不可变基础设施 (Immutable Infrastructure)
：镜像一旦构建完成，内容就不会改变。每次更新都是生成一个新的镜像，而不是修改旧的，这极大保证了系统的稳定性。
Docker 镜像加速器
由于 Docker Hub 的服务器在境外，国内访问极慢。通过配置 daemon.json，将官方请求重定向到国内的镜像站点（如阿里云 ACR 的镜像服务），利用“CDN（内容分发网络）”原理，极大提升下载速度。

2. 信息管道（RSS）：去中心化的信息流

RSS (Really Simple Syndication)
：一种基于 XML（可扩展标记语言）的标准化数据格式。它允许网站以固定的 URL（如 feed.xml）发布更新，任何符合 RSS 标准的阅读器都能解析并展示。
RSSHub
：这是一个开源项目，它充当了**“适配器（Adapter）”的角色。许多网站（如社交媒体）并不直接提供 RSS 订阅，RSSHub 通过编写特定的“路由（Routes）”**（代码逻辑），模拟访问网页并提取数据，将其转化为标准的 RSS XML 格式，从而打通了信息孤岛。

这套系统的核心在于**“鲁棒性（Robustness）”**，即系统在异常和不确定环境下仍能保持稳定工作的能力。

层级	策略名称	技术原理 (Mechanism)	适用场景与优劣
L1	结构化接口 (AkShare)	API (应用程序编程接口) 直接与服务器进行数据交互，获取结构化的 JSON/CSV 数据。	首选方案速度快、数据干净。劣势：依赖第三方库的版本兼容性，一旦接口变更，代码需要重写。
L2	元搜索引擎 (SearXNG)	聚合搜索 (Aggregation) 不依赖单一搜索引擎，而是同时向 Google、Bing 等多个引擎发送请求，汇总结果。	隐私优先无需账号，无广告。劣势：`site:` 等高级语法可能失效，结果受搜索引擎算法影响。
L3	网页抓取 (Web Fetch)	HTTP 请求 + HTML 解析直接发送 HTTP 请求获取网页源代码（HTML），通过正则表达式或解析库提取文本。	轻量级速度快。劣势：极易被目标网站的反爬虫机制（Anti-bot）拦截（如 IP 封禁）。
L4	真实浏览器 (Browser)	无头浏览器 (Headless Browser) 启动一个真实的 Chrome/Firefox 浏览器实例（无界面），模拟真人操作（渲染 JavaScript）。	最终保障能处理复杂的动态网页（如需要登录、滑块验证的页面）。劣势：消耗资源大，速度慢。

1. API-KEY 误删事件

API Key (应用程序编程接口密钥)
：相当于数字世界的“身份证+钥匙”。它用于身份验证（Authentication），证明调用者有权使用某项服务。
安全原则
：“密钥与代码分离”。环境变量（Environment Variables）存储在 .env 文件中，是为了防止密钥被意外上传到代码仓库（如 GitHub），造成泄露。
教训
：密钥属于**“不可再生的一次性凭证”**，一旦丢失且无法找回（为了安全），必须重新生成。因此，必须对 .env 文件进行独立备份或版本控制（Git），并使用 nano 或 vim 等安全编辑器操作，避免误删。

养虾2周 学习笔记