跟风养了2周小龙虾,初心是多源收集资料和给烂记性的自己制作一个外延大脑。最后发现翻墙、链接数据源困难重重,但涨了不少IT、AI类知识,总结一下。希望未来帮助自己和他人构建一套既懂应用、又明原理的数字生存体系。
一、 核心理念:建立你的“第二大脑”
普通人视角:
我们常觉得记不住东西,是因为人类的大脑擅长思考,不擅长存储。核心原则是:“脑海中的笔记(Mental notes)不持久,文件才持久。”
技术深潜(术语详解):
这在计算机科学中被称为“外部化记忆系统”。
- 状态持久化 (Persistence):计算机程序(AI)在运行时被称为“进程”,一旦关闭,其内部的临时数据(RAM中的数据)就会丢失。将数据写入硬盘文件(如 Markdown、.env、JSON),就是将“易失性数据”转化为“非易失性数据”的过程。
- 应用场景:无论是复杂的代码配置,还是日常的灵感,一旦产生,立刻写入文件(如
MEMORY.md),这就是在为 AI 建立一个**“长期上下文(Context Window)”**,让它每次重启都能“满血复活”。
二、 技术基石:像搭积木一样玩转互联网
1. 容器技术(Docker/OCI):自带说明书的集装箱
2. 信息管道(RSS):去中心化的信息流
三、 数据获取:L1-L4 降级策略(鲁棒性工程)
这套系统的核心在于**“鲁棒性(Robustness)”**,即系统在异常和不确定环境下仍能保持稳定工作的能力。
| | | |
|---|
| L1 | 结构化接口
| API (应用程序编程接口) 直接与服务器进行数据交互,获取结构化的 JSON/CSV 数据。 | 首选方案速度快、数据干净。 劣势:依赖第三方库的版本兼容性,一旦接口变更,代码需要重写。 |
| L2 | 元搜索引擎
| 聚合搜索 (Aggregation) 不依赖单一搜索引擎,而是同时向 Google、Bing 等多个引擎发送请求,汇总结果。 | 隐私优先无需账号,无广告。 劣势:site: 等高级语法可能失效,结果受搜索引擎算法影响。 |
| L3 | 网页抓取
| HTTP 请求 + HTML 解析 直接发送 HTTP 请求获取网页源代码(HTML),通过正则表达式或解析库提取文本。 | 轻量级速度快。 劣势:极易被目标网站的**反爬虫机制(Anti-bot)**拦截(如 IP 封禁)。 |
| L4 | 真实浏览器
| 无头浏览器 (Headless Browser) 启动一个真实的 Chrome/Firefox 浏览器实例(无界面),模拟真人操作(渲染 JavaScript)。 | 最终保障能处理复杂的动态网页(如需要登录、滑块验证的页面)。 劣势:消耗资源大,速度慢。 |
四、 生存之道:安全与备份
1. API-KEY 误删事件
- API Key (应用程序编程接口密钥):相当于数字世界的“身份证+钥匙”。它用于身份验证(Authentication),证明调用者有权使用某项服务。
- 安全原则:“密钥与代码分离”。环境变量(Environment Variables)存储在
.env 文件中,是为了防止密钥被意外上传到代码仓库(如 GitHub),造成泄露。 - 教训:密钥属于**“不可再生的一次性凭证”**,一旦丢失且无法找回(为了安全),必须重新生成。因此,必须对
.env 文件进行独立备份或版本控制(Git),并使用 nano 或 vim 等安全编辑器操作,避免误删。