AI 这个话题很火,我也一直在关注着,很多人甚至觉得 AI 会改变世界,也许你会好奇:ChatGPT 会在三年内终结编程吗?AI有可能改变人的学习方式吗?AI 能否取代打工人?本文会对相关问题从我们可见日常问题进行解答。
希望从:AI 辅助提高了人的阅读效率吗、AI能帮助人更好地了解和记忆书中的内容吗、AI 技术有可能改变人的阅读方式吗三个方面进行解答。并用 AI 工具进行辅助阅读,甚至只用 AI 工具阅读,同时我会分享我用到的工具和方法。
相关资料链接:
GPT-4 论文(英文内容)
《Mental Models》(英文内容)
《长寿-当人类不再衰老》(中文内容)
通过多次使用,我就遇到了两个非常严重的问题:内容错误和对话式学习。
先说下内容错误,拿 Mental Models 这本书为例,我让它罗列 30 种模型,它回复了一个 SWOT 分析,但我看了下书籍的目录,我发现并没有提到这个模型,于是我就问它哪里提到了这个内容,然后它的回答是「我混淆了这本书和其他一些管理类书籍中的内容」:
这个可以说是非常非常大的错误,如果内容无法保证准确,那后续的效率和改变都是空谈。
我研究和测试了下,造成这个问题的原因还是 ChatGPT 的字数限制,我们没法将书里的所有字都给 ChatGPT,我们需要做一些相对 Hack 的事情,最终导致这个结果有点问题。而且我在测试的时候,ChatPDF 还在用 ChatGPT-3 模型,还不支持图片,ChatPDF 应该是先用 OCR 技术,将PDF 转为文字,再将内容传给 ChatGPT,所以也有部分原因是 PDF 转文字时,导致了内容缺失和错误。
再说下对话式学习的问题,目前尝试下来有好有坏:
对于目前这种对话式的 AI 阅读辅助工具,我更倾向于用于阅读比较明确的场景,比如:
对于其他类型的书籍,我觉得还有很大很大的优化空间,而且这跟模型的技术限制无关,即使 OpenAI 放开了字数限制,不解决对话式交互问题,适用的范围还是比较窄。
关于这个问题,我倒是有个不成熟的想法,AI 能总结,应该也能重新组合,如果我们能设置一定的框架脚本,是不是能将书的内容,做成交互式的游戏?
或者类似我在 Summary 一文中提到的那样,给一些示例给 AI,然后 AI 能返回一些你可能 Highlight 的内容,亦或者将书籍内容做一些模版性的总结?
首先说说 ChatPDF 和 ChatDoc 。我这次,用它俩尝试阅读了下《The Great Mental Models》(这本书其实就是《思考的框架》的英文版)。从结果来看,ChatDoc 的确要比 ChatPDF 靠谱很多。这个是 ChatPDF 的总结:
这个是 ChatDoc:
从内容的准确性来说,我觉得 ChatDoc 比 ChatPDF 要好很多。
首先,我觉得 ChatDoc 的左 PDF,右边 AI 助手的设计,比 ChatPDF 的对话式设计要好非常多。当我遇到不懂的地方,我可以框选左侧的内容, ChatDoc 会自动将内容带到右侧的输入框,我只需要做一些补充提问即可,比如下图里,我问 AI 某章节主要讲了什么内容,在阅读一些英文书籍或论文,这个模式对我的帮助也很大,我可以问 AI 这句话是什么意思,甚至可以让 AI 以更易于理解的话术解释那句话。
另外,在上图,你还能看到我针对书中的某个细节进行了提问,答得非常好。有两个令我 Aha 的时刻:
你在好好学习里看到的总结,就是我用这个工具辅助完成的。
再来说说,Readwise 阅读文章的感受,Readwise 的 AI 主要有以下几个功能,你可以问问题,让 AI 做总结。不过这个产品最大的问题是响应速度,让它总结文章,要 loading 很久。
并且,对于 AI 辅助阅读文章来说:
回顾开头四个问题:
坦率说来,以目前用到的工具来看,AI 工具还有很多缺点,但整体来说,我认为它很可能会改变我的阅读方式,并且在某些场景提升我的阅读效率。
以下是我总结的 AI 优势,以及我认为可能改变的点。
我的「阅读」一般分成两种,一种是「学习型」的阅读,另一种是「检索型」的阅读。
前者需要的是「网」,后者需要的是「点」。比如学习前端库 React,你需要看它的官方文档,甚至需要在自己的电脑上,跑一下官方 Demo,你需要建立完整的框架,并实践,才能算学会使用。
但如果你只想查询某个问题,那就只需要搜索一下文档,找到某个点就可以了。而 AI 非常擅长这个。以前这类阅读场景,我都是依赖搜索完成,但检索型的阅读,很多时候很难确定搜索词,需要多次搜索,才能找到答案,而现在依靠 AI,搜索具备了文本理解能力,除了能帮你定位到位置外,还能直接给你答案。
对于检索型阅读,我认为 AI 能提高很多效率。
优点二和三,我觉得算是一类,这两点会极大地改变我的阅读方式。以前不管是学习型阅读还是检索型阅读,都会遇到「看不懂」的问题。
第一种是语言上看不懂,这种就依赖翻译软件,但这些软件翻译的质量都比较一般。现在用上 ChatGPT 的翻译,效果好很多,这将会极大地拓宽我的阅读面。甚至我现在可能会考虑看日语、法语等非英语书籍。
第二种是字都看懂了,但看不懂表达的意思。有了 AI 辅助,很多复杂的内容,都能让 AI 解释一遍。甚至还能让 AI 进行举例(不过这个准确度要比检索和翻译低很多)。
人的短期记忆容量,如果用 AI 产品常用的单位 token 来计算,远远小于 GPT-4 的 32,768 token(约为 23,000 个英文单词),所以人类在进行「学习型」阅读时,最常用的方法就是做笔记,将重点标注出来,减轻记忆负担。
但不管如何记录,人总有忽略的地方。比如我在前面提到的 ChatDoc 的例子,我读到 90 多页的时候,完全没想起它讲的内容跟第 20 多页内容有关系,但 AI 帮我找到了。
这个跟优点四有点关系。
因为物理输入方式限制,导致我们的阅读很多时候都是线性的,但人的思想是网状的,书本有的时候传递的也是网状的信息,所以才有了所谓的思维导图等工具,帮助人更好地理解书本的信息。
所以我就想到,既然 AI 已经能找到人忽略的点,那是否也能帮助我们建立网状图?
再发散地看,是不是笔记类的产品,也会被改变?像 RoamResearch 这类依赖用户手动打 tag 的文档工具是不是也会被颠覆?人只需要记录就好了,剩下的交给 AI。需要一个记录健身数据 Database?你只需要先记录健身数据,不需要考虑表如何设计,让 AI 生成一个即可。并且记录方式也会发生改变。以前是先有表,再有数据,现在只需要先有数据就行。
回到前面提到的问题:
最近 AI 相关的话题非常火爆,也有部分朋友留言说 AI 出现,我们这种人工 Summary 迟早要被淘汰。也有人说有了 AI,总结起来会不会更快。
聊对比前,我想先科普一些 ChatGPT 相关的知识,各位了解这些知识后,才能更好地对比 AI Summary 和人工 Summary。
Token:这个指的是 OpenAI 处理文本的基本单位,可以是单词或者字符的片段。例如,“hamburger” 被分成 “ham”、“bur” 和 “ger” 三个 Token,而 “pear” 是一个 Token。1个 Token 大约相当于 4 个字符或者 0.75 个英文单词。
一些限制:
懂了这几个限制后,我再讲解下,市面上的视频/Podcast Summary 是怎么做的。实际上你能直接用 ChatGPT 模拟这些插件。
首先,因为限制 #3 ,需要将视频/Podcast 的音频转为文字。这一步因为 Youtube 有 Transcript,所以很多产品会直接拿 Transcript 来用。
第二步将 Transcript 和 Prompt(一般是「请总结以下内容」)一起传给 OpenAI 。传给 Open AI 的东西类似这样,你也可以在 ChatGPT 上试试,只需要将下方 Transcript 的内容替换成 Youtube 上的真实 Transcript 即可:
Please summarize the following sentences.
Text: """
Transcript
"""
最后 OpenAI 就会返回 Summary 结果。
但某些视频和 Podcast 会非常长,一集可能有几万字,因为 #2 的限制,根本没法将一集完整的 Transcript 都传给 OpenAI,所以不同的产品,会有不同的处理方式。目前常见的处理方式是「裁切总结」,将 Transcript 切成多个时长为 5 分钟的 Transcript ,再传给 OpenAI ,让 OpenAI 先总结一遍,然后再将这些段落总结,传给 OpenAI ,再让它总结一遍,生成最终的总结内容。
了解完这些 Summary 应用的原理后,目前这类产品的缺点也就相对好理解了:
某些没有 Transcript 的内容基本没法 Summary。比如短视频,或者 log,很多都是只有画面,没有说话内容。这些都没法 Summary。
当然应该没有人需要短视频 Summary 吧,内容已经够快餐了 ??
如果 Transcript 质量不好,AI 总结出来的内容会非常奇怪,举个例子,如果 Transcript 包含了背景音乐里的歌词,AI 就会总结这段歌词。人看到就会很奇怪,突然中间来了一段「爱拼才会赢」的总结。
人一分钟大约能讲 125 - 150 个英文单词,180 - 200 个中文。按照现在人们看视频的习惯,视频内容一般不会超过 15 分钟,换算下来大约是 2200 个英文单词左右,或者 3000 个中文字,不过很多视频都不会一直说话,所以字数会少于这个数。
所以很多做视频 AI Summary 就会简单处理 Token 限制的问题,比如只传 2500 个英文单词,然后让 AI 返回 500 个英文单词的内容。这种处理方式就比较粗暴(但并不是不能用,哈哈哈),对于长视频来说,就会缺失后半段的总结,如果后半段有反转,那总结就会是完全错误的。
比如 Glarity 这个插件,给 Knowledge Project 141 的总结是这样的:
这段视频中,Kunal Shah谈到了他从家族企业中学到的几个成功做生意的要素。他们中的大多数人来自于商人的社群,这种社群的人更愿意承担风险、具有更低的羞耻感、更能理解事物的价值、更能发现新的趋势、并且愿意帮助自己的社群成功。这些特点让这些人更有可能在商业上获得成功。
对比看看我的总结,这段总结应该只输入了前15分钟的内容。(BTW,我这里并不是说这样设计不行,因为 Glarity 支持自定义 prompt,它是我目前常用的 AI 插件之一,只是觉得它能更好 ?? )
当然也不是所有人都那么做,切分总结能部分解决缺失的问题,但切分时长就很关键,如果太长,比如 15 分钟,3000 个英文单词,AI 就没法返回总结了。
另外,这种层层总结,也会导致信息缺失。第一次总结,类似将照片切成一块块,然后逐个打码,最后再将这些打码后的块,组合成一张图,再打一次码,内容少了,也更不清晰了。
如果前面 4 个缺点,在技术上未来应该能解决(比如 OpenAI 放开限制到 8K 个 Token),但最后的一个缺点,相对来说,我还没想到如何解决,举个实际的例子。
还是以 Knowledge Project 141 为例,Summarize.tech 的 Summary 方式是将视频切分成 5 分钟的一段,然后再对生成的内容进行二次总结。我们一起看看这个结果:
00:15:00 The author discusses how he has learned that many concepts in western society are not applicable to Asian societies, such as the alue of time. He also discusses how Hinduism is not as scalable as other religions because it is not standardized.
里面提到一个 “such as the alue of time”,我在听这一段的时候,我认为这段内容很精彩。因为这段 Kunal 聊的是「为何很多工具产品在亚洲赚不到钱」,他解释原因是对于许多亚洲国家来说都是如此,时间作为一个价值概念从未被教导过。
但如果你看上面的 AI 总结,其实省略了很多内容,并且吸引力不够,如果我读得快一点,很可能就会忽略它。再看看另一个例子:
00:35:00 In India, less than six percent of urbanIndian women hae financial income of their own, and 94 of them are currently taking care of kids or taking care of the family and not contributing to the labor force. Another interesting thing is 95 of all financial products in India are bought by men. Credit cards, car loans, and home loans are all by men, while inestments are only by men. India has now nearly two thousand dollars per capita income yearly, but if you remoe the top 30 million families or 30 million indiiduals, the per capita income would drop to maybe 600. This is why many western markets loe to come to India, because its per capita income is neer going to beat and grow like China's because before China started becoming affluent, 96 of Chinese urban women were working because of the one child policy which forced it to become a general neutral society. Howeer, in India, female participation of labor is going down. The per capita income is not going to grow and therefore a lot of foreign companies loe to come to India because India is the "dau farm of the world." All the big internet giants, like Facebook, Twitter, and YouTube, will say "I hae 500 million billion users in India, but look at the arpu and peel the ar
首先这个总结应该是 Token 到达上限,最后没有输出完。让后拿这个总结和上一个总结做对比,你应该会和我一样有相同的疑惑,为何这段总结更长?更详细?
我自己也尝试写了一些 prompt,这一块即使 ChatGPT 也做不到很好的一致性(换句话说,你反复提问一样的问题,它会给你返回不同的答案),暂时不知道它以什么标准进行总结。
但我也测试出来了一些有意思的东西,最后会跟大家分享。
我的想法是:
我目前尝试下来,AI 最擅长总结的是那些科技产品评测,特别是像钟文泽做的那些开箱评测,总结准确还很全。但我想说这些评测你会只看文字版本吗?
我不太会。
所以我也很好奇,这些 AI Summary 工具的次留是怎样的。
我反而觉得可能将这些结果重新组装,做成新产品,可能还有意思一些。
比如将全网评测 iPhone 14 的视频都总结一遍,然后将这些总结结果再做一些统计,那我就能知道各种 UP 主是怎么评价 iPhone 14 的,赞的人有哪些,赞的地方有哪些,踩的人又有哪些,又踩了什么。
现在的 AI 产品玩法,都还是脱离不了文字的交互方式,以及直接跟 AI 交互的方式。为何不试试用 AI 的结果做产品?以前要想搞一个什么值得买很难,需要很多人力,现在会不会简单一些呢?
再说说它暂时做不好的内容,我可能会用它来做辅助,但用它做辅助也有两个担忧:
所以就我目前测试下来,文字稿对我的辅助作用最大。其次才是 AI 总结,它帮到我的更多的是定位重点,作为
不过我相信未来应该会有更好的解决方案,比如未来应该会支持更多媒介,并且 Token 的限制也会放宽。
我在前面提到 AI Summary 不知道什么是重点。但如果你传给 AI 的 Prompt 里包含一些案例,它就能根据你给的案例做一些优化。某种程度上是告知它什么是重点。
简单说,类似这样的:
In India, less than six percent of urbanIndian women hae financial income of their own, and 94 of them are currently taking care of kids or taking care of the family and not contributing to the labor force. Another interesting thing is 95 of all financial products in India are bought by men. Credit cards, car loans, and home loans are all by men, while inestments are only by men. India has now nearly two thousand dollars per capita income yearly, but if you remoe the top 30 million families or 30 million indiiduals, the per capita income would drop to maybe 600.
Highlight: less than six percent of urbanIndian women hae financial income of their own.
然后下一段话,你就可以这样问,ChatGPT 会返回它理解的 Highlight 内容给你:
This is why many western markets loe to come to India, because its per capita income is neer going to beat and grow like China's because before China started becoming affluent, 96 of Chinese urban women were working because of the one child policy which forced it to become a general neutral society. Howeer, in India, female participation of labor is going down. The per capita income is not going to grow and therefore a lot of foreign companies loe to come to India because India is the "dau farm of the world."
Highlight:
未来基于 AI 做一个专属于个人的推荐或者 Summary 系统是有可能的。只是你需要给不少初始化数据给模型。
比如人对某篇文章的开头段落进行高亮,后续 AI 就能自动根据你的高亮结果,高亮文章后续可能被高亮的内容。当收集的数据足够多,新的文章都能自动高亮了。
自动生成流程图
智能创作助手 Effidit(Efficient and Intelligent Editing) 是由腾讯 AI Lab 开发的一个研究性原型系统,探索用 AI 技术提升写作者的写作效率和创作体验(在线体验推荐使用 Chrome 或 Microsoft Edge 浏览器)
ChatGPT可以帮助我们更快速、更准确地获取信息。在日常生活中,我们经常需要查找各种信息,例如新闻、天气、交通等,而ChatGPT可以通过自然语言的方式,快速地回答我们的问题,节省了我们查找信息的时间和精力。
ChatGPT可以帮助我们更好地进行学习和阅读。在学习和阅读过程中,我们经常会遇到各种问题和难点,而ChatGPT可以通过智能问答的方式,帮助我们解决这些问题和难点,提高我们的学习效率和阅读理解能力。
ChatGPT还可以帮助我们更好地进行工作。在工作中,我们经常需要处理各种复杂的问题和任务,而ChatGPT可以通过智能问答、自动化处理等方式,帮助我们更好地完成这些任务,提高我们的工作效率和质量。