当前位置: 首页 > news >正文

动手学LLM(ch1)

前言

这一系列的笔记是根据《Build a Large Language Model (From Scratch)》这本书开始,接下来会整体记录整个学习笔记。在学习这个之前,建议先过一遍transformer的原理.......

GitHub地址:https://github.com/rasbt/LLMs-from-scratch?tab=readme-ov-file

第一章的内容,书上在这一小结巴拉巴拉说了很多,如果有些基础的里面很多都是废话,所以我这里总结一下即可...........

1.1 理解大型语言模型

LLM开创了自然语言处理(NLP)的新时代。传统方法在垃圾邮件分类和简单模式识别等分类任务中表现出色,这是由于这些任务可以用手工规则或更简单的模型来捕捉。然而,在需要复杂理解和生成能力的语言任务中,如解析详细说明、进行上下文分析或创建连贯且与上下文相适应的原始文本时,这些方法通常表现不佳。LLM在复杂语言任务中展现了卓越的理解和生成能力,能够处理细致的上下文分析和连贯的文本生成。它们基于深度学习和海量文本数据进行训练,通过transformer架构捕捉语言的微妙之处,显著提升了文本翻译、情感分析和问题解答等任务的性能。与以往为特定任务设计的模型不同,LLM具备更广泛的应用能力。

1.2 什么是LLM

大型语言模型(LLM)是基于深度神经网络的神经网络,旨在理解和生成类人文本。它们通过在海量文本数据上训练,掌握语言的上下文和结构,具有预测下一个单词的能力。LLM采用transformer架构,能够选择性关注输入的不同部分,从而处理语言的细微差别和复杂性。由于具备生成文本的能力,LLM也被视为生成式人工智能(GenAI)的一种形式。与传统机器学习不同,深度学习不需要人工提取特征,能够自动识别数据中的复杂模式,广泛应用于各种自然语言处理任务。

1.3 LLMs的应用

大型语言模型(LLM)因其解析和理解非结构化文本的能力,已广泛应用于多个领域,包括机器翻译、文本生成、情感分析和文本摘要。LLM还被用于内容创作,如撰写小说和计算机代码,并为复杂聊天机器人和虚拟助手提供动力,如OpenAI的ChatGPT和谷歌的Gemini。此外,LLM能够从医学和法律等专业领域的大量文本中进行知识检索,处理文档筛选和技术问题回答。随着对LLM应用的持续探索,它们有潜力重新定义我们与技术的互动方式。在本书中,将探讨LLM的工作原理,以及如何构建类似ChatGPT的文本生成助手。

可用于从医学或法律等专业领域的大量文本中进行有效的知识检索*:本句说明LLM不仅适用于通用语言处理,还能够处理专业领域的文本数据。知识检索是指在大量文本中查找和提取所需信息的过程,而这种其实为了更专业回答相关问题,会涉及RAG相关技术的使用。而这正是大模型的两个比较火热的应用研究方向之一,另外一个是Agent*相关技术。


http://www.mrgr.cn/news/36635.html

相关文章:

  • ComfyUI基础篇:安装方法(Windows系统)
  • 模版初阶(泛型编程)
  • ollydbg 小记
  • 一键去水印小程序源码系统 下载无水印的高清图片 带完整的安装代码包以及搭建部署教程
  • 欧美网站建设不同地方
  • PG数据库获取表主键信息
  • Spire.PDF for .NET【页面设置】演示:对PDF 文件进行分页
  • 天安生物携手小葫芦,推出数字人用药说明书守护女性宫颈健康
  • qemu创建虚拟U盘
  • 【ls -l 命令查看文件权限】【chmod 修改文件权限命令及解释】
  • Qemu开发ARM篇-5、buildroot制作根文件系统并挂载启动
  • Spring数据校验
  • uniapp自定义底部tabBar
  • 如何降低供应链物流成本
  • 数据的表示和存储 第4讲 C语言中的浮点数的编码表示
  • 三大硬核方式揭秘:Java如何与底层硬件和工业设备轻松通信!
  • python 实现multilayer perceptron classifier多层感知器分类器算法
  • AI大模型全套学习资料
  • 安全开发指南
  • 桌面整理工具:电脑桌面如何不显示任何东西?一键整理!