
体育游戏app平台就那么大——GPT-2装3万个“小砖块”-开云「中国」kaiyun网页版登录入口
新闻动态
早上给调解方发需求,你在ChatGPT里敲:“清贫拟份家具诠释,重心讲性价比!” 你以为它收到整句话?其实它眼里是堆拆碎的“小砖块”:「清贫」、「拟份」、「家具」……每个词甚而标点都可能被切成不同块。 这即是大语言模子藏得最深的“黑科技”——Token分词。 为什么要拆?模子“脑子”装不下悉数词 得先搞懂:模子的“脑子”,就那么大——GPT-2装3万个“小砖块”,GPT-3装5万,咫尺最牛的模子也就10万把握。可英语有几十万单词,汉文有几百万,根底装不下悉数词。 咋办?只可把生分词拆闇练悉的“
详情

早上给调解方发需求,你在ChatGPT里敲:“清贫拟份家具诠释,重心讲性价比!”
你以为它收到整句话?其实它眼里是堆拆碎的“小砖块”:「清贫」、「拟份」、「家具」……每个词甚而标点都可能被切成不同块。
这即是大语言模子藏得最深的“黑科技”——Token分词。
为什么要拆?模子“脑子”装不下悉数词
得先搞懂:模子的“脑子”,就那么大——GPT-2装3万个“小砖块”,GPT-3装5万,咫尺最牛的模子也就10万把握。可英语有几十万单词,汉文有几百万,根底装不下悉数词。
咋办?只可把生分词拆闇练悉的“砖块”。比如“extraordinary”(超卓的),模子没学过,但它学过“extra”(稀奇)+“ordinary”(等闲),拼起来就知谈是“超卓的”。
遭受没见过的“biocatalyst”(生物催化剂),拆成“bio”+“catalyst”,也能猜出跟生物相关。
张开剩余73%还有,拆碎了省力气。比如“机器学习”拆成“机器”+“学习”,比存通盘词少占空间,算得快,否则你发100字,它得算半天,半天回不了音信。
说白了,Token就是模子的“最小通晓单位”,它不是看你句子,是看一堆能拼起来的“小砖块”。
若何拆?四种“测字法”,各有各的招
模子测字不是乱切,有四种常见套路:
BPE(GPT系列用)——像搭积木粘高频词
先拿单个字母当积木(比如“H”“e”),把常一王人出现的粘成块(比如“ll”)。自后还能拆成电脑能认的字节,连生分emoji、非常记号都不怕。
WordPiece(BERT用)——粘起来要“顺嘴”
跟BPE像,但看“顺不顺”:比如“unhappy”拆成“un”+“##happy”,“##”记号“happy”不是词发轫,前边得有“un”(不)。
SentencePiece(T5用)——不论原词径直切
更狠,把整句话当字符,连空格都当记号。比如“Hello world”拆成“▁Hello”+“▁world”(下划线示意“背面要接单词”),合适日语、汉文这种没空格的语言。
Unigram(SentencePiece搭档)——扔没用的“砖块”
先拿一堆可能的块(比如“机”“器”“学”“习”),再逍遥扔没用的,留最灵验的——像整理抽屉,只留常用的。
拆的清贫?为啥你以为模子总“笨”?
这“测字游戏”,也把模子的“裂缝”带出来了——你平素吐槽的那些问题,其实都源于此:
算钱总超预算:API按Token收费,英文1Token≈4字符,100个单词≈75Token(等于花75块);汉文更贵,你发段话,其实是“烧钱”。
算鉴识数:问“3.11和3.9哪个大”,它拆成“3”+“.”+“11”和“3”+“.”+“9”,不是比数值,是看哪个组合常见——是以有技巧答对,有技巧错。
外文/代码总出错:日语化名拆得多,慢还容易理解错;代码“for i in range(10)”拆成“for”+“i”+“in”+…,逻辑散了,总漏括号。
拼写错了没法纠:打“heloo”(错),拆成“hel”+“oo”,都是生分块,模子只可瞎猜“是不是‘hello’?”
结语:它不是笨,是得“学会”懂你
其实它不是特意整你,就像小孩学语言,得先把句子拆成单词,再拼起来懂敬爱。可大东谈主拆得多了,未免漏合座,比如把“3.11”拆成碎块,就忘了这是个数字。
我们得顺着它的特性:发音信写明晰,别用生分词;算钱先估Token,别等账单喊“坑”;别指望它作念复杂数学题,它仅仅“测字妙手”,还没成“理解众人”。
但话说转头,能把一堆“小纸条”拼成走漏的话,陪你聊天、写案牍、改代码,仍是很利弊了。毕竟,从“测字”到“懂你”,它仍是走了很远的路。
发布于:广东省