体验完杨植麟企业的新模型,发掘这Kimi Chat连家谱都敢读了
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://mmbiz.qpic.cn/mmbiz_jpg/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA90TvPic7kBCtNMAQAsmheT4XRE1ELuQE9FZpia1xeNefvdlh8FFRXBQLw/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"></p>作者<span style="color: black;">|</span>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">油醋</p>邮箱<span style="color: black;">|</span>zhuzheng@pingwest.com<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">完了,又多了一个大模型能看懂我身份证了?</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">近期</span>,杨植麟的创业<span style="color: black;">机构</span>月之暗面(Moonshot AI)发布了新版本模型moonshot-v1-20231225。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">长长长长长的 Kimi Chat <span style="color: black;">第1</span>次上新了。</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9AobmZ4ycSVtxa8OPUn1eNPOLHQ6t9lPgHDiccib8e3ficKuL7C1vicTSgA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:Kimi Chat<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">点开Kimi Chat<span style="color: black;">发掘</span>,它回复速度<span style="color: black;">好似</span>比以前快了,网页端多了个浅色模式(月之亮面?),但最重要的是,它能读PDF扫描件了!</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">啥意思呢,<span style="color: black;">便是</span>我把我身份证的照片发给他,它直接给我把家庭住址择出来了,你要让它按姓名、出生日期...列成张表,它还能给你整的挺规矩。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">月之暗面自己的描述是<span style="color: black;">这般</span>:</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">咱们</span>实现了从扫描件(文档、合同、白板等等)提取文字的功能。<span style="color: black;">日前</span>已支持 PDF 格式的扫描文件上传解析。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">例如</span><span style="color: black;">能够</span>提取白板上的手写内容。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在一段演示视频里,<span style="color: black;">运用</span>者给Kimi Chat发了一张关于它这次新功能介绍的草图,<span style="color: black;">而后</span>Kimi chat看着这个手写草稿,直接转换<span style="color: black;">成为了</span>一个信息表格。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">在这之前,Kimi Chat的人设是“长”,能一口气读20万汉字。<span style="color: black;">此刻</span>它能读扫描件了,论文、手稿、盗版书(不是),想象空间又变大了。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">这么说吧,做扫描全能王起家的那家<span style="color: black;">机构</span>,去年营收10个亿,今年要在上交所上市了。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">但这能力到底有<span style="color: black;">无</span>说的这么好,得试试。我先扔了一份浙江省高院发布的《关于规范律师调查令制度的办法》的扫描件给它,看Kimi Chat能<span style="color: black;">不可</span>帮我理一下这份20页文件的大致内容,效果还不错:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9avvz9Ew0ib4icMQftzemxSNVec5AsCdJyich26YFiatT4S0LMEvGibvNXJA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:Kimi Chat<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">接着我继续问,这份文件里“浙江省高级人民法院关于规范律师调查令制度的办法”目录下,第五条写的是什么。先说谜底:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9x0wUiaAzzVBOpTa2HkpZWf65FjnmlQmnHLTAicqAibajl8zyEPk6F8fPg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:《关于规范律师调查令制度的办法》<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">Kimi Chat找到了精确位置,<span style="color: black;">第1</span>遍没答完整,第二遍就全对了:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9icVPhyEWrIvOFsJXHfuJmibGuib3YeLH7r5CKqZ05ckLaIXkHfRZfgOwg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:Kimi Chat<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">严肃的测试到此为止,<span style="color: black;">而后</span>我扔给了它一张即刻用户@我有猫之狸宝儿de麻麻贴出的手稿,让它帮我整理成一份更清晰的表格:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_jpg/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9JUscTc5lRiaicejWdJicNkkgMTfBKtWxibiaPhnsq31Bh24q8DicteGHchYA/640?wx_fmt=other&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:即刻用户@我有猫之狸宝儿de麻麻<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">这手稿讲的什么,肯定有人一眼就能看出来。<span style="color: black;">倘若</span>没看出来的话,跟着Kimi Chat的思路试试:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9DoWl6DKSjpacQYtNgx8ehz3TYusCSXMSQF28B25g3icWhqQP1HRMJ7w/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:Kimi Chat<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">它一眼就看出这是一份家族谱系了,<span style="color: black;">而后</span>我顺着继续问它<span style="color: black;">怎样</span>理解这份族谱。让我惊讶的是,它<span style="color: black;">已然</span>隐约判断出这是一个文学作品中的虚构家族,并且在其中看到了世代传承的<span style="color: black;">繁杂</span>性,<span style="color: black;">乃至</span><span style="color: black;">有些</span>悲剧元素。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">恰当</span>猜测,Kimi Chat可能<span style="color: black;">已然</span>在<span style="color: black;">背面</span>对这些名字完<span style="color: black;">成为了</span><span style="color: black;">有些</span>搜索的动作,但这族谱到底出自何处,它<span style="color: black;">无</span>给出判断:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9wMKAETKn5xrajEFKQBGnbIStZ6qToibuC1V0tLxXrBxuniaMNYAo1PgA/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:Kimi Chat<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">不外</span>,当我告诉它这份族谱出自一个“文学名著”,有个这个关键的限定词,它完全推理出了准确答案(我很<span style="color: black;">可疑</span>它早就<span style="color: black;">晓得</span>了)——《百年孤独》:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9AhWyAfxz6IiaB6X3vichZOGnfwn3gONGefbaoDfQtQgDSxgQfempqQqQ/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:Kimi Chat<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">到这儿我、或许有<span style="color: black;">有些</span>人会有疑问,<span style="color: black;">针对</span>大模型<span style="color: black;">来讲</span>,读<span style="color: black;">照片</span>(JPEG)和读PDF的区别到底是啥,谁更难?</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">我拿这个问题问GPT-4,<span style="color: black;">针对</span>GPT-4<span style="color: black;">或</span>所有基于文本预训练的大模型<span style="color: black;">来讲</span>,处理PDF文件比JPEG文件更加直接和简单,下面是GPT-4的回答:</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">针对</span>GPT-4<span style="color: black;">这般</span>的大型语言模型<span style="color: black;">来讲</span>,处理JPEG文件和PDF文件在技术上存在<span style="color: black;">明显</span>差异,<span style="color: black;">况且</span>难度<span style="color: black;">亦</span><span style="color: black;">区别</span>。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">处理JPEG文件:</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">GPT-4本身是一个以文本为<span style="color: black;">基本</span>的模型,它并不直接处理图像数据。<span style="color: black;">因此呢</span>,<span style="color: black;">针对</span>JPEG<span style="color: black;">这般</span>的图像文件,GPT-4<span style="color: black;">没法</span>直接<span style="color: black;">诠释</span>图像内容。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">倘若</span>要让GPT-4处理JPEG文件,就需要先将图像内容转换为文本描述。这<span style="color: black;">一般</span><span style="color: black;">触及</span><span style="color: black;">运用</span>计算机视觉模型来识别图像中的元素并将它们转换为文本描述,<span style="color: black;">而后</span>这个描述<span style="color: black;">能够</span>被GPT-4处理。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">处理PDF文件:</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">PDF文件处理<span style="color: black;">针对</span>GPT-4<span style="color: black;">来讲</span>相对更直接,<span style="color: black;">由于</span>PDF文件<span style="color: black;">一般</span><span style="color: black;">包括</span><span style="color: black;">海量</span>的文本内容。GPT-4<span style="color: black;">能够</span>处理这些文本信息,进行理解、生成<span style="color: black;">回复</span>或进行其他文本<span style="color: black;">关联</span>的任务。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">然而,<span style="color: black;">倘若</span>PDF文件中<span style="color: black;">包括</span>图像、表格或<span style="color: black;">繁杂</span>的格式化布局,这些非文本元素就可能难以被GPT-4直接处理。在这种<span style="color: black;">状况</span>下,可能需要<span style="color: black;">运用</span>OCR技术将非文本内容转换为文本,<span style="color: black;">或</span>进行特定的格式处理,<span style="color: black;">才可</span>有效地利用GPT-4。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;"><span style="color: black;">因此</span>在难度上,<span style="color: black;">针对</span>大语言模型<span style="color: black;">来讲</span>,直接处理PDF文件还在模型的直接能力范围里,处理JPEG文件需要图像到文本的转换,这需要多模态能力的介入,使得<span style="color: black;">全部</span>处理过程更为<span style="color: black;">繁杂</span>和曲折。</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">这<span style="color: black;">亦</span>能解释<span style="color: black;">为何</span>当我尝试给Kimi Chat一张<span style="color: black;">照片</span>,它<span style="color: black;">好似</span>仍然在用读“文档”的<span style="color: black;">规律</span>理解这张图。我拍了一张Manner咖啡的杯套,<span style="color: black;">照片</span>是<span style="color: black;">这般</span>的:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_jpg/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9M5MQThticBjKRiagcln0UkjeTPrewDJaAZXibYR2fCqY3SHZv4wSStwEA/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:油醋<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">Kimi Chat完全读懂了这个杯套上的文字内容,并且从这些字眼里推测出了这个物件来字咖啡或饮品店的杯状饮品身上:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA9YW4jcplB4icYDJYN3DGRAlWLyZNAibCib1n0ic36qJVBIQrics7LrURBCqg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:Kimi Chat<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">但它<span style="color: black;">没法</span>识别图案,就没法识别这到底是一家咖啡店还是奶茶店的杯套——它似乎本能的跳过了符号化的部分。但当我给了它一点“观察图中符号”的倾向,它<span style="color: black;">起始</span>把<span style="color: black;">重视</span>力放在画面里的图形部分,<span style="color: black;">最后</span>——在Manner的标志里找到了“Manner”这几个字:</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7TAZYT3oRUdH9axTU0LKiaA93EPMlVDNlqtQeB67zFkZXXezicJLJZdUqb01pSDN5GKFdJPG5xUyUicw/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">图源:Kimi Chat<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">Bingo!</span></p>
<p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">给Kimi Chat累够呛,<span style="color: black;">便是</span>咖啡凉了。</span></p><img src="https://mmbiz.qpic.cn/mmbiz_png/5gR6KWHNb7SEGs4a6cKuwkicvAbVSzzt46v3c3cTpLA8SHz4V9dQz5g33YJxcWBT0hXbtvF5ia6dxw5CqX1LqnMQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">
seo常来的论坛,希望我的网站快点收录。 外链论坛的成功举办,是与各位领导、同仁们的关怀和支持分不开的。在此,我谨代表公司向关心和支持论坛的各界人士表示最衷心的感谢! 论坛的成果是显著的,但我们不能因为成绩而沾沾自喜。 “沙发”(SF,第一个回帖的人)
页:
[1]