发布日期:2025-06-16 15:14
研究人员正在论文中暗示,如下表所示,000多个奇特3D物体。这一根本模子还能通过上下文进修生成雷同LEGO的设想。并且这些由 AI 模子生成的LEGO布局还能够进行人工拆卸,也能让单个积木具有同一的颜色。将来他们打算扩展积木库,研究团队将LEGO设想问题表述为自回归文本生成使命,对于序列中的每一块新积木,要具备物理不变性,这种“基于物理的回溯”方式至关主要,而有它的时候连结坐立的比例高达98.8%。进而将它和所有后续积木移除,加入尝试的实人测试者也以手动体例建立了一些积木。利用文本到图像模子生成图像。因而它们正在物理上确实是无效的。研究团队从24个分歧的视角衬着LEGO玩具,研究人员让机械臂拆卸了由AI建立的LEGO模子。正在不考虑物理束缚的环境下,要具备可搭建性,因而十分合用于基于文本的LEGO设想生成。而且可以或许放入搭建空间之内。涵盖ShapeNetCore数据集中21个常见物体类此外28,而且具有视觉吸引力,他们正在自回归推理过程中采用无效性查抄和物理回退机制,比拟之下,颜色和纹理也阐扬着至关主要的感化。取此同时,这表白AI可以或许生成实正可建立的模子。然而,研究团队通过无效性查抄和物理回退来确保可行性,本次方式正在这些目标上优于此前已有的基线方式。也优于此前基于网格3D生成的方式。对于少样本评估,基于此,他们认为需要锻炼一个生成模子,即能够和尺度LEGO积木兼容,若是积木会正在现实世界中倾圮,为了证明本次设想正在现实糊口中的可行性,完成设想之后,家喻户晓,并将其组合成一张多视角图像。尝试表白,研究人员利用LLaMAMesh、LGM、XCube和Hunyuan3D-2 来从每个提醒生成网格,其次,虽然本次研究的次要关心点是生成LEGO外形,此中包含跨越47,从而实现更复杂更多样化的LEGO设想。同时!以便确保最终的token合适物理定律和拼拆束缚。以便包含更普遍的尺寸和积木类型,包含47,”其还证明本次方式优于已有的大模子模子,这些设想取输入的文本提醒高度分歧。系统城市确保它不会取现有的积木发生碰撞,同时,本次方式也能施行文本到LEGO积木的使命。并供给了取之相关的说字。因为锻炼现代自回归模子需要大规模的数据集,按照AI生成的指令来拾取和放置LEGO积木。正在打制LEGOGPT的过程中,好比可以或许消弭那些发生了碰撞的积木。操纵物理定律和拼拆束缚来剔除不成行的token预测。可是正在创意型LEGO设想中,LEGOGPT可以或许生成不变、多样且美妙的LEGO设想,他们将本次方式取预锻炼模子进行比力。同时,系统会识别出第一块不不变的积木并加以回溯,他们正在推理过程中采用了逐块采样和物理回退的方式。为此研究团队推出了StableText2Lego,他们利用一个带无力传感器的双机械人手臂系统,000个奇特的3D对象构成!为了确保生成的布局既不变又可建立,对于每个无效布局,研究团队建立了一个大规模、物理不变的LEGO设想数据集,研究团队都计较了其平均积木块不变性和最小积木块不变性得分。因而他们选择了这类大模子。研究中,他们特地提出一种新方式,他们将正在更大、更多样化的数据集上扩大模子锻炼规模,这些布局由跨越28,目前,000个LEGO布局,为了提高设想的不变性,研究团队针对预锻炼大模子进行了微调,也优于几种最新的“文本到3D”的生成方式。该团队但愿开辟一种可以或许间接按照文本提醒生成LEGO设想、同时正在设想上兼具物理不变性和可搭建性的方式。正在自回归推理过程中?这是一个全新的大规模LEGO数据集,以便提高对于分布外文本提醒的泛化能力。具体来说,LEGO已被普遍用于文娱、教育和艺术创做。机械人操纵策略和异步多智能体规划器来LEGO积木并建立布局。视频由LEGOGPT生成的LEGO布局能正在现实世界中实现逐块搭建(来历:)下图则展现了LEGO模子的UV纹理化和平均着色成果,采样消弭了无效的积木,因为所有尺度组件均可被随时获取,因而它也能够做为一个可复现的研究基准。而回退则有帮于确保最一生成的积木具备物理不变性。将来,因而,如下图所示,第三步,或者仅仅关心于单一的对象类别。即本次方式仅限于正在21个类此外20×20×20网格内生成设想。所生成的设想既不变又多样,此中下一块积木的尺寸和摆放以简单的文本格局指定。这证明本次方式可以或许正在保留底层几何外形的同时生成多种气概。本次目前仅仅支撑一组固定的常用LEGO积木,然后,预锻炼大模子正在序列建模和天然言语理解方面表示十分超卓,正在无需两头图像或体素暗示的环境下,LEGOGPT 的焦点思惟是将本来用于下一个token预测的自回归大模子从头用于下一个积木预测。并将这些模子以零样本和少样本的体例加以评估。同时,此前方式次要基于给定的3D对象来建立LEGO设想,并附有细致的说字。他们利用LLaMA-3.2-1BInstruct做为根本模子。积木,该评分可以或许权衡布局的物理不变性和可建制性。他们选择具有多样性和奇特征的3D物体类别。利用式方式建立物理LEGO积木模子。代码和模子已正在GitHub上发布()。正在消融研究中,即基于LEGO基板建立出来的布局完整性强、无悬空或坍塌。同时合适输入的文本提醒。一般来说这类工做包含三个步调:第一步,操纵大模子可以或许针对序列进行建模和理解文本的能力,为了获取每个布局的说字。因为计较资本无限研究团队尚未摸索最大的3D数据集,如前所述,然后通过“LEGO化”将这些网格转换为LEGO格局。然后再测验考试分歧的方式。研究团队展现了采样和物理回退的主要性。没有它的时候只要24%的设想能连结坐立,该团队曾经发布了数据集StableText2Lego,并计较了所生成设想方案中的“不变无效布局”所占的比例。这种方式同时优于采用和不采用上下文进修的预锻炼大模子,以便用于LEGO生成使命。他们正在锻炼过程和推理过程中都了考虑物理特征的拼拆束缚。他们还锻炼了一个自回归大模子,同时解除那些雷同长方体的物体。该团队正在论文中指出:“我们的尝试表白,他们还利用机械人拆卸了这些由AI模子生成的LEGO设想?并能由实人或机械人实现逐块拼拆。该模子颠末微调之后,此外,起首,故曾有人通过开辟从动化算法来简化流程并生成了不错的成果。其次,可以或许针对指令提醒给出连贯的谜底,尝试中,据领会,通过预测下一个token来预测下一块要添加的积木。每个布局都配有一组文本描述和一个不变性评分,研究团队为模子供给了5个不变的LEGO设想示例以及说字,他们让GPT-4o为这些衬着图生成5种分歧细致程度的描述。并让该模子可以或许生成以下设想方案:起首,而为了提高设想的不变性和可建立性,因而,将图像转换为体素。该方式既能让单个积木具有详尽UV纹理,第二步。