首页 HG6686体育 >新闻资讯 校园风采 HG6686平台
乐高砖也有AI模型! CMU中国团队开发了Legogpt,以创建一组包含47,000个乐高的结构的数据
2025-05-13

图 资料来源:DeepTech,Lego,被无数人钟爱,也有自己的GPT AI模型。它的名字是Legogpt,由美国卡内基·梅隆大学助理教授朱·朱尼(Zhu Junyan)创建。据了解,这是基于文本信号开发物理稳定的乐高块模型的第一个结果,也是合并物理强迫基于文本的文本感知的第一个结果。研究团队使用Legogpt创建了一个日本滑动书架。视频|日本的滑动书架使用legogpt(来源:https://avaloilece1.github.io/legogpt/)也创建了一个cyberpunk-style紫色沙发。视频|使用LegoGpt创建的Cyber​​punk风格的紫色沙发(来源:https://avaloilece1.github.io/legogpt/)和制作吉他。视频|使用LegOgpt创建的吉他(来源:https://avaloacece1.github.io/legogpt/)legogpt不仅可以设计与文本描述相对应的乐高结构,还可以确保可以通过块构建这些结构通过Manu -Manu -aid或机器人协助通过现实世界街区。与人们过去尝试过的乐高独立建模不同,LegoGPT可以为开发乐高工作生成详细的步骤,这些作品将分开。 Legogpt的工作原理是第一个生产具有准确位置的乐高积木块的传奇。对于每个新的构建块,该系统将确保它不会与现有的构件相撞,并且可以放置在施工空间中。设计完成后,LegoGPT将使用数学模型来验证构建块是否可以直立而不会崩溃。如果构建块属于现实世界,则系统将识别第一个不稳定的构建块并进行回溯,然后在尝试不同的方法之前将其删除和所有后续的构建块。 “基于回溯”方法很重要。没有它,只有24%的设计可以保持站立保持高达98.8%的地位。为了验证这种设计在现实生活中的可行性,研究人员要求机器人手臂收集AI创建的乐高模型。他们使用具有强度传感器的双机器人臂系统来拾取并根据AI产生的说明放置乐高积木。视频| Legogpt生成的乐高结构可以由Block在现实世界中由Block构建(来源:https://avalovelace1.github.io/legogpt/)真正的测试人员,他们参加了实验,还构建了几个构建块MANU -MANO -MANU -MANU -MANU -MANO -MANU,显示AI可以生产真正开发的模型。文章小组讨论了这篇文章:“我们的实验表明,LegoGPT可以提出稳定,多样和美丽的乐高设计,这与输入文本信号相符。”它还证明了该方法比现有的脊柱模型更好,并且也比许多最新一代的“文本到3D”一代更好。在创建Legogpt的过程中,研究AM构建了一组大型,物理稳定的乐高设计数据,并提供了相关的文本说明。同时,他们还训练了自回归模型,以预测要添加的下一个块,预测下一个令牌。为了提高设计稳定性,他们使用物理定律和组装障碍来消除自回归推理过程中的真实性,并在自回归推理过程中注意到了后备机制,以消除隐形的预测。目前,该团队发布了数据集stabletext2lo,其中包含47,000多个乐高结构,其中包括28,000多个独特的3D对象,并结合了详细的描述。同时,代码和模型是在GitHub(https://avaloilece1.github.io/legogpt/)上发布的。还报道说,除了朱尼安(朱尼安)作为纸张案例外,相关论文中还有许多中文。 | Zhu Junyan(来源:https://www.cs.cmu.edu/~junyanz/)|纸 - 集包含许多中文 - 启动(来源:arxiv),可以组装e块中的块逐块穿过碎片。众所周知,乐高广泛用于娱乐,教育和艺术品。由于所有常见成分都很容易获得,因此它也可以用作可以重新获得的基准。由于Manu -Design需要大量精力,因此以前已经开发了自动算法来简化过程并产生良好的结果。但是,以前的方法主要基于给定的3D对象创建乐高设计,或者只是专注于某些类别。基于此,团队希望开发一种可以直接基于文本信号生成乐高设计的技术,同时又具有物理稳定性和建筑能力。因此,他们认为,要训练了一个生成模型,并且该模型可以产生以下设计方法:首先,它应该具有物理稳定性,即在乐高基底上开发的完整性结构很强,而不会悬挂或下降。其次,应该形成它,也就是说,它可以与通常的乐高构件兼容,并可以组装真实的人或机器人的块。 Legogpt的主要想法是重新使用最初用于下一个块的下一步标记预测的自动回归模型。研究团队将乐高设计的问题描述为自我文本产生的工作,其中下一个构建块的大小和位置以简单的文本格式定义。为了确保生成的结构既稳定又构造,他们会在训练和推理过程中实施被认为是物理katangian的组装障碍。在自回旋推理的过程中,研究团队通过有效性检查和物理检测到的后备确保可行性,以确保最终的代币符合物理法律和组装障碍。实验表明,生成的设计既稳定又多样,并且在视觉上吸引人 - 吸引人,同时也与输入的文本兼容。使用使用和不使用上下文研究的预训练的大型模型,此方法更有效,并且也优于网格3D生成的先前方法。 ARXIV)大型乐高糖尿病:一般来说,这类工作中包含超过47,000名乐高乐高结构的研究人员,包括三个步骤:第一步是使用文本对图像模型进行Makavoid Image。第二步是将图像转换为体素。第三步是使用启发式方法来创建乐高积木块的物理模型,而无需考虑物理障碍。相比之下,此过程还可以执行无中间图像或体素表示的文本到lego块。由于现代自回旋模型中的培训需要大型数据集,因此研究团队启动了StableText2Lo,这是一个全新的乐高乐高数据集,包含47,000多个乐高积木结构,涵盖了21 c的28,000多个独特的3D对象。Shapenetcore数据集的Shapenetcore数据集中的Ommon对象类别。在研究中,他们选择了具有差异和独特性的3D对象类别,Hab The排除与Cuboid相似。每个结构都配备了一组文本描述和稳定性的标记,可测量结构的物理稳定性和可用性。 |数据集构建过程(来源:ARXIV)为了获得每个结构的说明文本,研究团队从24个不同的视图中提供了乐高玩具,并将其合并为多视图图像。然后,他们要求GPT-4O为这些效果图提出5个不同级别的描述。据了解,预训练的大型模型在模型和对语言的自然理解的顺序上表现良好,因此他们选择了这种大型模型。凭借大型模型以序列建模和理解文本的能力,精心培训的YouDelo的研究团队用于乐高的活动能量。为了提高设计的稳定性和使用,他们采用了逐个阻塞的下降,并在感知过程中发现了后备方法。同时,他们使用Llama-3.2-1bistruct作为主要模型。经过微调后,该模型可以为教学信号提供相互关联的答案,因此它适用于基于文本的文本文本。同时,该主要模型还可以通过研究上下文来产生类似乐观的设计。尽管这项研究的主要重点是在创意乐高设计中产生乐高的形状,但纹理和纹理也起着重要作用。因此,他们专门提出了一个新程序,该过程不仅提供了详细的紫外线纹理的个人建筑块,而且还提供了单个颜色的单个构件。在尝试紫外线和良好颜色的质地时,研究人员使用Llamamesh,LGM,XCUBE和HUNYUAN3D-2从每个提示中产生网格,然后将这些网格转换为Lego F通过“乐高”。此外,他们还将这种方法与假装模型进行了比较,并以零样本和小样本方式对其进行了检查。为了审查某些样本,研究团队提供了LEGO设计和解释文本的Model 5稳定示例,并计算了生成的设计方法中“稳定有效结构”的比例。同时,对于每个有效结构,研究团队计算平均块稳定性和最小块稳定性得分。如下表所示,在这些指标中,此方法比以前的基线方法更好。在研究消融时,研究团队表明了拒绝跌倒并身体上注意到后备的重要性。如下图所示,拒绝场外的拒绝消除了无效的块,例如那些跑步的块。后备有助于确保最终生成的构件具有物理稳定性。如前所述,他们还使用机器人AI模型生成的Ssemble Lego设计。具体而言,机器人使用操纵技术和意外的多年龄计划器来操纵乐高积木并建造结构。此外,模型产生的乐高结构也可以组装,因此它们确实有效。 |使用双机器人臂系统(Origin:arxiv)自动组装过程的过程显示了乐高模型的紫外线纹理和相等的阴影结果,这证明了该方法可以在维持基础几何形状的同时产生许多样式。 arxiv)尽管此方法比现有方法更好,但仍然存在一些局限性。首先,由于计算资源有限,研究团队尚未探索最大的3D数据集,也就是说,该方法仅限于在21个类别中开发20×20×20网格内的设计。将来,他们可以在更大,更多样化的数据集中衡量模型培训,以提高其能力,以提高文本提示。。其次,该结果当前仅支持固定范围的常用乐高积木块。将来,他们计划扩展构建库库,以包括更广泛的尺寸和建筑物类型,从而实现更复杂和多样化的乐高设计。参考:https://arxiv.org/pdf/2505.05469https://www.cs.cmu.edu/~junyanz/httpps://avapun.com/htttps:/htttps://wwwwwwwwwwwwwwwww.linkedin.com/in.com/in.com/in/avapun/? OriginalSubDomain = inhttps://avaloilece1.github.io/legogpt/typeline:chu jiaashi

Copyright © 2024-2026 HG6686体育_HG6686平台 版权所有

网站地图

鄂ICP备36659856号

友情链接: