2024-9-10-midjourney夜间的漫画娱乐批量工作2

9月 16 2024 日记 30 分钟读完 (约 4567 字)

我通过大概3-4轮测试用a chinese policeman , realistic style chinese manga, black and white , inked lines , simple white background –no hat , bag , weapon , car , smoke –ar 2:3

类似这样的关键词构造了一大批角色，为了统一画风我在下载后手动精选，将相似的挑出来然后作为多重url参考，https://s.mj.run/0bVLqKEs5mg , https://s.mj.run/HisLYyh4-pc https://s.mj.run/hMX0B3f8gAw https://s.mj.run/qa1FS4xVrP4 https://s.mj.run/7Ned44Nac00 https://s.mj.run/DC7xwghtRyo https://s.mj.run/gwH26HYYsnU https://s.mj.run/2eApcN2lKJ4 https://s.mj.run/6mrVrb1oPPU https://s.mj.run/FWTnVgcQwX0 , https://s.mj.run/pmID7jPDVbQ https://s.mj.run/f9gIjKzbrds https://s.mj.run/A3K6RwDzgFg https://s.mj.run/953VVTpTGn8 https://s.mj.run/6DR7v3zzmz0 https://s.mj.run/lW2IwXXur7g https://s.mj.run/VtKE0xtq4dw https://s.mj.run/uWbPIm3e6zA , a chinese policeman , japanese manga, black and white , inked lines , simple white background –no hat , bag , weapon , car , smoke –ar 2:3

midjourney对提交关键词字数有限制，我暂时不知道是多少，每次提交url给它，mj会自动精简url，目前18个url也没问题。在昨天256轮任务下来后我发现有非常大的重复，角色高度相似，画风确实相近了但是角色重复的问题暂时不知道咋解决，估计还需要3-5轮测试才能找出办法？

不过对于短篇角色不多的连环画而言，目前这么多应该也算够用，于是下一步是融入场景。以下是另一个mj生产器生成的，可惜我没能把使用的关键词记录下来，大概是用cref+分镜描述。这把生成的效果我蛮喜欢的不知道如何复现并统一这种画风，可以明显看出来用了这3个角色作为cref。

昨天晚上我尝试让文心一言、chatgpt、kimi给出分镜描述，目前看来文心一言的“记忆”是不支持做这项工作的，我限定了10话的剧情概要、标题，文心一言会在4、5话开始扭曲串改我的设计。chatgpt、kimi可以延续下去，综合起来我发现chatgpt做剧情概要，kimi给出分镜的搭配最为合适。

但是具体到要将分镜描述转换为漫画，直接丢给mj往往效果很不如意，主要问题在于camera view没有界定，地点模糊，有太多不必要的短句。cref模式下场景的画风贴近参考角色，由于我的角色池比较写实所以画风比较生硬写实。

我多次尝试用backview ,silhouette ,no face, do not show face都没办法得到背影，用一张含有背影特写的图作为sref得到的4个结果都是完美背影。看来sref还可以引导视角，因此大量的图可以扩充视角作为sref

用相似画风作为多重url引导可以得到类似画风的产出，并且画面内容并没有被url干扰而脱离关键词，再者看起来画面的逻辑性也提高了，写实版的反而显得格格不入。这样看来我需要生产更多的画风参考。

没有多重url引导、没有cref，画面可以，逻辑合理，但是画风有些过于生硬。

带cref的十分生硬。

这样看来和我之前预计的有偏差，不应该用cref引导来生产场景，而是用sref多重链接引导场景画风，然而用于sref的场景画风是需要用cref来生产的，这变成了一个先有鸡还是先有蛋的两难问题。看来cref这一步生产场景这一步逃不掉，产率会相当低也没办法，当某种画风有一定数量后，就可以用sref裂变繁殖了。

几个问题

1没法获得角色处于中远距离的画面效果，总是会被安排在近景。

我通过截取远景作为参考，成功

2场景一致性

按照kimi的分镜描述直接搞，场景无序变换，让人摸不着头脑。

通过多重url修改为工地片段，再去给原来的剧情作图可以让场景更贴切保持一致性，但是可以看出来由于参考图没有人物特写因此所有生产的图中也没有人物特写

2024-9-11更新：

实现了chatgpt自动生产分镜描述，分镜地点并按行摘录到txt中，midjourney那边描述和地点一一对位与漫画风格做排列组合。这样是实现了按照既定的分镜描述并限定发生地点用midjourney批量生产漫画，然而这里的多重url是给定的，因此无法约束环境一致性。我想通过guina.py把连环画中所涉及到的环境地点都提取到一个txt中，然后先对txt中的这些地点做midjourney生产，手动提取合适的地点画风，然后汇集成对应的多重url参考，在midjourney生产漫画的程序中判断地点location，通过一个数组成员去匹配地点对位的多重url参考。

我先用客户端的mj生产器手动测试，可以看出来当只有location地点时，mj生产的图基本都是地点的全貌，这显然不是我需要的，只有室内空间比如会议室、寝室的图相对比较有特写风格。

进一步添加人物进去，会迫使mj聚焦人物，此时场景就会特写化。

加了wide angle lens

这两个是我加了之前多重url画风的

https://s.mj.run/agPiMlW9uU0 https://s.mj.run/Wuuxsb0df9Y https://s.mj.run/gQu4r-ru1lQ https://s.mj.run/jc_dsQ2PRVI https://s.mj.run/0-5syjqFBcs

工作量方面若1话22个画面，那么搭配8种画风、画幅等不同约束就是176轮，需要约19个小时？用于约束环境地点location的前置工作若是一共出现20个地点，那么搭配画幅、风格8种160轮也是19小时左右？如果限定砍半么就可以把任务耗时减半，或者开两个账号对半分任务？

通过半天的测试发现不用niji，画风十分僵硬，对比度过高，缺乏细节。看来可以把非niji版的剔除

2024-9-13更新：

今天实现了用drissionpage来midjourney生产器批量下载图片和批量复制图片url。

编写了一个控制telegram bot读取txt批量逐行自动发送，这样可以把链接和图片对应起来，方便url整理。只不过telegram中的channel在pc版竟然不能手动清空记录，时间长了必然会记录多的飞起，想了下就用1天定时清空吧。

2024-9-13更新：

把地点匹配加入到了midjourney生产程序中，分隔标识符用的是*，然而一开始出错了并没有正常匹配，原因不明，并且排列组合任务次数没能xmangastyle，我让chatgpt改了一下用0.1min在txt中跑了一下测试似乎问题是解决了，mangastyle加了2个，22x6=132轮任务，晚上约9点、10点暂停分析一下然后通宵继续跑？如果顺利的话再测试2话，并且用另一个主题生成另一个系列漫画如果再次顺利的话就再买个midjourney生产器然后把midjourney程序修改为drissionpage驱动。

drissionpage下载时注意设定的起始id不能包含使用过upscale的图，可以用上次结束的最后一张图作为起始点，因为bot回应upscale会把那个id复现一份导致，下载从upscale部分开始。drissionpage下载 midjourney生产器是无需值守的，可以在此期间翻看其他网页。

从前6个场景来看宿舍基本画风和造型是一致的，工地的外景也可以连贯起来，不过画风方面感觉不是太好，暂时还没能深度把控画风。

感觉如果能做下面这种画风就好了，在画风引导方面我没有统一制定图片这可能造成一些不协调，下次要注意。

参考图链接是有时效性的！我暂时不清楚这个时效性是多少，会不会接下来的执行会全部报废？下图这张我用在了寝室Dormitory area的参考获得了上面3个图，看起来这长能起到一定的“酷炫风”画风，我可以试着把它用V扩展几个变种来控制整体画风？但这样可能导致场景受影响，那么代入3个isolated white background风格人物呢？

经查阅discord的参考图有效时间为24小时，于是我想切换到qq空间相册的图片链接，但这涉及qq空间登录状态，顺便终于解决了drissionpage每次浏览器关闭再启动，我发现drissionpage只要第一次启动浏览器后不关闭它基于这个浏览器，下次启动会打开新标签页而不用关闭浏览器再开。那么在这个状态下进入qq空间，再让drissionpage进来就好了。经测试qq空间的图片可以用url形式访问，也可以在telegram中通过链接显示图片来挑选参考图。qq空间的图片不点开是小图链接示例为：

http://m.qpic.cn/psc?/V50dOZpN4MWfL23P9kbH3rs84c1OuhVT/LiySpxowE0yeWXwBdXNSZV8.m1jQ.r1hh0T4lfHKHsEkiC6AEv.ddmOU.hxl6h2HP1EBAylfJIHk16iYafgAeJbGNNWxeFeKGN.5jljZI!/mnull&bo=gANABYADQAUDByI!&rf=photolist&t=5

去掉mnull&即为大图

https://m.qpic.cn/psc?/V50dOZpN4MWfL23P9kbH3rs84c1OuhVT/LiySpxowE0yeWXwBdXNSZV8.m1jQ.r1hh0T4lfHKHsEkiC6AEv.ddmOU.hxl6h2HP1EBAylfJIHk16iYafgAeJbGNNWxeFeKGN.5jljZI!/bo=gANABYADQAUDByI!&rf=photolist&t=5

又得设法改一下url复制的程序从qq空间拿图了。

2024-9-14更新：

在客户端midjourney生产器手动输入过期url作为参考，会提示cannot fetch image，然而不知道为什么在网页端midjourney生产器似乎可以使用过期url？吃个饭回来再看看情况？早上把从discord批量复制url的程序改了下，实现了从qq空间批量复制url，qq图片url可以被midjourney识别而且应该是永久的。另外qq空间可以一次性大批量上传图片，discord上限为10张。

最终22张图出来以后，我觉得不算太满意，比较不错的是场景的协调一致性基本可以，但是人物画风还是偏差有些大，特别是对比度明暗方面。我想最好明暗是下面这种感觉。虽然可以通过大量参考图解决明暗问题，但是同时会因为人物pose造型重复而使人物在场景中的动作、布局僵化定型。

这两天运行的6x4单张剧情中好几个是这种多人物没有特写展现场景的，可能是因为关键词本身强调场景的原因，一方面是我的多重url参考本身包含好几张这样的图，人物近距离的参考图细节也少。

2024-9-15更新：

昨天在削弱了location参考并对人物部分添加强对比度和多面部细节之后出来的效果，对比昨天的，明显感觉更为生动了，环境衔接也基本可以。发现问题主要出在了loacation为construction site的部分，因为这部分给了3个location参考都是不带人物细节，且有多个是背影，最终出来的效果大多是远景缺乏细节。考虑到construction site占的篇幅很大，这就意味着多个场景都是远景缺乏角色表现力的，我想对相关的url参考做调整，这里问题就来了当工地的环境参考被削弱后，工地的环境一致性就衔接不上了。