Background

BLOG PIXELZ

Receba insigths em pós producão de imagens, fotografias de produto, melhores práticas em imagens para eCommerce

Resultados

A pesquisa não retornou nenhum resultado. Por favor, tente novamente!

Como a Pixelz está usando Inteligência Artificial (AI) para automatizar o retoque de imagens (ou como retocar um milhão de imagens em 30 segundos)


Main Image

As redes neurais estão aqui, e elas estão mudando para sempre a edição de imagem de um produto.

A AI (Inteligência Artificial) é uma “buzzword” nos dias de hoje, como veículos autônomos e os surgimentos de super inteligências apocalípticas que ganham grandes manchetes. Se você tem medo do fim da humanidade ou só está ansioso para conversar com um robô taxista cansado (“Motorista! Se empenhe no ‘É claro que está quente lá fora hoje!’ resolvido.”), você não pode evitar este assunto: e nem deve.

Você deveria se aproveitar disso.

A AI foi praticamente construída para a edição de imagem de e-commerce (Obrigado MIT, Google, Microsoft e Adobe)

Se você ainda não usa AI para trabalhar de uma forma inteligente, você está ficando para trás. Automação é uma das maiores eficiências encontrada num processo de trabalho, e isso é particularmente verdadeiro em trabalhos onerosos, mas repetitivos, como fotografia de produto e pós-produção.

Na verdade, a AI de hoje está quase que perfeitamente alinhada às necessidades de edição de imagens de e-commerce. Por quê?

  1. As melhores mentes em tecnologia estão intensamente focadas na classificação de imagens em AI
  2. Entrada padrão + saída padrão = explorações acionáveis
  3. Você pode usar a nuvem para autoescalar AI

Antes que eu assuste (ou chateie) você, aqui está um breve histórico sobre o que Pixelz já está fazendo com a AI. Não é somente teoria para nós, ou algo para se olhar no futuro. O desenvolvimento da AI está conduzindo nossa empresa – foi fundamental para nossa recente rodada de financiamento da Series A funding— e tem sido assim há muito tempo.

Atualmente, 20% da Pixelz é automatizada (e será 50% até 2019)

Nós acreditamos profundamente na padronização, automação e priorização da qualidade. Por quê? Porque a produção enxuta tem provado e comprovado que produz com melhor qualidade, mais rápido e de forma mais eficiente em praticamente todos os setores.

A look at image editing steps and photoshop log in Pixelz system

As imagens são editadas em micro-etapas por especialistas e automação, com toda a atividade do Photoshop registrada.

É por isso que criamos o S.A.W. ™, uma linha de montagem no Photoshop para edição de imagens de produtos. O S.A.W. ™ divide a edição de imagens em pequenas etapas que são concluídas por uma combinação de editores especializados, AI e scripts.

Na verdade, 20% da nossa edição de imagens é automatizada, e isso está crescendo de forma constante.

Como nosso CEO, Thomas Kragelund, disse recentemente à Forbes, “estimamos que 50% de nossa pós-produção será automatizada até 2019, o que é possível porque analisamos uma enorme quantidade de dados. Temos acompanhado nossa atividade no Photoshop por anos - todos os retoques acontecem em nossa extensão registrada do Photoshop - então temos dados sobre milhões de imagens e esse conhecimento nos direciona. A edição de imagens é complexa, mas dividí-la em centenas de microetapas nos permite treinar de forma precisa a AI. Os dados praticamente tomam decisões por nós e isso é extremamente empolgante. ”

Então, como isso funciona? Como a AI pode ser integrada na pós-produção?

Primeiro, você precisa de algo como S.A.W. ™. Porque nós dividimos a edição de imagens em etapas componentes, nós podemos isolar processos individuais e treinar inteligências para tarefas específicas. Controlar a entrada é crucial: ela limita exceções e outros casos “especiais” que são difíceis de serem manipulados pela AI - assim como os humanos.

Um “trimap” desenhado por humanos auxilia a máscara AI no processo de um trabalho.

Por exemplo, numa uma foto de um produto que geralmente está no centro da imagem, normalmente nós temos uma ideia de que tipo de produto o cliente fará o upload. Isso torna muito mais fácil ao treinar uma AI para desenhar uma máscara ao redor do produto. Nós também podemos usar humanos para identificar bordas antes de enviar para a AI, e validar os resultados imediatamente após a conclusão de uma etapa - treinamento adicional para a AI.

Vamos começar com um exemplo real.

Usando AI para remover as manchas do rosto (Funciona! Mas ninguém quer isso...)

Before and after of AI mole removal from product image

Antes e depois da remoção das manchas usando AI.

Uma das nossas primeiras AI funcionais foi treinada para remover as manchas durante o retoque da pele. Nós usamos algoritmos tradicionais para detectar primeiro a pele, depois outro algoritmo para detectar as "candidatas" (manchas em potencial a serem removidas) e, em seguida, usamos uma AI para classificar essas candidatas.

As manchas candidatas foram determinadas com base na diferença de cor com a pele. Parece simples - e é por isso que existem algoritmos para isso -, mas o problema que nós encontramos foi que o cabelo solto acionou falsos positivos. O trabalho da AI ​era classificar manchas e não-manchas, e para treiná-la nós a alimentamos com 65.000 imagens de manchas e não manchas, organizadas manualmente (trabalho divertido!).

Screenshot of lots of mole photos

Manchas usadas para treinar AI.

Screenshot of not-moles, hair, used to train AI

Não manchas (cabelo) usadas para treinar AI.

Depois que as manchas e não manchas foram devidamente classificadas, nós usamos um script padrão do Photoshop para removê-las.

O projeto funcionou! Nós automatizamos com sucesso a remoção das manchas – entretanto, as tendências mudaram, e hoje em dia a maioria de nossos clientes prefere uma aparência completamente natural, com manchas . Mas foi um projeto de pesquisa, e sobretudo seu sucesso nos impulsionou ainda mais no caminho da AI.

Usando AI como controle de tráfego (Escovas de dente à esquerda, cadeiras à direita!)

Na Pixelz de hoje, a maior parte da nossa inteligência artificial está focada na classificação de imagens após o upload: basicamente, olhando para uma foto e descobrindo o que está nela. Muito parecido com o nosso exemplo de "manchas e não manchas", mas com parâmetros muito mais amplos. Existe um modelo? Um manequim? Sapato? Garrafa? Mesa? Etc.

Photo of creative denim jean laydown

É preciso uma AI bem treinada para classificar produtos executando-os de forma criativa.

Talvez isso pareça simples para você ("Uma criança de dois anos de idade consegue dizer se há uma pessoa em uma foto ou não!"), Mas na verdade este é um dos maiores desafios da inteligência artificial. O cérebro humano se sobressai na interpretação de entradas visuais e auditivas, e o que as crianças identificam intuitivamente sem aparentar esforço, pode confundir supercomputadores. Quase toda a AI mais recente, mais legal e mais popular gira em torno do reconhecimento de imagem e áudio.

Self-driving car AI classification encountering bicycle edge case on truck printed decal

“É por isso que os carros autônomos vêm carregados com muitos tipos de sensores.” CRE (Conselho Representativo dos Estudantes) MIT Technology Review

Carros autônomos? É este tipo de interpretação das imagens que nossas vidas dependem literalmente (e do radar e do lidar, espero).

Alexa? Siri? Google Home? Reconhecimento de fala.

Traduzindo sinais de rua com seu telefone e um aplicativo de câmera? Classificação de imagem. Detectando sinais de alerta de câncer em raios-x? Classificação de imagem. Você entendeu a ideia.

Então, sim, a AI da Pixelz classifica inicialmente as imagens (usando uma arquitetura conhecida como “Inception” no “GoogLeNet” projetado por - você adivinhou - Google). A primeira vez que isso acontece é durante um estágio que chamamos de "preparação de imagem".

A preparação é o primeiro passo de todas as imagens e determina as etapas futuras para cada uma. A maior parte disso é categorização: como nosso COO Jakob Osterby diz: “Se você tivesse a mesma entrada toda vez, não seria um problema porque você conhece o objeto. Mas pode ser uma cadeira, pode ser uma escova de dentes ou uma jaqueta. E se é uma jaqueta, há uma grande diferença entre couro e pele.

Felizmente para nós, temos algumas expectativas em relação à entrada das imagens porque os clientes definem as especificações dos produtos com antecedência, mas mesmo assim ainda há muita variação. "Se houver um adereço, se não houver um adereço, isso é uma grande diferença em nosso processo de trabalho", diz Jakob. “Talvez um modelo não tenha uma etapa de retoque. Mas se houver um adereço na frente do objeto que sera trabalhado - pode ser um cabide, uma linha de pesca ou um suporte de bolsa - vamos removê-lo ”.

A AI e o humano híbrido (Não é um ciborgue)

A AI não apenas classifica imagens por tipo durante sua preparação, mas também atribui pontuações de complexidade com base em elementos como: reconhecimento facial, contraste de fundo, pontos em uma camada da máscara e presença de pele.

Essa pontuação ajuda a determinar custos, tempo de trabalho e para qual AI ou editor especializado uma imagem é encaminhada. “Ter AI na classificação, identifica algumas situações que ajudará o outro algoritmo de modelo AI a realizar algo mais tarde, e eu acho isso uma coisa linda”, diz Jakob.

Fotos de alto contraste são relativamente fáceis para a AI identificar a máscara.

Vamos ver um exemplo rápido, mas realista (e importante!).

Uma das coisas que a inteligência artificial detecta é o contraste contra o segundo plano. Para citar nosso exemplo anterior, uma jaqueta de couro preta terá um contraste maior com um fundo branco do que um casaco de pele branco. A jaqueta de couro preta pode ser encaminhada diretamente para uma AI para remoção automática de fundo, enquanto a imagem branco-sobre-branco de baixo contraste é direcionada para um editor para desenhar uma “trimap”, então enviar para a AI e posteriormente para um outro editor finalizar a mascara.

Os dados que gravamos durante a remoção do fundo branco sobre branco são armazenados e usados ​​para ajudar a treinar o AI mais tarde, com o objetivo de melhorar a capacidade de remover o fundo em imagens de baixo contraste.

Trimaps para encontrar o caminho (Aplicando a máscara para conseguir resultado)

Esse é um exemplo bem simples e há muitos softwares que podem fazer um bom trabalho quando as imagens têm bordas nítidas e alto contraste (incluindo o próprio Photoshop). Mas quando as cores são sutis, os produtos têm muitas bordas (como uma cadeira de tecido ou uma série de joias) e quando os modelos estão envolvidos, fica mais difícil desenhar uma máscara.

Trimaps desenhados por humanos auxiliam as camadas das máscaras para a AI.

Você está pronto para alguma notícia impactante? A maioria dos modelos tem cabelo. Muitos cabelos, estilizados e jogados de forma espetacular.

Fale com qualquer profissional que faz retoque em imagens e eles dirão que aplicar máscaras para o cabelo é uma das partes mais demoradas do trabalho. Fios finos voando por toda parte, cruzando linhas e adicionando toneladas de pontos novos e suaves para contornar.

Resolver o processo de aplicar a máscara é possivelmente o desafio mais importante da Pixelz. "Porque hoje, 40% do nosso tempo é gasto somente com isso", diz Jakob.

“Eu Acho que o grande avanço no machine learning será um modelo híbrido entre a AI e o humano”, continua Jakob. “Para a aplicação da máscara, a ideia é que quando a imagem chega para nós, hoje temos alguém, um editor - mas estamos treinando uma AI - desenhando um contorno em torno da imagem. Leva dois segundos na interface e ajuda o algoritmo a detectar a borda e distinguir entre adereços e o produto real. Em seguida, impulsionamos para o servidor, a AI remove o plano de fundo e a imagem é enviada de volta para um editor que talvez faça alguns retoques e valide. Com o tempo, a AI deve ser capaz de fazer mais e mais”.

Segundos para desenhar trimaps economizam minutos direcionando a AI a desenhar as camadas das máscaras.

Desenhar um contorno ao redor de uma imagem é parte de um “trimap”. Um trimap em nosso sistema divide uma imagem em três segmentos: o primeiro plano (mantenha-o!), o plano de fundo (exclua-o!) e a área de borda da máscara que será desenhada.

Ganhos, ganhos e mais ganhos (ou como aplicar a máscara em um milhão de imagens em 30 segundos)

Ok, isso parece bom. Mas por que tanto trabalho? Que tipo de ganhos concretos podemos ver REALMENTE na automação da AI?

As respostas são muito surpreendentes. É um trabalho em andamento e quantificar é um desafio para métricas amplas, mas somente para a aplicação de máscara na AI, vimos:

  1. Aplicação de máscara 15 vezes mais rápido
    • Há muita variação, já que o tempo de aplicação de máscara é específico de cada produto. Um editor (humano) pode levar de 20 segundos a 30 minutos para fazer a máscara de um produto, enquanto o AI varia de quase instantâneo a 1-2 minutos (ou mais para ambos). Atualmente, a maioria das máscaras AI precisa de um ajuste adicional depois - mas o acabamento da máscara feito por um editor tem um grande avanço! O que leva a…
  2. Economia de 15% nos custos de produção (projetados para 2018)
    • Gastamos muito em pesquisa e desenvolvimento, mas agora que está funcionando a máscara para AI, estamos vendo um RI (Retorno de Investimento) significativo (lembre-se de que o processo de aplicar a máscara é responsável por 40% de todo o nosso tempo de retoque). Como um bônus adicional, nossos editores têm mais tempo para se tornar peritos em tarefas de retoque mais avançados, agregando mais valor aos nossos clientes.
  3. Escala Infinita
    • Nossas redes neurais funcionam na nuvem. Além disso, um volume maior de imagem significa uma AI mais precisa, porque cada imagem editada ajuda a treiná-la.

Nesse último ponto - e é aí que você realmente começa a ver o poder da AI - fizemos nosso escalonamento automático de aplicação de máscaras pela AI nos servidores da Amazon. Como coloca Janus Matthesen, diretor de tecnologia da Pixelz, “nós automaticamente aumentamos o número de servidores à medida que obtemos mais imagens e reduzimos a escala novamente quando terminamos. Com isso podemos decidir com que rapidez queremos que nossas imagens passem por determinada etapa simplesmente criando mais servidores. A AI gasta cerca de 30 segundos por imagem, então, em teoria (com servidores suficientes), podemos completar qualquer carga de trabalho de aplicação de máscara pela AI em 30 segundos”.

Adeus, gargalos.

AI drawn layer mask of male model facing away from camera in product photo

As camadas de máscaras desenhadas pela AI tornam a imagem mais refinada.

Primeiro, comece com um fato básico: nem todos os processos automatizados são inteligentes. Para ser verdadeiramente inteligente, um processo deve ser capaz de aprender.

Por exemplo, temos muitos processos automatizados que não são inteligentes. Eles são robôs, scripts que funcionam em tarefas como "Aplicar contorno", "Aplicar máscara", "Preparação automática", "Finalização automática" e "Gabarito automático". Eles são sofisticados, mas limitados no seu escopo pela criatividade do autor. Eles não vão melhorar em suas tarefas sem intervenção humana: por exemplo, quando um editor de scripts percebe que precisamos de um novo tratamento para um tipo de produto, ele acessa e modifica manualmente o script.

"E as origens de tudo isso?", Diz Jakob. “Tivemos um passo em que somente precisávamos produzir uma camada para uma etapa. Nós tínhamos pessoas sentadas e fazendo isso, apenas apertando um botão e esperando que um script fosse executado, dez ou quinze segundos. Não foi apenas demorado, mas um trabalho muito maçante.”

Com a AI é diferente. A inteligência artificial é capaz de assimilar, principalmente adivinhando e aprendendo com os resultados da tentativa e erro.

Quanto mais treinada for a AI, maior precisão ela terá.

Como escalar com AI (use a nuvem, oras)

A AI não se torna inteligente sem treino e, para isso, você precisa de pilhas e pilhas de dados e muito poder de computação. Basta perguntar ao nosso CTO, Janus Matthesen. “Quando treinamos nossos modelos de AI, precisamos treinar milhões de imagens - um processo bastante demorado”, diz Janus. “Para encontrar a melhor configuração, também precisamos adequar pesos e hiperparâmetros para encontrar a combinação certa. Nós passamos esse trabalho para a nuvem e conseguimos viabilizar as escalas e testar várias configurações ao mesmo tempo.”

Nvidia Inception Program for AI Startups banner

A Pixelz no Programa de Iniciação da Nvidia para Startups de AI

"Nós costumávamos usar servidores locais com muitas GPUs (Unidades de Processamento Gráfico), mas agora que a Amazon lançou as instâncias P2 e P3 EC2, direcionamos esse trabalho para a nuvem", diz Janus. “Reduzir o tempo que usamos para encontrar as configurações corretas e dimensionar nosso treinamento em modelo de AI é uma vantagem competitiva para nós. Recentemente, nos juntamos ao programa de Iniciação da Nvidia para startups de AI, onde tomamos conhecimento da Nvidia GPU Cloud, que funciona bem acima das instâncias do P3.”

A AI está ficando melhor a cada dia (A Capsule Networks reconhece isso)

Como já dissemos antes, a Pixelz planeja automatizar 50% da pós-produção até o final de 2019. Poderíamos facilmente conseguir isso aplicando nossa abordagem de AI já existente nas áreas adicionais (trabalhos de retoque mais específicos como por exemplo de remoção de manchas ou recorte automático, ou selecionando imagens primárias para mercados, etc.), mas na verdade estamos antecipando avanços mais revolucionários.

Por exemplo, um último grande avanço resultou da publicação de dois trabalhos de pesquisa em outubro de 2017. A AI que nós (e todos os outros) estamos usando são “Redes Neurais de Convolução” (CNN). A CNN é o que as pessoas geralmente querem dizer quando se referem a “Deep Learning” ou “Machine Learning”.

Eu não quero me aprofundar muito, mas de forma bem simples, a CNN faz muita classificação e contagem de objetos sem identificar sua relação em 3 dimensões. Como resultado, um grande desafio para a CNN é reconhecer objetos semelhantes com diferentes posições (disposição, tamanho, orientação).

Overhead photo of creative laydown of assorted products

Estilo e ângulos criativos podem levar a posições inesperadas que enganam as redes neurais tradicionais (CNN).

O que isso significa para a fotografia de produto é que a CNN nem sempre é excelente em reconhecer produtos que foram girados, têm zoom atípico ou são fotografados de ângulos fora do padrão. Ou ainda, o que é mais comum, produtos que não têm forma fixa - como colares com sua grande variedade de estilo, correntes e pingentes. Somos capazes de atenuar essas dificuldades controlando a entrada e aplicando o treinamento com muitas e muitas imagens.

Então o mundo foi abalado quando um dos padrinhos do Deep Learning, Geoffrey Hinton, introduziu um novo tipo de rede neural que está sendo chamada de "Capsule Network" (CapsNet). As Capsule Network funcionam em grande parte identificando a pose!

Images used in Hinton Capsule Network research

Parte do conjunto de imagens usado por Geoffrey Hinton no artigo da Capsule Network ("Matrix Capsules With EM Routing").

As imagens usadas para a comprovação do conceito eram um conjunto de miniaturas de brinquedos fotografadas individualmente contra um fundo claro de vários ângulos - visão aérea, visão frontal, visão lateral, etc. Parecem muito com imagens de produtos, não é?

Identificar a pose em si é formidável e muito importante, mas a CapsNet também precisa de muito menos dados para treinamento. Isso é encorajador para nós, já que nos permitiria adaptar o CapsNet AI a mais áreas rapidamente. Esperamos que uma melhor compreensão do conteúdo da imagem nos leve a uma precisão ainda maior.

Estamos experimentando o CapsNet agora. Poderá ou não funcionar para nós, mas o avanço da tecnologia na AI é constante e é extraordinariamente excitante fazer parte disso.

Como usar a AI no seu trabalho de retoque (teste grátis)

Espero que você tenha gostado de aprender como a Pixelz usa a AI para retocar imagens de produtos e espero que você esteja convencido do seu valor (e com menos medo dos nossos futuros patrões da SkyNet).

Se você deseja incorporar a AI no seu trabalho de retoque, sinta-se à vontade para fazer perguntas. Comente, nos envie um e-mail ou nos informe através das redes sociais. Gostamos de ouvir os desafios que outras pessoas estão enfrentando, e para nós, a solução dos problemas é divertida. Nós não somos acumuladores de informações.

É claro que nem todo mundo tem tempo e recursos para mergulhar de cabeça na AI. Provavelmente não faz sentido se você é uma marca ou um varejista - é provável que você não tenha um volume de imagens para justificar uma equipe de desenvolvimento de Deep Learning na pós-produção. Então nós fazemos, para que você possa testar nosso sistema primeiro.

Professional free trial banner

Se você quiser ver o S.A.W. ™ em ação, de forma completa, com seus editores especialistas e a AI, experimente o teste gratuito Pixelz Professional e receba 10 imagens editadas gratuitamente.

Obrigado por ler!