How did we use computer vision to help medical experts diagnose Follicular Lymphoma?

Leia nosso artigo sobre

Autor

Yague THIAM

Cientista sênior do Data no Artefact

14 de dezembro de 2020
Com a introdução de permissões de opt-in para aplicativos, o iOS 14 tornará mais difícil para as marcas atingir os consumidores em um nível individual e medir os resultados das atividades de marketing. Bobby Gray, diretor de análise e marketing Data da Artefact, analisa o impacto e explica como as marcas podem reagir usando o first-party data.

Introdução

Esse projeto faz parte da contribuição da Artefact na Tech for Good. O projeto foi realizado em colaboração com o Institut Carnot CALYM, um consórcio dedicado à pesquisa em parceria sobre linfoma, e a Microsoft.

No outono de 2019, o Institut Carnot CALYM lançou um programa de estruturação com o objetivo de estabelecer um roteiro para otimizar a valorização e a exploração do data a partir da pesquisa clínica, translacional e pré-clínica realizada pelos membros do consórcio por mais de 20 anos. Esse projeto, proposto pelo Pr Camille Laurent (LYSA, IUCT, CHU Toulouse, França) e Pr Christiane Copie (LYSARC, Pierre-Bénite, França), ambos membros do Institut Carnot CALYM, faz parte desse programa de estruturação.

O objetivo principal deste projeto de pesquisa é desenvolver um algoritmo de aprendizagem profunda para auxiliar os patologistas no diagnóstico do linfoma folicular. Um objetivo secundário é identificar critérios informativos que possam ajudar os médicos especialistas a entender as diferenças morfológicas entre o linfoma folicular e a hiperplasia folicular, que serão referidos a seguir como FL e FH.

O que é o linfoma folicular? Quais são os desafios em seu diagnóstico?

A FL é um subtipo de linfoma, o câncer de sangue mais frequente no mundo. Existem mais de 80 tipos de linfoma e essa diversidade dificulta seu diagnóstico, mesmo para os especialistas. Além disso, a FL é muito semelhante à FH, que não é cancerígena, o que aumenta os desafios ao seu diagnóstico.

Neste artigo, descreveremos nossa abordagem na criação de um classificador para FL e FH usando apenas imagens de lâminas inteiras rotuladas. As imagens de lâminas inteiras são arquivos digitais de alta resolução de lâminas de microscópio digitalizadas. Em nosso caso, elas contêm extratos de linfonodos.

Como a aprendizagem profunda poderia ajudar na sua detecção?

Usando imagens de slides inteiros de FL e FH, treinamos um classificador binário por meio de uma abordagem baseada em patches. Nossa arquitetura de modelo é um Resnet-18 simples treinado em poucas épocas (~10).

Depois de prever a classe de uma observação com o classificador, extraímos a última camada de ativação para criar um mapa de calor na parte superior da imagem de entrada para destacar as partes que levaram o modelo a definir uma determinada classe.

Por que usamos uma classificação baseada em patches?

A classificação baseada em patches é uma técnica de classificação em que a classe de uma determinada observação é construída com base na agregação das previsões de seus componentes (patches). Em nosso caso, ela é usada porque as imagens são muito grandes para serem usadas diretamente no modelo.

Na verdade, as imagens de slides inteiros são muito grandes (~10⁵ pixels quadrados). Seu tamanho torna o treinamento de um modelo de aprendizagem profunda quase impossível com ferramentas comuns. Para resolver esse problema, nós as dividimos em patches do mesmo tamanho seguindo dois critérios importantes:

As manchas devem ser grandes o suficiente para que os folículos permaneçam visíveis nelas
os patches devem ser pequenos o suficiente para que o treinamento de um modelo possa ser feito em um período de tempo razoável

Na classificação baseada em patches, a saída do modelo pode ser interpretada como a de uma classificação clássica, exceto pelo fato de que a primeira camada de cálculo está no nível do slide inteiro. Por exemplo, ao prever a classe de um slide de FL, uma pontuação de 98% significaria que 98 % dos patches que o compõem foram previstos como FL.

No nível dataset, esse slide será previsto com uma pontuação de 0,98 para a classe FL.

PS: Fizemos a hipótese de dividir as imagens em manchas com base nas conclusões de especialistas médicos que afirmam que, em uma lâmina inteira de FL, espera-se que os folículos estejam presentes em todos os lugares.

Conjunto de treinamento

Nosso conjunto de treinamento é composto de 58 mil patches selecionados aleatoriamente (quadrado de 1024 pixels) de FL e FH extraídos de um conjunto de 30 imagens de slides inteiros em cada uma das duas classes.

Conjunto de validação

20% dos patches foram amostrados para validar o desempenho do modelo no momento do treinamento.

Conjunto de teste

Nosso conjunto de testes é composto de 15 imagens de slides inteiros, cada uma dividida em patches. Esse conjunto de referência foi usado para comparar os resultados de diferentes abordagens de treinamento que precisaremos a seguir.

Modelagem

Antes de treinar o classificador de aprendizagem profunda: Preparação e processamento de imagens

(Acima: As imagens são primeiramente divididas em manchas e, em seguida, normalizadas antes de serem fornecidas ao modelo para treinamento).

Após o treinamento: Inferência e interpretação

(Acima: No momento da inferência, os novos slides inteiros são divididos em patches antes que o modelo preveja uma classe para
cada uma delas. As partes das imagens responsáveis pela previsão da classe FL são destacadas para ajudar no monitoramento
os resultados).

Nas seções abaixo, daremos detalhes sobre essas diferentes etapas do pipeline.

Data preparação e processamento

1 - Ladrilho

Como dito anteriormente, as imagens de slides inteiros são muito grandes e não podem ser inseridas diretamente em um modelo de classificação, a menos que o senhor esteja usando um hardware supergaláctico. Usamos a biblioteca guia aberto para ler os slides e seus deepzoom para dividir as imagens em blocos relativamente pequenos de 1024 pixels quadrados. Depois de dividi-las em blocos, passamos por um limpador básico que descartou todos os blocos que não estavam no centro do tecido (bordas, buracos etc.).

2 - Normalização de manchas

A segunda etapa do nosso processamento do data, que também é a mais importante, é a normalização da cor da mancha. A coloração é o processo de destacar recursos importantes em lâminas e aprimorar o contraste entre eles. O sistema de coloração usado é o comum H&E (Hematoxilina e Eosina).
Entretanto, como as imagens são provenientes de muitos laboratórios diferentes, observamos variações na coloração das lâminas. Elas se devem principalmente às diferenças no processo de tingimento de um laboratório para outro. Essas diferenças podem afetar muito o desempenho do modelo.

Usamos técnicas clássicas para normalizar a coloração do dataset antes de treinar o modelo.

(Acima: Resultados de três diferentes normalizações de manchas: a coloração de uma imagem-alvo é normalizada para uma distribuição de cores da imagem de base).

Escolhemos o Reinhard para ver o impacto no modelo.

Treinamento de um classificador Resnet-18

Depois de processar as imagens de slides inteiros, o treinamento ocorreu sem problemas (desistência, decaimento de peso etc.). Nada extravagante, exceto pelo acréscimo de confusão no aumento do data. Usamos um Resnet18 treinados do zero, pois os modelos pré-treinados não estavam melhorando significativamente nossos resultados. Também preferimos o Resnet-18, pois o Resnet-34 e o Resnet-56 não estavam melhorando nosso desempenho. Depois de aproximadamente 10 épocas, nosso modelo estava pronto para ser testado.
Usamos o muito prático Fastai para criar nossos modelos com pouco esforço.

Testes

Vale a pena mencionar os resultados de 3 experimentos:

Uma simples resnet-18 como linha de base
Uma normalização do resnet-18 + stain no conjunto data
Uma normalização do resnet-18 + stain no dataset + mixup como aumento do data

Os resultados no conjunto de teste para essas três experiências são mostrados abaixo:

(Acima: Os resultados de 3 modelos diferentes nas 16 lâminas selecionadas de linfoma folicular. Podemos ver o efeito da normalização e da mistura de manchas no desempenho).

A normalização de manchas é, de longe, a etapa mais importante em nossa abordagem de modelagem. Estávamos enfrentando problemas de generalização (linha vermelha), mas ela definitivamente ajudou a resolver o problema. Acrescentar a mistura e um mosaico de duas etapas torna tudo ainda melhor.

MixUp é uma técnica de aumento de data que consiste em criar novas observações interpolando linearmente muitas amostras.

Interpretação dos resultados de um classificador de visão computacional

Para comunicar facilmente os resultados aos médicos especialistas, fornecemos imagens com mapas de calor para destacar onde estava o foco do modelo ao prever um determinado rótulo. Fizemos isso extraindo a última camada de ativação da rede convolucional e extrapolando-a linearmente na imagem para a qual estávamos fazendo a previsão.

(Acima: As partes da imagem que mais contribuíram para a previsão da classe Follicular Lymphoma estão destacadas na imagem do lado direito - 12 patches)).

A interpretação do resultado do modelo com mapas de calor foi muito útil para ajustar a abordagem de modelagem, pois oferece aos especialistas maneiras de analisar o que o modelo está realmente fazendo. Por meio de nossos intercâmbios com especialistas, nós (cientistas do data) conseguimos ajustar a forma de lidar melhor com o conjunto data e tornar o modelo mais robusto (ou seja, capaz de se adaptar a diferentes tipos de dados). E também para garantir que ele atenda a seu propósito. Na verdade, foi assim que percebemos a necessidade de normalizar a coloração das imagens.

Conclusão e principais aprendizados

O objetivo deste estudo foi explorar o processo de criação de um bom classificador de base de aprendizagem profunda para diferenciar o linfoma folicular e a hiperplasia folicular. Nossos principais aprendizados estão listados abaixo:

A grande importância da normalização de cores ao treinar um modelo com esse tipo de dataset
O uso de técnicas avançadas de aumento do data, como o mixup, pode ajudar a aumentar o desempenho
A estreita colaboração com especialistas médicos para desafiar os modelos a cada iteração

Média Blog por Artefact.

Este artigo foi publicado inicialmente no Medium.com.
Siga-nos em nosso Medium Blog !

Leia nosso artigo

Como usamos a visão computacional para ajudar os especialistas médicos a diagnosticar o linfoma folicular?