Please use this identifier to cite or link to this item:
http://repositoriosenaiba.fieb.org.br/handle/fieb/1818
Title: | Uma metodologia para agrupamento de processos judiciais baseada em aprendizagem profunda aplicada à justiça trabalhista brasileira |
Other Titles: | A learning-based methodology for clustering legal cases profound application to Brazilian labor justice |
Authors: | Oliveira, Raphael Sousa de |
metadata.dc.contributor.advisor: | Nascimento, Erick Giovani Sperandio |
metadata.dc.contributor.referees: | Cardoso, Hugo Saba Pereira Noronha Neto, Mário de |
Keywords: | Jurídico;Processamento de linguagem natural;Clusterização;Word2vec;Transformers |
Issue Date: | 2022 |
Publisher: | Centro Universitário SENAI CIMATEC |
Citation: | OLIVEIRA, Raphael Sousa de. Uma metodologia para agrupamento de processos judiciais baseada em aprendizagem profunda aplicada à justiça trabalhista brasileira. Orientador: Erick Giovani Sperandio Nascimento. 2022. 90 f. Dissertação (Mestrado em Modelagem Computacional e Tecnologia Industrial) – Centro Universitário SENAI CIMATEC, Salvador, 2022. |
metadata.dc.description.resumo: | O ordenamento jurídico brasileiro estabelece medidas para garantir a celeridade da resolução dos processos judiciais, como o princípio da razoável duração das ações judiciais, o princípio da celeridade, da economia processual e do devido fluxo jurídico, com vistas à otimização do processo judicial. No entanto, os Tribunais Judiciais vivem um período de grandes cortes orçamentais e redução do número de magistrados e colaboradores civis. Nesta situação atual, a Tecnologia da Informação, mais especificamente a Inteligência Artificial (IA), tem tido sucesso no enfrentamento de muitos problemas complexos na área de Processamento de Linguagem Natural (do inglês Natural Language Processing - NLP), o que pode ajudar a amenizar as dificuldades enfrentadas por essas restrições. Dentre as necessidades que podem ser atendidas com a IA, a automatização da classificação de documentos é de grande interesse, pois, quando corretamente classificados, podem indicar caminhos a serem seguidos pelo judiciário para garantir a resolução célere dos processos judiciais. Nesse contexto, este trabalho busca detectar o grau de similaridade entre documentos judiciais que pode ser alcançado nos grupos inferidos por meio do uso do aprendizado não supervisionado. Em seguida, por meio da aplicação de nove técnicas de Processamento de Linguagem Natural, que são (i) Frequência de Termos - Frequência Inversa de Documentos (TF-IDF); (ii) Word2Vec com CBoW especializado no corpus da língua brasileira; (iii) Word2Vec com Skip-gram especializado no corpus da língua brasileira; (iv) BERT (Bidirectional Encoder Representations from Transformers) treinado para fins gerais para o Português Brasileiro; (v) BERT especializado com o corpus do Judiciário trabalhista brasileiro; (vi) GPT-2 treinado para fins gerais para o Português Brasileiro; (vii) GPT-2 especializado no corpus do Judiciário trabalhista brasileiro; (viii) RoBERTa treinado para fins gerais para o Português Brasileiro; e (ix) RoBERTa especializado no corpus do Judiciário trabalhista brasileiro, foi desenvolvido um modelo de agrupamento de ações judiciais, que é calculado com base no cosseno da distância entre os elementos do grupo ao seu centróide. O Recurso Ordinário (RO) foi escolhido como tipo de documento de referência pelo fato de ser o documento que aciona o processo para subir à instância superior e por existir atualmente um grande contingente de ações aguardando julgamento em 2ª instância. Após as etapas de extração de dados, pré-processamento e limpeza, os documentos tiveram seu conteúdo transformado em uma representação vetorial, utilizando as nove técnicas de NLP citadas acima. Para BERT especializado, GPT-2 especializado e RoBERTa especializado foi necessário um passo prévio de geração de vetores densos de representação da informação - word embeddings. Preliminarmente, através do estudo apresentado, pode-se perceber que o uso de modelos de word embedding especializados é um importante avanço na qualidade dos modelos que utilizam o conteúdo de documentos como recursos, principalmente quando se trata de modelos de NLP baseados na arquitetura Transformers. |
Abstract: | The Brazilian legal system establishes measures to ensure the speed of resolution of lawsuits, such as the principle of reasonable duration of lawsuits, the principle of speed, procedural economy and due legal flow, with a view to optimizing the judicial process. However, the Judicial Courts are experiencing a period of major budget cuts and a reduction in the number of magistrates and civil collaborators. In this current situation, Information Technology, more specifically Artificial Intelligence (AI), has been successful in facing many complex problems in the area of Natural Language Processing (NLP), which can help to alleviate the difficulties faced by these restrictions. Among the needs that can be met with AI, the automation of document classification is of great interest, because, when correctly classified, they can indicate paths to be followed by the judiciary to ensure the speedy resolution of legal proceedings. In this context, this work seeks to detect the degree of similarity between court documents that can be achieved in the inferred groups through the use of unsupervised learning. Then, through the application of nine Natural Language Processing techniques, which are (i) Frequency of Terms - Inverse Frequency of Documents (TF-IDF); (ii) Word2Vec with CBoW specialized in the Brazilian language corpus; (iii) Word2Vec with Skip-gram specialized in the Brazilian language corpus; (iv) BERT (Bidirectional Encoder Representations from Transformers) trained for general purposes for Brazilian Portuguese; (v) BERT specialized with the corpus of the Brazilian labor judiciary; (vi) General purpose trained GPT-2 for Brazilian Portuguese; (vii) GPT-2 specialized in the corpus of the Brazilian labor judiciary; (viii) Roberta trained for general purposes in Brazilian Portuguese; and (ix) Roberta, specialized in the corpus of the Brazilian labor judiciary, developed a model for grouping lawsuits, which is calculated based on the cosine of the distance between the elements of the group to its centroid. The Ordinary Appeal (acronym in Portuguese for “Recurso Ordinário” - RO) was chosen as the type of reference document because it is the document that triggers the process to go to the higher court and because there is currently a large contingent of lawsuits awaiting judgment in the 2nd instance. After the steps of data extraction, pre-processing and cleaning, the documents had their content transformed into a vector representation, using the nine NLP techniques mentioned above. For specialized BERT, specialized GPT-2 and specialized RoBERTa, a previous step of generating dense vectors of information representation - word embeddings was necessary. Preliminarily, through the presented study, it can be seen that the use of specialized word embedding models is an important advance in the quality of models that use document content as resources, especially when it comes to NLP models based on Transformers architecture. |
URI: | http://repositoriosenaiba.fieb.org.br/handle/fieb/1818 |
Appears in Collections: | Dissertações de Mestrado (PPG MCTI) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
DISSERTAÇÃO_RAPHAEL SOUZA DE OLIVEIRA.pdf | TCCP / DISSERTAÇÃO MCTI / SENAI CIMATEC | 25.94 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.