Please use this identifier to cite or link to this item: http://repositoriosenaiba.fieb.org.br/handle/fieb/1807
Title: Método para analisar autoria de textos baseado em regras de associação e redes de palavras
Other Titles: Method for analyzing text authorship based on association rules and networks words
Authors: Souza Junior, Cleônidas Tavares de
metadata.dc.contributor.advisor: Senna, Valter de
metadata.dc.contributor.advisor-co: Pereira, Hernane Borges de Barros
metadata.dc.contributor.referees: Gonçalves, Marcelo Albano Moret Simões
Fadigas, Inacio de Sousa
Cunha, Marcelo do Vale
Rosa, Marcos Grilo
Keywords: Análise de autoria;Regras de associação;Redes de palavras;Combinações de palavras
Issue Date: 25-Oct-2022
Publisher: Centro Universitário SENAI CIMATEC
Citation: SOUZA JÚNIOR, Cleônidas Tavares de. Método para analisar autoria de textos baseado em regras de associação e redes de palavras. Orientador: Valter de Senna. 2022. 135 f. Tese (Doutorado em Modelagem Computacional e Tecnologia Industrial) – Centro Universitário SENAI CIMATEC, Salvador, 2021.
metadata.dc.description.resumo: Esta tese trata de métodos para análise e verificação de autoria. De modo mais especí fico, aborda-se a análise de autoria (AA) de textos escritos, em especial, obras literárias em língua portuguesa do Brasil e de Portugal. A AA de textos investiga o quanto uma obra de autoria desconhecida é semelhante ao conjunto de obras de um autor conhecido (LAGUTINA et al., 2019; ROCHA et al., 2017; VENCKAUSKAS et al., 2015; BOUA NANI; KASSOU, 2014; TAMBOLI; PRASAD, 2013; STAMATATOS, 2009; HOLMES, 1985). Autenticar o real autor de uma obra é importante, pois previne que falsas atri buições de autoria sejam feitas e evita, por exemplo, que a notoriedade de um escritor seja usada para difundir ideias que, originalmente, não são suas. Para analisar as se melhanças entre as obras, a AA extrai, organiza e compara estruturas que aparecem nos textos como quantidades de letras, comprimento das frases, repetição de palavras etc. (ROCHA, 2019; JAMIL; MUSTAFA, 2018; REXHA et al., 2007; MARKOV; BAP TISTA; PICHARDO-LAGUNAS, 2017; VOROBEVA, 2016). Com o presente trabalho, identificou-se a carência, na AA, de estudos que verifiquem a autoria de um texto a partir das combinações de palavras (i.e. conjuntos de palavras que recorrentemente aparecem entre as frases de um escritor e que não aparecem nos conjuntos de palavras de outros escritores). Nesse sentido, esta tese tem como objetivo apresentar um novo método para verificação de autoria. Assume-se que as combinações das palavras não acontecem de modo aleatório; elas ocorrem em conformidade com o conhecimento sintático e semântico que os autores têm e evidenciam de sua língua (CHOMSKY, 2018; CHOMSKY, 1994; MIOTO; SILVA; LOPES, 2007; FRANCHI; NEGRAO; MULLER, 1998). A vantagem de se analisar combinações de palavras está em descobrir padrões relativos a cada autor e aos contextos de produção e publicação de cada obra. O método proposto nesta tese extrai combinações de palavras por meio de regras de associação, consolida as combinações em redes de palavras e, a partir de dezesseis métricas de rede, analisa e infere, em obras lite rárias, os períodos das edições, as variedades de língua portuguesa utilizadas, as escolas literárias e os autores. Nesse sentido, esta tese contribui para a AA com um método de trabalho que, além de verificar autorias, evidencia os contextos que, supostamente, um texto inédito de um autor deveria apresentar.
Abstract: This thesis deals with methods for authorship analysis and verification. More specifi cally, authorship analysis (AA) of digital texts, in particular, literary works in Portuguese from Brazil and Portugal. The AA investigates how similar is a work by an unknown author to a set of works by a known author (LAGUTINA et al., 2019; ROCHA et al., 2017; VENCKAUSKAS et al., 2015; BOUANANI; KASSOU, 2014; TAMBOLI; PRA SAD, 2013; STAMATATOS, 2009; HOLMES, 1985). Authenticating the real author of a work is important, it prevents false authorship attributions and prevents, for exam ple, that the notoriety of a writer is used to spread ideas that, originally, are not his. To analyze the similarities between the works, the AA extracts, organizes and compares structures that appear in the texts, such as number of letters, length of sentences, re petition of words, etc. (ROCHA, 2019; JAMIL; MUSTAFA, 2018; REXHA et al., 2007; MARKOV; BAPTISTA; PICHARDO-LAGUNAS, 2017; VOROBEVA, 2016). In AA, we identified a lack of studies that verify the authorship of a text from combinations of words (i.e. sets of words that recurrently appear among the sentences of a writer and that do not appear in the sets of words of other writers). In this sense, this thesis aims to present a new method for authorship verification. Word combinations are assumed not to happen randomly; they occur in accordance with the syntactic and semantic knowledge that the authors have and evidence of their language (CHOMSKY, 2018; CHOMSKY, 1994; MI OTO; SILVA; LOPES, 2007; FRANCHI; NEGRAO; MULLER, 1998). The advantage of analyzing word combinations lies in discovering patterns related to each author and the contexts of production and publication of each work. The method proposed in this thesis extracts word combinations through association rules, consolidates the combinations into word networks and, from sixteen network metrics, analyzes and infers, in literary works, the periods of editions, the varieties of language Portuguese used, the literary schools and the authors. In this sense, this thesis contributes to AA with a working method that, in addition to verifying authorship, highlights the contexts that, supposedly, an unpublished text by an author should present.
URI: http://repositoriosenaiba.fieb.org.br/handle/fieb/1807
Appears in Collections:Teses de Doutorado (PPG MCTI)

Files in This Item:
File Description SizeFormat 
TESE_CLEÔNIDAS TAVARES DE SOUZA JÚNIOR.pdfTCCP / TESE MCTI / SENAI CIMATEC7.07 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.