[alibaba/easyexcel]解析带有 < & 等符号出现错位问题

2024-06-20 358 views
1

问题描述: 在Excel中,如果解析 “aaa<bbbb”这样的字符,Sax解析器将会将它分词为三个,而不是一个

解决方法: 在XlsxRowHandler的characters 接口中重新组装String。由于此处修改过大,没法提供PR了。


还有一些个人感想,各位可以讨论一下

我个人是在Github-trending中探索这个项目的,按照理论说,无论是阿里企业形象,还是Star数量,应该都是比较优质的项目,但是问题也有很多

  • 基本的MarkDown排版没有经过测试,使用文档非常简陋,maven提供的是过时的
  • 没有英文文档(导致很多英文用户在社区提出过在Trending进行block Chinese的抱怨
  • 基本无人维护,很多issue/PR的反馈没有回应。这个是面向KPI或者升P来编程吗

同样的一个国外项目 https://github.com/ozlerhakan/poiji 对方的Star只有不到100个,可能人家的技术性能只是一个wrapper,但是人家的文档,maven与问题单处理体现出了一种态度,这个是值得我们学习的

回答

6

对于带有攻击性的我不便回答

4

你说的aaa<bbbb 这个问题我会去看下是否存在

8

你的批评我还是接受的。在语法注意、英文文档确实我做的不够,无人维护确实前一段时间自己在忙业务项目没有太多时间升级外部版本。这些是我的问题,我接受并且会尽快优化。 阿里内部版本一直在维护和升级,最近也把最新内部的做了开源。我搞这个事情当时完全是因为自己在使用POI时候遇到了问题,所以自己研究了下源码做了重写,最最初自己用然后在内部写了一篇文章,再到开源。没有所谓KPI和P的原因。另外自己也在内部写了一些其他的工具暂时没有开源。我自己对技术比较感兴趣,但因为我自己本身是在业务团队,业务压力也比较大,有时候一个项目导致一段时间不能更新,我自己深表歉意,对于语言性的攻击实在无法接受。

8

不好意识,我说的有点斗气了,主要是被以前的Dubbo,Tengine等框架坑了。希望这个项目能够长期维护,能够代表阿里与国内公司的科技影响力。

2

没有去掉&符号 a26905ac-13fc-407c-acdf-ef94b88a0780 去掉 &符号 69c144d6-ae9f-4d6d-a947-d46b46d37f8f

源文件截图 image

7

1.1.2-beat1版本我尝试重现你的问题,但是没有重现,如果是是在1.0.的版本出现的问题,麻烦升级最新版,因为1.0.自己完全重写了POI的底层确实有很多自己不知道的坑,导致问题非常多,新版本都在POI sax底层重构可以避免很多问题,当然自己实现的方案优点是内存占用会大大降低,会等测试稳定后发布。麻烦试下1.12-beat1是否仍旧存在你说的问题 image image